На iPhone 17 Pro впервые запустили большую языковую модель с 400 млрд параметров локально, без обращения к облаку. Для смартфона это выглядит почти невероятно: даже сжатым версиям моделей такого класса обычно требуется свыше 200 ГБ оперативной памяти, тогда как у флагмана Apple установлено всего 12 ГБ LPDDR5X.
Демонстрацию провёл разработчик под ником @anemll в рамках открытого проекта Flash-MoE. Вместо традиционной загрузки всей модели в ОЗУ система потоково подаёт нужные фрагменты из флеш-памяти смартфона напрямую в GPU. Дополнительно используется архитектура Mixture of Experts: при генерации каждого слова активна лишь небольшая часть «экспертов», а не весь массив из 400 млрд параметров сразу. Такое сочетание оптимизаций и делает запуск модели на iPhone 17 Pro вообще возможным.
Цена этого достижения — производительность. Скорость генерации составляет около 0,6 токена в секунду, то есть на одно слово уходит до двух секунд. Для реального сценария использования это слишком медленно, к тому же режим создаёт серьёзную нагрузку на память, графический блок и аккумулятор, что грозит заметным расходом заряда.
Тем не менее эксперимент показывает, что даже чрезвычайно тяжёлые языковые модели теоретически можно запускать локально на мобильных устройствах при грамотной работе с памятью и агрессивной оптимизацией. На практике сейчас гораздо рациональнее использовать меньшие модели, но подобные демонстрации намекают на то, какие ИИ-задачи будущие смартфоны с чипами уровня A19 Pro смогут выполнять прямо на устройстве — с полной приватностью данных и без необходимости постоянного подключения к интернету.