DeepSeek-V4: мультимодальная ИИ-модель с окном контекста 1 млн токенов выйдет в апреле 2026 года

Компания DeepSeek готовит к релизу новую флагманскую мультимодальную модель искусственного интеллекта DeepSeek-V4. По данным источников, запуск ожидается в апреле 2026 года. Ключевой особенностью станет гигантское окно контекста до 1 млн токенов и нативная поддержка работы с текстом, изображениями и видео.

DeepSeek-V4: мультимодальная ИИ-модель с окном контекста 1 млн токенов выйдет в апреле 2026 года

Разработка DeepSeek-V4 велась последние полгода под руководством сооснователя компании Лян Вэньфэна. Команда сосредоточилась на улучшении обработки визуального контента, развитии ИИ-поиска и повышении качества генерации программного кода. Для этого DeepSeek ещё в прошлом году начала сотрудничать с Baidu. Ожидается, что модель будет использовать архитектуру Mixture-of-Experts с триллионом параметров и примерно 32 млрд активных параметров при инференсе, а общее число параметров может достигать десятков триллионов.

Среди приоритетных направлений развития заявлено улучшение долгосрочной памяти. Исследования команды DeepSeek привели к внедрению новых архитектурных решений, включая «условную память» и архитектуру памяти Engram, которые должны повысить эффективность извлечения информации из сверхдлинных контекстов. Дополнительно применяется технология DeepSeek Sparse Attention, позволяющая обрабатывать очень длинные последовательности без резкого роста времени вычислений и нагрузки на инфраструктуру.

Интерес к DeepSeek-V4 усилился после появления на платформе OpenRouter моделей Healer Alpha и Hunter Alpha. Healer Alpha ориентирована на мультимодальные задачи и работу с визуальной и звуковой информацией, но её контекст ограничен 260 тыс. токенов. Hunter Alpha рассчитана на агентные приложения, обладает триллионами параметров и контекстом 1 млн токенов, оптимизирована под долгосрочное планирование и многошаговые задачи. Однако их характеристики не совпадают с ранее озвученными параметрами DeepSeek-V4, что указывает на различие линеек продуктов.

DeepSeek-V4 позиционируется как модель, специализирующаяся на задачах программирования и способная конкурировать с решениями OpenAI и Anthropic в кодинге. Алгоритм будет глубоко адаптирован под китайские ИИ-ускорители и может стать одной из первых крупных моделей, полностью работающих в национальной вычислительной инфраструктуре Китая. Ожидается, что апрель станет напряжённым месяцем для рынка ИИ в Китае: помимо DeepSeek-V4, Tencent готовит к запуску новую модель примерно с 30 млрд параметров.

Тоже интересно