Китайская компания DeepSeek AI выпустила обновление своей языковой модели искусственного интеллекта — DeepSeek V3.1. Главная особенность релиза — расширенное до 128 000 токенов контекстное окно, благодаря которому система «помнит» существенно больший объём данных в рамках одного запроса и способна работать с документами, сопоставимыми по объёму с романами или крупными репозиториями кода.
Увеличение контекста делает модель более удобной для аналитики длинных текстов, генерации сложных программных проектов и проведения продолжительных диалогов без потери логики. Разработчики утверждают, что им удалось сохранить прежнюю скорость отклика и качество ответов за счёт архитектуры Mixture-of-Experts — одновременно активируются лишь необходимые вычислительные блоки, что снижает нагрузку на оборудование.
DeepSeek V3.1 уже доступна для тестирования в официальных репозиториях компании. Интеграция проходит по тем же API, что и у предыдущей версии, поэтому переход не требует переработки существующих решений. Платформа остаётся условно открытой: исходный код основных компонентов опубликован, а коммерческие лицензии предоставляются по запросу.
Расширение «памяти» должно усилить позиции DeepSeek на рынке, где доминируют GPT-4 от OpenAI и Llama 3 от Meta. Ещё весной ранняя модель DeepSeek R1 опередила ряд западных конкурентов в стандартных тестах, а высокое соотношение производительность/стоимость сделало её популярной среди стартапов и исследовательских лабораторий.
Компания DeepSeek AI основана в 2023 году и фокусируется на создании доступных больших языковых моделей. Ставка на модульную архитектуру позволяет ей выводить продукты, сопоставимые по возможностям с лидерами отрасли, при заметно меньших вычислительных затратах. Версия V3.1 подтверждает курс разработчиков на быстрое наращивание контекстной ёмкости без компромиссов по скорости и стоимости, что делает новинку перспективным инструментом для корпоративных и академических проектов.