Исследовательское подразделение Microsoft AI представило три новые модели искусственного интеллекта собственного дизайна, нацеленные на работу с текстом, голосом и изображениями. Запуск MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 призван укрепить позиции Microsoft на быстрорастущем рынке ИИ и усилить конкуренцию с ведущими лабораториями Google и OpenAI за счёт мультимодального подхода и агрессивного снижения стоимости вычислений.
MAI-Transcribe-1 предназначена для быстрого распознавания речи и перевода её в текст на 25 языках. По данным компании, она опережает по скорости сервис Azure Fast примерно в 2,5 раза и способна за секунды расшифровать запись продолжительностью в несколько часов. Это делает модель особенно перспективной для конференций, онлайн‑курсов, созвонов и корпоративной аналитики переговоров.
Вторая модель, MAI-Voice-1, фокусируется на синтезе голоса и поддерживает создание «очень реалистичной речи» с сохранением характера и эмоций говорящего. Для настройки пользовательского голоса достаточно около одной минуты исходной записи. Модель может сгенерировать минутную аудиодорожку примерно за секунду и поддерживает тонкую кастомизацию голосов для сервисов озвучки, виртуальных ассистентов и мультимедиа.
MAI-Image-2 отвечает за визуальный контент: она генерирует изображения по текстовому описанию, уделяя особое внимание естественному освещению, корректным оттенкам кожи и чёткости встроенного в картинки текста. По задумке Microsoft, модель должна закрыть широкий спектр задач от маркетинговых материалов и иллюстраций до прототипирования интерфейсов.
Отдельный акцент сделан на стоимости использования. Тарификация расшифровки речи начинается от $0,36 в час, синтез речи оценивается в $22 за 1 миллион символов, а работа с изображениями обходится в $5 за 1 миллион входных токенов и $33 за генерацию 1 миллиона выходных токенов. Все три модели уже развёрнуты на платформе Microsoft Foundry, а инструменты транскрипции и синтеза речи доступны в MAI Playground для тестирования и интеграции разработчиками.
По информации TechCrunch, над проектом работала команда MAI Superintelligence, занимающаяся фундаментальными исследованиями продвинутых ИИ‑систем. С ноября 2025 года её возглавляет исполнительный директор Microsoft AI Мустафа Сулейман. При этом в интервью VentureBeat он подтвердил, что корпорация сохранит многолетнее партнёрство с OpenAI, в которую уже инвестировано более $13 млрд, и будет сочетать собственные модели с партнёрскими решениями по аналогии с диверсификацией поставок микрочипов. Для Microsoft, основанной в 1975 году и остающейся одним из ключевых игроков мирового рынка программного обеспечения и облачных сервисов, запуск линейки MAI становится очередным шагом в сторону построения единой мультимодальной ИИ‑экосистемы для разработчиков и корпоративных клиентов.