NVIDIA открыла исходный код Audio2Face — ИИ-системы генерации мимики по аудио

Компания NVIDIA выложила в открытый доступ Audio2Face — комплекс SDK, плагинов для Maya и Unreal Engine 5 и обученных моделей, который преобразует любую речь в синхронную и эмоционально точную мимику 3D-персонажей. Теперь студии, инди-команды и исследователи могут бесплатно интегрировать технологию в проекты, дорабатывать её под свои задачи и запускать как в офлайн-рендере, так и в режиме реального времени.

NVIDIA открыла исходный код Audio2Face — ИИ-системы генерации мимики по аудио

Свежая модель 3.0 основана на диффузионных методах и точнее распознаёт фонемы, интонацию и паузы, улучшая совпадение движения губ с голосом и передавая нюансы эмоций. Разработчики получают не только исходный код, но и тренировочную платформу: можно доучивать сеть на собственном датасете, кастомизировать анимацию под стилизованных персонажей или локализовать жесты под разные языки.

Audio2Face уже доказал эффективность в коммерческих продуктах. Инструмент применялся в Chernobylite 2: Exclusion Zone, Alien: Rogue Incursion Evolved Edition, проектах Codemasters, NetEase и Reallusion. По словам Войцеха Паздура из The Farm 51, автоматизация сэкономила «сотни часов ручной анимации», ускорив производство без потери качества.

Выход исходников особенно актуален на фоне стремительного роста рынка цифровых аватаров: в 2024 году он оценивался в $29,06 млрд, а к 2032-му прогнозируется увеличение до $652,29 млрд. На игровые приложения приходится около 30% оборота, причём сегмент растёт в среднем на 49,24% ежегодно. Распространение открытых ИИ-инструментов вроде Audio2Face может ещё больше усилить эту динамику, сделав реалистичную лицевую анимацию стандартом для игр, VR-платформ и интерактивных сервисов.

Тоже интересно