Китай и правда понесло: представлена нейросеть OmniHuman, которая создаёт максимально живые видео по фотографиям

В ByteDance разработали систему искусственного интеллекта, которая преобразует фотографии в максимально реалистичные видеоролики.

Новая система под названием OmniHuman генерирует видеоролики в полный рост, на которых люди жестикулируют и двигаются в соответствии с речью, превосходя предыдущие модели искусственного интеллекта, которые могли анимировать только лица или верхнюю часть тела.

Кадр из видео

«В последние годы сквозная человеческая анимация претерпела заметные улучшения, — заявили в ByteDanc. — Однако существующие методы по-прежнему с трудом масштабируются в качестве больших общих моделей генерации видео, что ограничивает их потенциал в реальных приложениях».

Команда обучила OmniHuman на более чем 18 700 часах человеческих видеоданных, используя новый подход, который объединяет несколько типов входных данных — текст, аудио и движения тела. Эта стратегия обучения «всеобщих условий» позволяет ИИ обучаться на гораздо более крупных и разнообразных наборах данных, чем предыдущие методы.

«Наша главная идея заключается в том, что включение в процесс обучения множественных кондиционирующих сигналов, таких как текст, аудио и поза, может значительно сократить потери данных», — пояснила исследовательская группа.

В ходе тестирования OmniHuman превзошел существующие системы сразу по нескольким показателям качества. Огромное количество примеров можно найти по этой ссылке.

Ранее китайская технологическая компания Alibaba выпустила новую версию своей модели искусственного интеллекта Qwen 2.5-Max, которая, по словам представителей компании, превзошла высоко оцененную модель DeepSeek-V3. А DeepSeek сообщила о запуске новейшей ИИ-модели Janus-Pro-7B.