Google представила Veo 3 — нейросеть, которая генерирует видео сразу со звуком

20 мая Google выпустила ИИ-модель Veo 3 для генерации видео по текстовому описанию.

Ее представили на конференции Google I/O вместе с ИИ-редактором Flow. Главное отличие от аналогов вроде Runway или Sora — ролики генерируются сразу с подходящим аудио. Расскажу подробнее.

Модель Veo 3 доступна в приложении Flow. Это редактор, который объединяет Veo 3 с текстовой нейросетью Google Gemini и моделью для создания изображений Imagen 4. Flow похож на Sora от OpenAI.

Ролик генерируется по текстовому запросу. Все промпты сохраняются в редакторе, с ними можно свободно экспериментировать. Например, в запросе можно задать описание сцены и стиль съемки, а затем развить сюжет, добавить или убрать персонажей или объекты.

Аудио генерируется одновременно с видео. Veo 3 самостоятельно создает подходящие под ролик фоновые шумы и звуки окружения, а также диалоги. При желании можно указать в описании сцены, какая музыка должна играть или с какими интонациями будут общаться персонажи.

Деморолик со сгенерированным диалогом

[next]