Большая проблема Veo 3

Эта модель искусственного интеллекта автоматически вставляет бессмысленные тексты в видеоролики спустя более месяца после ее запуска, что свидетельствует о готовности Google выпускать незаконченные продукты для демонстрации возможностей своего искусственного интеллекта.

ZNews•19/07/2025

Veo3 — новейшая модель искусственного интеллекта Google, представленная в конце мая. Она позволяет генерировать видео по командам. Эта модель привлекла внимание сообщества создателей контента, поскольку позволяет создавать видео со звуком и диалогами, чего не было в предыдущей версии модели Google, что делает их более реалистичными.

Многие пользователи используют видеоролики Veo 3 продолжительностью до 8 секунд для создания рекламных роликов, ASMR-видео, трейлеров к фильмам в жанре фэнтези и юмористических уличных интервью.

Номинированный на премию «Оскар» режиссёр Даррен Аронофски использовал этот инструмент для создания короткометражного фильма «Ancestra». На пресс-конференции генеральный директор Google DeepMind Демис Хассабис сравнил Veo 3 с отходом от эпохи немого кино.

«Постоянные» субтитры от Veo 3

Однако многие пользователи обнаружили, что этот инструмент работает не так, как ожидалось. При создании клипов с диалогами Veo 3 часто автоматически вставляет бессмысленные, беспорядочные субтитры, даже если команда явно запрещает их добавлять.

Удалить эти субтитры непросто. Пользователям приходится переснимать клип, тратить «токены», что означает дополнительные деньги для Google, или использовать сторонний инструмент для удаления субтитров, или обрезать видео, чтобы удалить субтитры.

Veo 3 создаёт реалистичные изображения, диалоги соответствуют движениям рта, но субтитры бессмысленны. Фото: Lesswrong .

Джош Вудворд, вице-президент Google Labs и Gemini, 9 июня написал в X, что Google разработала исправления для борьбы со спамом. Однако спустя более месяца пользователи продолжают сообщать об этой проблеме на Discord-канале Google Labs, что показывает, что исправление ошибок в крупных моделях искусственного интеллекта — непростая задача.

Как и предыдущие модели Google, генерирующие видео на базе искусственного интеллекта, Veo 3 — платная модель, стоимость которой начинается от 249,99 долларов США в месяц. Чтобы создать 8-секундное видео, пользователи вводят описание во Flow, Gemini или другую платформу. Каждый клип, созданный с помощью Veo 3, стоит минимум 20 кредитов ИИ, и пользователи могут пополнить счёт за 25 долларов США , получив 2500 кредитов.

Мона Вайс, коммерческий директор, отметила, что пересъёмка отснятого материала без субтитров становится серьёзной статьей расходов. «Если вы создаёте сцену с речью в Veo3, примерно 40% готового материала будут содержать бессмысленные субтитры, из-за которых видео становится непригодным к использованию», — сказала она. «Сцена, которая вам нравится, стоит огромных денег, но при этом непригодна к использованию».

На Veo 3 сложно удалить бессмысленные субтитры. Фото: Technology Review .

Когда Вайс сообщила о проблеме в Google Labs через Discord в надежде получить возврат средств за потраченные кредиты, служба поддержки перенаправила её в официальный отдел поддержки компании. Там предложили вернуть стоимость подписки на Veo 3, но не сами кредиты. Вайс отказалась, поскольку согласившись на возврат, она потеряла бы доступ к модели.

Команда поддержки Discord из Google Labs сообщила, что субтитры могут быть включены автоматически при обнаружении речи, и они работают над решением этой проблемы.

Проблема подхода Google

Причина, по которой Veo 3 автоматически вставляет подписи, кроется в данных, на которых обучается модель.

По словам Шуо Ню, исследователя платформ обмена видео и искусственного интеллекта из Университета Кларка в Массачусетсе, Google не раскрывает категории данных, использованных для обучения модели, вероятно, в нее включены видеоролики с YouTube и TikTok, многие из которых имеют встроенные непосредственно в кадр субтитры, что затрудняет их удаление перед использованием в качестве обучающих данных.

«Модели преобразования текста в видео обучаются с помощью обучения с подкреплением для создания контента, который имитирует созданные человеком видеоролики, и если эти видеоролики содержат субтитры, модель может «узнать», что добавление субтитров делает продукт более похожим на созданные человеком видеоролики», — объясняет он.

На Veo 3 влияют данные обучения модели, полученные из видео на YouTube и TikTok. Фото: Mashable .

«Мы постоянно совершенствуем возможности создания видео, особенно в части текста, естественной речи и идеально синхронизированного звука», — заявил представитель Google. «Мы призываем пользователей повторять команды, если они видят противоречивые результаты, и оставлять отзывы, ставя отметки «Нравится» или «Не нравится».

Кроме того, по словам Тухина Чакрабарти, исследователя систем искусственного интеллекта из Университета Стоуни-Брук, причина, по которой модель игнорирует инструкции типа «Нет субтитров», заключается в том, что отрицательные утверждения (просьба к ИИ не делать что-либо) часто менее эффективны, чем положительные подсказки.

Чтобы полностью решить проблему, Google придется проверить каждый кадр всех видео, которые использовались для обучения Veo 3, а затем удалить или переименовать видео с субтитрами перед повторным обучением модели, что займет несколько недель, добавил Чакрабарти.

Катерина Чижек, режиссер-документалист и арт-директор Лаборатории открытого документального кино Массачусетского технологического института, считает, что эта проблема показывает, что Google по-прежнему готова выпускать продукты, которые еще не полностью завершены.

«Google нужна победа», — сказал Чижек. «Им нужно первыми выпустить инструмент, который сможет распознавать звук их губ. И это важнее, чем решить проблему с субтитрами».

Источник: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html