YouTube обещает идеальный AI-дубляж с синхронизацией губ. Но пока мы ещё далеки от полного слома культурных барьеров
Платформа работает над технологией, которая должна сломать главную стену между создателями контента и глобальной аудиторией. Но пока даже Google признаёт — это чертовски сложно.
YouTube тестирует технологию AI-синхронизации губ для автопереводов видео. Звучит как мелочь, но это может оказаться последним недостающим элементом в пазле глобального контента.
Сейчас весь мир разделён на языковые кластеры, и алгоритмы рекомендаций заточены под эту сегрегацию. Ролик на испанском покажут испаноговорящим, на хинди — индийцам. Универсальный охват получают только котики и скетчи без слов. Остальные создатели либо смиряются с ограниченной аудиторией, либо тратят ресурсы на дубляж — как MrBeast с целой командой актёров озвучки.
YouTube уже развернул автопереводы для 3+ миллионов создателей в Partner Program. С декабря 2024 года платформа переводит видео на французский, немецкий, хинди, индонезийский, итальянский, японский, португальский и испанский. Успешные каналы получают более 25% просмотров из переведённых дорожек.
Новая AI-технология должна решить проблему, когда губы не совпадают с произносимыми словами, из-за чего рушится погружение. Руководитель продукта автопереводов YouTube Буддхика Коттахаччи объяснил суть: система делает «сложные изменения на уровне пикселей, чтобы модифицировать рот говорящего и синхронизировать его с переведённой речью».
Это не простая замена пикселей. AI должен понимать трёхмерную структуру лица: геометрию губ, положение зубов, общую позу и выражение лица. По сути, модель создаёт 3D-представление лица в каждом кадре, а затем естественно деформирует его под новые слова — при этом сохраняя все оригинальные мимические реакции.
Сейчас технология работает только с видео в разрешении 1080p — для 4K мощностей пока не хватает. Запуск начнётся с пяти языков: английский, французский, немецкий, португальский и испанский. Потом — расширение до всех 20+ языков, которые поддерживает автодубляж.
Цукерберг уже запилил нечто похожее для рилсов на четырёх языках: анлийском, испанском, португальском и хинди. Правда, там пока проблемы с интонациями и акцентами — голос по тембру похож на оригинал, но теряет эмоциональную окраску. Зато губы перерисовывают неплохо.
YouTube пока не обещает конкретных сроков запуска фичи: в пилотном режиме её покатят на небольшую группу авторов — когда-то так начинался сам автодубляж. Учитывая, что автопереводы дошли до массового релиза за год, можно предположить, что синхронизация губ станет доступной всем в течение 2026 года.
Но есть нюанс: возможно, эта функция будет платной. Обработка каждого видео требует серьёзных вычислительных ресурсов, и компания ещё думает, как масштабировать технологию. Вопрос, кто будет платить — создатели или зрители — пока открыт.
Ещё одна проблема: качество обычного автодубляжа YouTube оставляет желать лучшего. Голоса звучат роботизированно, эмоции не передаются, фоновые звуки искажаются. Многие зрители настолько раздражены автопереводами, что создают расширения для их отключения.
Каких кусочков паззла не хватает:
- AI должен научиться передавать тон, эмоции и акценты оригинала
- Технология должна масштабироваться до 4K и всех популярных языков
- Доверие зрителей к качеству и достоверности
Думаю, через 2-3 года технология дойдёт до состояния, когда большинство зрителей не будут замечать перевод при просмотре. Полный слом культурных барьеров произойдёт только тогда, когда платформы научатся передавать не только слова и движения губ, но и культурный контекст — шутки, отсылки, локальные мемы.
Но даже автоперевод — это уже очень много: любой автор без знания языка и ресурсов на локализацию получает выход на глобальную аудиторию.
Подписывайтесь на Telegram Радиорубка Лихачёва.