Читаю и не вижу мяса. Одни фантазии и гигантские прибыли в придуманном мире по придуманным правилам.
Главный посыл - "дети и внуки . . . "
Причем тут распил? Других слов не знаете? Команда исследователей делает технологию синтеза речи (вообще делает, для различных проектов, не только Сбера). Это был вызов для команды (эта задача). В мире пока не существует систем клонирования голоса высокого качества, особенно когда материал для обучения системы качества низкого и синтезировать нужно экспрессивную (насыщенную эмоциональную) речь. Справились быстро и, насколько я понимаю, успешно.
Попросить актера нельзя было. У него голос изменился уже сильно. У людей вообще голос с возрастом меняется. Это проблема и биометрических голосовых систем.
Откуда столько негатива?
Голос тут deep fake. Он был создан из 4ех минут старых записей.
Проекты, подобные Боровому в Питере есть на Крестовском. Цены от миллиона евро за квартиру (но и квартиры от 100 квадратов). Качественная архитектура, адекватные соседи (имущественный ценз) + развитая инфраструктура везде будет дорого стоить.
Освещение вечером и ночью тоже от солнечных панелей идет?)
И насколько быстро разница в стоимости обслуживания окупает разницу в стоимости между таким зданием и традиционным?
Емкость модели больше, чем объем тренировочных данных.
Еще первую GPT критиковали за то, что она "вспоминала" данные (дополняла текст открывком из обучающих данных).
Это трансформер по архитектуре. На них хайп проходит. По сути, это крутой поисковик по обучающим данным.
GPT - 4 будет графовой сетью, скорее всего завязанной на графовые базы знаний, и она будет уже реальные reasoning делать.
GPT-2 настолько емкая сеть, что она просто выучила весь датасет . . .
Походу, Сбер решил весь IT сектор скупить.
Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.
Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.
Алексей Свищев
Всегда думал, что если человек без рук и мозгов, то он не меняет мир под себя, а живет на его дне.
Что изменится, если без рук и мозгов будет целое поколение? Что оно изменит? Что оно умеет делать?
Не случится ли так, что это подрастающее особо "одаренное" поколение, просто спустит все позиции, завоеванные умными, рациональными, приземленными, трудолюбивыми родителями. Ведь в мире миллиарды людей, готовых окровавленными пальцами выдирать себе место под солнцем . . .