«Яндекс» создал нейросеть для генерации текста «Зелибоба» — но через полтора часа закрыл к ней доступ Статьи редакции

Доступ открыли раньше времени по ошибке, пользователи успели потестировать сервис.

Нейросетевой языковой алгоритм генерации текстов YaLM может продолжать текст на основе слов, которые ввёл пользователь, рассказали в «Яндексе».

Модель в основе «Зелибобы» была обучена на терабайтах текстов, в том числе новостных заметках, книгах, статьях «Википедии», постах в социальных сетях, форумах и других.

Через «Зелибобу» можно было создавать тексты в разных стилях: новостной заметки, анекдота, рекламного слогана, короткой истории и других.

У такой модели ровно одна задача — генерировать каждое последующее слово в предложении. Чтобы текст получился связным и грамматически правильным, во время обучения модель оценивает каждое предсказанное слово: например, решает может ли после «Мама мыла...» идти слово «бегать» или слово «раму».

«Яндекс»

Сейчас на странице сервиса «Ошибка 404». Демо-версию технологии открыли раньше времени по ошибке, пояснили TJ в «Яндексе». «Зелибоба» всё ещё находится в стадии внутреннего тестирования.

Пример работы нейросети N+1
Пример работы нейросети Главред
0
220 комментариев
Написать комментарий...
Артем Кандрин

Уже давно есть такие нейронки и покруче. А Яндекс как обычно слизал код с открытых репозиториях и спустя годы внедряет. Это росссииииия!
⚠️Ниже под коментом этим выложил пруфы-ссылки на такие сервисы.
⚠️Ну а далекие, кто дизлайкает, вам же по факту все расписали, что вы можете ещё сделать, как на кнопки жать:)))

Ответить
Развернуть ветку
Денис Тарасов

На самом деле, чтобы адекватно оценить масштаб свершения, нужно понимать хотя бы сколько в модели параметров. По ссылке написано, что максимальный размер модели, которая есть у Яндекса это 13 миллиардов параметров, но в Зелибабе, которую открыли людям - только 3 миллиарда.

Как это сопоставляется с российскими аналогами:

Модель от Сбербанка rugpt-3 - от 125 миллионов до 12 млрд. параметров, в открытом доступе модель с 1 млрд. параметров.

Русская GPT-2 (1 млрд параметров), обученная частным энтузиастом также доступна тут (https://github.com/l4rz/gpt-2-training)

Сервис https://aiwriter.ru использует две модели модель с 1.2 млрд параметров.

Как это сопоставляется с зарубежными аналогами:

Американская GPT-3 от OpenAI содержит 192 млрд. параметров (https://openai.com/blog/gpt-3-apps/)
Китайская WuDao 2.0 (университет Пекина) - 1.75 триллиона параметров (правда там другая архитектура - система состоит из большого числа сетей меньшего размера, подробнее можно прочитать например тут https://habr.com/ru/news/t/560854/)

Тем не менее выводы:
- С точки зрения российских достижений эта система находится на уровне, но не особо лучше аналогов
- С точки зрения положения вещей в мире, еще сильно есть куда расти

Как-то так.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Денис Тарасов

Языковая модель нужна не столько для генерации текста, сколько для решения различных задач понимания языка. Для этих задач модель от Сбера не такая плохая.

Сервис именно в том виде, в котором его открыли практического смысла не имеет, только развлекательный и пиар, типа "вот как мы можем".

Что до генерации, то шлак в модели отражает шлак в голове носителей языка, модели от OpenAI тоже не идеальны в этом плане, они могут генерировать расистские комментарии, всевозможные оскорбления и проч. Есть целое направление в исследовательской литературе, которое занимается проблемой борьбы с этим, установкой разных фильтров, но полностью ее решить не выходит. Учитывая еще субъективность определения того, что есть шлак, а что есть хороший текст, не факт, что эта проблема вообще разрешима.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Денис Тарасов

Ну это не для всех задач критично, хотя, конечно, раздражает, особенно когда идет одна тема, потом ставится перенос строки и пошло про другое. Границы документа не соблюдаются даже. Могли, конечно, лучше почистить данные. К слову сказать, XL меньше такого мусора, чем в large, видимо между ними был еще раунд очистки.

А так, ну, они не специализируются же на этом. Считается, видимо, что когда вычислительных ресурсов много, то можно особо не заморачиваться с деталями. Главное большой компьютер есть, все сделает, и в принципе, это для них наиболее простой способ конвертировать деньги в результат.

Ответить
Развернуть ветку
217 комментариев
Раскрывать всегда