«Сбер» выложил в открытый доступ русскоязычную модель для обучения алгоритма генерации текстов GPT-3

GPT-3 можно обучить на основе русской литературы, русской и английской «Википедии», новостных сайтах и сайтах с вопросами и ответами и другого.

«Сбер» выложил в открытый доступ модель для генерации текстов GPT-3 Large с 760 млн параметров, сообщил управляющий директор департамента SberDevices Сергей Марков на «Хабре».

GPT-3 можно обучить на основе русской литературы, русской и английской «Википедии», новостных сайтах и сайтах с вопросами и ответами, публичных разделов Pikabu, научно-популярного сайта 22century.ru и банковского «Банки.ру», а также с помощью проекта с открытым исходным кодом, содержащим 33 млрд русских слов, Omnia Russica.

«Сбер» хотел научить GPT-3 обрабатывать программный код — для этого в обучающий корпус модели включили также данные из GitHub и StackOverflow.

Это первый обучающий корпус на русском языке, отмечают в компании. Проектом занялись подразделения «Сбера» SberDevices, SberCloud и команда по разработке ИИ AGI NLP. Команда AGI NLP провела работу по чистке данных, а также по подготовке наборов для тестирования моделей.

В мае 2020 года лаборатория OpenAI представила алгоритм GPT-3. Он работает с текстом: пишет стихи, прозу, новости и посты, придумывает шутки и литературные пародии, умеет отвечать на вопросы по прочитанному, переводить, решать примеры и программировать.

Оригинальный корпус от OpenAI содержал в основном материалы на английском — соотношение последнего и других языков составляет 93:7. В случае «Сбера» разработчики сделали упор на русский — соотношение к другим языкам составляет примерно 9:1, пишет Марков.

39
46 комментариев

Кстати поболтать с Нейромозгом на GPT3+ можно в Телеграм:
@AnotherMindBot

Ответить

760 миллионов параметров - не 600 ГБ. 600 ГБ весит датасет, на котором обучали.

Это версия GPT-2 с увеличенным контекстом и всякими другими штуками, обученная на русском языке. Она в 150 раз меньше настоящей GPT-3, у которой 175 миллиардов параметров

25
Ответить

На вашей же картинке несколько версий, и все разных размеров.

Ответить

Комментарий недоступен

11
Ответить

В комментариях на Хабре указали, что архитектура GPT-3 подробно описана в научных публикацих от Open AI, ребята из Сбера изучили эти публикации и в точь-точь повторили все, что там было описано, только для обучения использовали русский язык.

12
Ответить

Да ладно! Сбер выпускает свободное программное обеспечение

8
Ответить

GPT-3 займется развитием Сбер.Онлайн

7
Ответить