Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Меня зовут Татьяна Шаврина, и мы вместе с командой AGI NLP обучаем в Сбере большие нейросети. В сентябре я рассказывала о рейтинге русскоязычных NLP-моделей — Russian SuperGLUE. У нас новости.

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

В рамках соревнования на AI Journey, мы вместе со SberDevices обучили нейросеть ruGPT-3 — теперь она умеет генерировать письма, новости, «чатиться», писать код и даже отвечать на вопросы ЕГЭ. Архитектура модели основывается на решении Generative Pretrained Transformer 3 от OpenAI, которое было описано ими в статье.

AI Journey — конференция Сбера по искусственному интеллекту и анализу данных. В 2019 году она стала крупнейшей дискуссионной площадкой по искусственному интеллекту в Европе и попала в пятерку крупнейших в мире.

Модель ruGPT-3 обучена в нескольких вариантах: Large и Medium, на 760 и 350 миллионов параметров соответственно. Мы использовали для этого данные более чем с 30 открытых ресурсов, в том числе из «Википедии», художественной литературы, новостей, программного кода, диалогов, вопросов и ответов и так далее. Всего было изучено около 600 Гб информации.

Теперь ruGPT-3 посвящен отдельный трек в онлайн-соревновании AI Journey: вы можете попробовать свои силы и создать прототип для любой бизнесовой или социальной задачи, используя ruGPT-3. Призовой фонд соревнования — 2 миллиона рублей! Оценивается инновационность решения, бизнес-применимость, эмоциональное вовлечение.

Например, на основе архитектуры уже появились такие решения:

стартап learnfromanyone — нейросеть ведет школьную программу и отвечает на вопросы от лица известных ученых и исторических персонажей

— создание шаблона сайта по словесному описанию

— объяснение смысла юридического документа простыми словами

— создание официального письма по 2‒3 коротким тезисам

— автоматическая коррекция реального комментария в вежливую корпоративную форму.

Почему такие модели нужны? В общем, они могут достаточно сильно поменять привычные бизнес-процессы. Во-первых, они ускоряют и удешевляют прототипирование — по описанию модель может сгенерировать неограниченное количество черновых вариантов, из которых человек быстро выберет наиболее подходящий и доведет до финального вида со всеми возникающими правками заказчика (полностью автоматизировать их нельзя будет никогда). На таком принципе работает Николай Иронов «Студии Артемия Лебедева».

Во-вторых, они позволяют цифровизировать бизнес даже в тех случаях, когда данных очень мало: большие нейросети уже видели и неявно помнят все разнообразие документов, законов, стихов и постов в твиттере. Даже если за последний год в компании накопилось всего 100 пожеланий от клиентов, которые менеджер перенаправляет на нужных сотрудников вручную, то такая нейросеть способна очень точно воспроизводить делегирование обращений по сотрудникам, увидев всего 100 примеров.

Чтобы участвовать в соревновании нужны всего пара условий: зарегистрироваться на AI Journey и быть крутым дата-сайентистом.

Спойлер! Помимо нашего трека, можно участвовать еще в двух. Не менее интересных и важных. Например, в треке Digital Петр нужно создать алгоритм по строчному распознаванию рукописей Петра I — это образовательная задача с историческим уклоном, созданная на базе нескольких технологий AI (Computer Vision, NLP и графы знаний). А участникам соревнования, выбравших трек NoFloodWithAI, предлагают разработать алгоритм краткосрочного прогнозирования уровней воды реки Амур для предотвращения чрезвычайных ситуаций в регионах России.

2222
14 комментариев

Пиздёж. Все, что она умеет, это отвечать "мы сожалеем, что у вас сложилось о нас такое мнение." 

5
Ответить

Вы прете против жрецов храма ИИ!) Падите в ноги и вам воздасться! СИИ грядет! На колени!)
Если серьёзно, то грустно. 

1
Ответить

Сколько времени модель обучалась?

1
Ответить

Модели обучались 3 эпохи на всей выборке - это порядка 3-4 недель

3
Ответить

Интересно, что из этого выльется? Такие технологии смогут обучать сотрудников, без контроля людьми? Если да, это сэкономит кучу времени!

1
Ответить
Комментарий удалён модератором

Все что я запомнил из статьи, так это то, что автора зовут Татьяна 🤔

Ответить