Сбер
2391

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Меня зовут Татьяна Шаврина, и мы вместе с командой AGI NLP обучаем в Сбере большие нейросети. В сентябре я рассказывала о рейтинге русскоязычных NLP-моделей — Russian SuperGLUE. У нас новости.

В закладки

В рамках соревнования на AI Journey, мы вместе со SberDevices обучили нейросеть ruGPT-3 — теперь она умеет генерировать письма, новости, «чатиться», писать код и даже отвечать на вопросы ЕГЭ. Архитектура модели основывается на решении Generative Pretrained Transformer 3 от OpenAI, которое было описано ими в статье.

AI Journey — конференция Сбера по искусственному интеллекту и анализу данных. В 2019 году она стала крупнейшей дискуссионной площадкой по искусственному интеллекту в Европе и попала в пятерку крупнейших в мире.

Модель ruGPT-3 обучена в нескольких вариантах: Large и Medium, на 760 и 350 миллионов параметров соответственно. Мы использовали для этого данные более чем с 30 открытых ресурсов, в том числе из «Википедии», художественной литературы, новостей, программного кода, диалогов, вопросов и ответов и так далее. Всего было изучено около 600 Гб информации.

Теперь ruGPT-3 посвящен отдельный трек в онлайн-соревновании AI Journey: вы можете попробовать свои силы и создать прототип для любой бизнесовой или социальной задачи, используя ruGPT-3. Призовой фонд соревнования — 2 миллиона рублей! Оценивается инновационность решения, бизнес-применимость, эмоциональное вовлечение.

Например, на основе архитектуры уже появились такие решения:

стартап learnfromanyone — нейросеть ведет школьную программу и отвечает на вопросы от лица известных ученых и исторических персонажей

— создание шаблона сайта по словесному описанию

— объяснение смысла юридического документа простыми словами

— создание официального письма по 2‒3 коротким тезисам

— автоматическая коррекция реального комментария в вежливую корпоративную форму.

Почему такие модели нужны? В общем, они могут достаточно сильно поменять привычные бизнес-процессы. Во-первых, они ускоряют и удешевляют прототипирование — по описанию модель может сгенерировать неограниченное количество черновых вариантов, из которых человек быстро выберет наиболее подходящий и доведет до финального вида со всеми возникающими правками заказчика (полностью автоматизировать их нельзя будет никогда). На таком принципе работает Николай Иронов «Студии Артемия Лебедева».

Во-вторых, они позволяют цифровизировать бизнес даже в тех случаях, когда данных очень мало: большие нейросети уже видели и неявно помнят все разнообразие документов, законов, стихов и постов в твиттере. Даже если за последний год в компании накопилось всего 100 пожеланий от клиентов, которые менеджер перенаправляет на нужных сотрудников вручную, то такая нейросеть способна очень точно воспроизводить делегирование обращений по сотрудникам, увидев всего 100 примеров.

Чтобы участвовать в соревновании нужны всего пара условий: зарегистрироваться на AI Journey и быть крутым дата-сайентистом.

Спойлер! Помимо нашего трека, можно участвовать еще в двух. Не менее интересных и важных. Например, в треке Digital Петр нужно создать алгоритм по строчному распознаванию рукописей Петра I — это образовательная задача с историческим уклоном, созданная на базе нескольких технологий AI (Computer Vision, NLP и графы знаний). А участникам соревнования, выбравших трек NoFloodWithAI, предлагают разработать алгоритм краткосрочного прогнозирования уровней воды реки Амур для предотвращения чрезвычайных ситуаций в регионах России.

Высокотехнологичная компания и крупнейший банк в России, Центральной и Восточной Европе. Сбер работает над созданием экосистемы удобных онлайн-сервисов в самых разных сферах. Сейчас в нее входит более 40 компаний. Среди них — онлайн-кинотеатр Okko, сервис доставки еды Delivery Club, служба такси «Ситимобил» и многие другие. Мы собираем лучшие технологии и управленческие методы из мировой практики, а масштабы компании и система поддержки сотрудников открывают возможности для карьеры в любом направлении и с любым уровнем амбиции. Сбер сотрудничает с вузами и проводит оплачиваемые стажировки для студентов IT-специальностей и финансовых факультетов.
{ "author_name": "Сбер", "author_type": "editor", "tags": [], "comments": 5, "likes": 13, "favorites": 35, "is_advertisement": false, "subsite_label": "sber", "id": 171679, "is_wide": false, "is_ugc": false, "date": "Thu, 29 Oct 2020 16:03:52 +0300", "is_special": false }
0
5 комментариев
Популярные
По порядку
1

Сколько времени модель обучалась?

Ответить
3

Модели обучались 3 эпохи на всей выборке - это порядка 3-4 недель

Ответить
1

Учатся быстрее чем на skillbox!

Ответить
1

Ахаха, в точку!

Ответить

Комментарий удален

0

Интересно, что из этого выльется? Такие технологии смогут обучать сотрудников, без контроля людьми? Если да, это сэкономит кучу времени!

Ответить

Комментарии

null