(function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(93857963, "init", { defer: true, clickmap:true, trackLinks:true, accurateTrackBounce:true }); ym(93857963, 'hit', window.location.href);

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Меня зовут Татьяна Шаврина, и мы вместе с командой AGI NLP обучаем в Сбере большие нейросети. В сентябре я рассказывала о рейтинге русскоязычных NLP-моделей — Russian SuperGLUE. У нас новости.

В рамках соревнования на AI Journey, мы вместе со SberDevices обучили нейросеть ruGPT-3 — теперь она умеет генерировать письма, новости, «чатиться», писать код и даже отвечать на вопросы ЕГЭ. Архитектура модели основывается на решении Generative Pretrained Transformer 3 от OpenAI, которое было описано ими в статье.

AI Journey — конференция Сбера по искусственному интеллекту и анализу данных. В 2019 году она стала крупнейшей дискуссионной площадкой по искусственному интеллекту в Европе и попала в пятерку крупнейших в мире.

Модель ruGPT-3 обучена в нескольких вариантах: Large и Medium, на 760 и 350 миллионов параметров соответственно. Мы использовали для этого данные более чем с 30 открытых ресурсов, в том числе из «Википедии», художественной литературы, новостей, программного кода, диалогов, вопросов и ответов и так далее. Всего было изучено около 600 Гб информации.

Теперь ruGPT-3 посвящен отдельный трек в онлайн-соревновании AI Journey: вы можете попробовать свои силы и создать прототип для любой бизнесовой или социальной задачи, используя ruGPT-3. Призовой фонд соревнования — 2 миллиона рублей! Оценивается инновационность решения, бизнес-применимость, эмоциональное вовлечение.

Например, на основе архитектуры уже появились такие решения:

стартап learnfromanyone — нейросеть ведет школьную программу и отвечает на вопросы от лица известных ученых и исторических персонажей

— создание шаблона сайта по словесному описанию

— объяснение смысла юридического документа простыми словами

— создание официального письма по 2‒3 коротким тезисам

— автоматическая коррекция реального комментария в вежливую корпоративную форму.

Почему такие модели нужны? В общем, они могут достаточно сильно поменять привычные бизнес-процессы. Во-первых, они ускоряют и удешевляют прототипирование — по описанию модель может сгенерировать неограниченное количество черновых вариантов, из которых человек быстро выберет наиболее подходящий и доведет до финального вида со всеми возникающими правками заказчика (полностью автоматизировать их нельзя будет никогда). На таком принципе работает Николай Иронов «Студии Артемия Лебедева».

Во-вторых, они позволяют цифровизировать бизнес даже в тех случаях, когда данных очень мало: большие нейросети уже видели и неявно помнят все разнообразие документов, законов, стихов и постов в твиттере. Даже если за последний год в компании накопилось всего 100 пожеланий от клиентов, которые менеджер перенаправляет на нужных сотрудников вручную, то такая нейросеть способна очень точно воспроизводить делегирование обращений по сотрудникам, увидев всего 100 примеров.

Чтобы участвовать в соревновании нужны всего пара условий: зарегистрироваться на AI Journey и быть крутым дата-сайентистом.

Спойлер! Помимо нашего трека, можно участвовать еще в двух. Не менее интересных и важных. Например, в треке Digital Петр нужно создать алгоритм по строчному распознаванию рукописей Петра I — это образовательная задача с историческим уклоном, созданная на базе нескольких технологий AI (Computer Vision, NLP и графы знаний). А участникам соревнования, выбравших трек NoFloodWithAI, предлагают разработать алгоритм краткосрочного прогнозирования уровней воды реки Амур для предотвращения чрезвычайных ситуаций в регионах России.

0
14 комментариев
Написать комментарий...
Владимир Ковбой

Пиздёж. Все, что она умеет, это отвечать "мы сожалеем, что у вас сложилось о нас такое мнение." 

Ответить
Развернуть ветку
victor green

Вы прете против жрецов храма ИИ!) Падите в ноги и вам воздасться! СИИ грядет! На колени!)
Если серьёзно, то грустно. 

Ответить
Развернуть ветку
Rodi Walker

Очень грустно, что о таком можно мечтать.

После таких изобретений случаются глобальные потепления, вулканы, обледенения и человечество исчезает. Не спроста.

Ответить
Развернуть ветку
miteigi nemoto

Сколько времени модель обучалась?

Ответить
Развернуть ветку
Tari S

Модели обучались 3 эпохи на всей выборке - это порядка 3-4 недель

Ответить
Развернуть ветку
Борис Евстратов

Учатся быстрее чем на skillbox!

Ответить
Развернуть ветку
Nostra Reels

Ахаха, в точку!

Ответить
Развернуть ветку
Nostra Reels

Интересно, что из этого выльется? Такие технологии смогут обучать сотрудников, без контроля людьми? Если да, это сэкономит кучу времени!

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
victor green

Тогда зачем вообще молоко? Тотальное, абсолютное одиночество духа идеи в эпоху абсолютной технологической избыточности? 

Ответить
Развернуть ветку
Scott Freak

Все что я запомнил из статьи, так это то, что автора зовут Татьяна 🤔

Ответить
Развернуть ветку
victor green

ИИ (СИИ) "умнеет", а ЧИ тупеет. Когда нибудь "мы найдём друг друга"))
Материал - обычная реклама для вовлечения сил отрасли в загон Сбера. 

Ответить
Развернуть ветку
Артём Вечера

Сбер Искусственный Самообучаемый Интеллект

Ответить
Развернуть ветку
Maxim Lunegov

Я может что-то не понимаю, но почему статья про русскоязычную модель, а примеры, с использованием архитектуры, все на английском?

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Я не скажу свое имя машине

А толку - то? 

Ответить
Развернуть ветку
11 комментариев
Раскрывать всегда