Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Меня зовут Татьяна Шаврина, и мы вместе с командой AGI NLP обучаем в Сбере большие нейросети. В сентябре я рассказывала о рейтинге русскоязычных NLP-моделей — Russian SuperGLUE. У нас новости.

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ
2222

Сколько времени модель обучалась?

1
Ответить

Модели обучались 3 эпохи на всей выборке - это порядка 3-4 недель

3
Ответить