760 миллионов параметров - не 600 ГБ. 600 ГБ весит датасет, на котором обучали. Это версия GPT-2 с…

22.10.2020

«Сбер» выложил в открытый доступ русскоязычную модель для обучения алгоритма генерации текстов GPT-3

GPT-3 можно обучить на основе русской литературы, русской и английской «Википедии», новостных сайтах и сайтах с вопросами и ответами и другого.

3939

Михаил Самин

22.10.2020

760 миллионов параметров - не 600 ГБ. 600 ГБ весит датасет, на котором обучали.

Это версия GPT-2 с увеличенным контекстом и всякими другими штуками, обученная на русском языке. Она в 150 раз меньше настоящей GPT-3, у которой 175 миллиардов параметров

Ответить

Temporello

23.10.2020

На вашей же картинке несколько версий, и все разных размеров.

Ответить