Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей начиная от T9

В последнее время нам почти каждый день рассказывают в новостях, как языковые нейросетки уже вот-вот совершенно точно оставят лично вас без работы. При этом мало кто понимает – а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

OpenAI – компанию, сделавшую ChatGPT, – основали в 2015 году вот эти двое парнишек: Сэм Альтман и Илон Маск (кто бы тогда знал, во что это в итоге выльется...)
864864

Отличная статья. Всегда интересовал вопрос, каким объемом данных оперирует GPT-3. И что ей для этого нужно стадион серверов или обычный ПК. Оказывается обычный ПК с диском на 1,5ТБ. Я, мягко говоря, удивлен.

1

Так дело ведь не в хранении 1,5 тб данных на диске а в обучении и потом в постоянном "вычислении" этих 175 млрд параметров.

В оригинальной публикации OpenAI представлено 8 вариантов модели, и если взять самую маленькую из них (GPT-3 Small) со 125 миллионами параметров и попытаться обучить её при помощи профессиональной видеокарты NVidia V100, оснащённой мощными тензорными ядрами, то на это уйдёт примерно полгода. Если же взять самый большой вариант модели со 175 млрд параметров, то результата придётся дожидаться почти 500 лет.

4

Обычный ПК будет невероятно долго всё это считать. Поэтому используют GPU вместо CPU - они куда быстрее в задаче решения уравнений/перемножения матриц. Ну и про оперативку еще не забыть, конечно :)

3

в 1969 году чтобы полететь на луну требовались неебические мощности (и размеры) пк по тем временам,а сейчас электронная открытка с голосовым поздравлением будет мощнее.Так что вашему gpt много мощностей не надо, хуета с набором слов грубо говоря.