{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Дмитрий Юрин

13 мар 2023 13.03.2023

Почему ChatGPT развивается быстрее других языковых моделей?

Каждая уважающая себя поисковая компания разрабатывает собственную языковую модель: Bard в Google, YaLM 2.0 в Яндексе, ERNIE в Baidu и другие. Пока другие пытаются, Microsoft уже внедряет ChatGPT в Bing и Edge.

Обновленный AI-поиск браузера Edge. Источник: blogs.microsoft.com

Прошло всего 4 месяца, как OpenAI открыли публичный доступ к ChatGPT. За это время аудитория активных пользователей ChatGPT достигла 100 миллионов, которые создали десятки миллиардов промптов. Теперь очевидно, что другие языковые модели отстают и не смогут конкурировать с ChatGPT.

Объем тренировочных данных ChatGPT сопоставим с размером интернета. По данным SimilarWeb на август 2021 года, объем интернета - это почти 2 миллиарда сайтов с десятками страниц контента. Далее этот объем тренировочных данных был дообучен в предыдущей версии ChatGPT - InstructGPT (известная как GPT-3.5). Модель была дообучена с помощью обратной связи живых людей на огромном количестве ответов нейросети.

Что мы имеем сейчас? Десятки миллиардов промптов, сгенерированные пользователями и десятки миллиардов ответов ChatGPT. Этими данными отлично пользуется команда OpenAI, чтобы дособирать уникальный корпус текстов, по которому можно будет дообучить ChatGPT.

Чем больше данных собрано и чем больше обратной связи получено на ответы языковой модели, тем более точный результат дает языковая модель.

Вы знаете хотя бы еще одну языковую модель с такими объемами данных и обратной связи? Нет. И чем дальше, тем точнее становится ChatGPT, дообучаясь на уникальном корпусе текстов и обратной связи.

*Перед прочтением рекомендую изучить статью про основы ChatGPT.

8.4K показов

1K открытий

14 комментариев

Написать комментарий...

Сообщество WSA.vc

13.03.2023

Ответить

Развернуть ветку

Дмитрий Юрин

13.03.2023 Автор

Кажется, что нужно промпт адаптировать, поскольку все смыслы и цифры потерялись

Ответить

Развернуть ветку

Николай Володин

13.03.2023

Мне кажется, потому что ChatGPT хорошенько форсили в интернете) И это сработало как хорошая реклама

Ответить

Развернуть ветку

Дмитрий Юрин

13.03.2023 Автор

Скорее потому что кроме классной технологии, ещё был легкий интерфейс. Потому что GPT-3 тоже в публике была, но только с API-интерфейсом. И такого форса не было

Ответить

Развернуть ветку

Кирилл Родин

13.03.2023

пробовал несколько ии, вот в чат гпт самый удобный интерфейс и там как-то приятнее создавать запросы

Ответить

Развернуть ветку

J D

13.03.2023

Интересно что там с утекшей большой моделью от Facebook - llama.
Насколько она хороша.

Ответить

Развернуть ветку