Очень краткая история нейросетей: от разработок 20-го века до ChatGPT

Привет! На связи снова Андрей Герцен. Интересуюсь нейронками, провожу эксперименты и интересно о них рассказываю.

В этом материале я постарался максимально просто и понятно поведать об истории нейросетей и их "эволюции" до наших дней. Объяснил термины, привёл примеры и добавил картинки.

До нейросетей были первые наработки в области искусственного интеллекта и машинного обучения. Сама концепция нейросети начала формироваться в 40-50-х годах прошлого века. Тогда исследователи пытались создать машину, которая могла бы имитировать функции человеческого мозга.

В 1943-м году Уоррен Мак-Каллок и Уолтер Питтс предложили математическую модель нейрона, а уже в конце 50-х Фрэнк Розенблатт представил персептрон (или же перцептрон). Именно персептрон можно назвать первой практической реализацией нейросети.

Персептрон — это простая модель машинного обучения, которую создали для помощи компьютерам в обучении на разных данных.

Очень краткая история нейросетей: от разработок 20-го века до ChatGPT

Как он работает:

Допустим, мы хотим обучить персептрон классифицировать изображения на "яблоки" и "апельсины". Вот как мы будем это делать:

Берём несколько изображений яблок и апельсинов.
Даём персептрону по одной картинке. Он её обрабатывает и соотносит к яблоку или апельсину.
Если ответ правильный, мы ничего не меняем. Если ответ неправильный, то мы корректируем правила внутри персептрона, чтобы в следующий раз он не ошибся.
Повторяем процесс для всех изображений, пока он не перестаёт ошибаться.
Далее мы тестируем персептрон уже с другими изображениями яблок и апельсинов.

Это очень простой пример того, как можно обучить и протестировать перцептрон. В реальности процесс более сложный и включает в себя настройку гораздо большего количества переменных и правил, но основная идея та же.

Персептрон — это очень базовая модель, но она проложила путь к разработке более совершенных алгоритмов машинного обучения, которые используются сегодня.

Несмотря на крутость персептрона, тогдашние исследования и вычислительные возможности не позволяли сильно развить идею нейросетей. В какой-то степени, от неё даже на время отказались.

Уже ближе к концу 20-го века исследователи добились большого прогресса. Был разработан "Метод обратного распространения ошибки".

Допустим, нейросеть пытается распознать рукописные цифры от 0 до 9. Ей сначала дают примеры для обучения, а потом она их использует, чтобы выдавать собственные предположения.

Нейросеть выдает предположение о конкретной цифре на изображении, а затем сравнивает это предположение с реальным значением и вычисляет разницу между ними (ошибку). Затем ошибка используется для корректировки весов нейронов, которые влияют на выходные данные нейросети. Процесс повторяется много раз, пока сеть не начинает распознавать цифры с максимально высокой точностью. До появления Метода обучать нейросети было сложно, потому что было трудно обновлять веса сети для оптимизации работы.

В дополнение к Методу исследователи придумали нелинейные функции активации. Они позволяют сети моделировать сложные взаимосвязи между входами и выходами. Это заложило основу для недавнего "возрождения" нейронных сетей уже в лице Deep Learning (Глубокое обучение).

Люди смогли обучать гораздо более крупные и сложные сети, что привело к прорывам в областях применения. Нейросети научились лучше распознавать изображения, речь и обрабатывать естественные языки.

В "нулевых" появились мощные графические процессоры и стали доступны большие объёмы данных, что привело к разработке алгоритмов Deep Learning.

Термин Deep Learning обрёл настоящую популярность только в 2010-х годах. Результаты исследований начали демонстрировать высокие результаты в обучении и составлении прогнозов на основе больших объёмов данных. Интерес к нейросетям начал сильно расти, а вместе с большим интересом пришли большие деньги.

Развитие Deep Learning привело к разработке новых архитектур, алгоритмов и инструментов для построения и обучения нейросетей, а это привело к началу распространения практического применения во многих отраслях.

Одной из самых прорывных историй является создание модели GPT-3 (Generative Pretrained Transformer 3) — языковой модели, разработанной OpenAI (они и создали ChatGPT). Модель была представлена в 2020 году и хорошо нашумела. Её натренировали на огромном количестве текстовых данных и научили выполнять разные языковые задачи.

В конце ноября 2022-го года в свет выходит ChatGPT и спустя 2 месяца пробивает отметку в 100 миллионов пользователей, получив статус самого быстрорастущего онлайн-сервиса за всю историю. Говорят, что в OpenAI сначала сами не предполагали, что сервис станет настолько популярным.

Мировые корпорации заметили успех и зашевелились. Google, Microsoft, Baidu, Яндекс и другие начали активно разрабатывать свои проекты на основе GPT-моделей для интеграции в сервисы.

Практически каждый день стали появляться ресурсы, помогающие без специальных знаний пользоваться услугами нейросетей. Да, помимо GPT-моделей есть много как текстовых аналогов, так и графических нейросетей. Но перечислить их здесь не получится, ведь я обещал кратко.

В перспективе у технологии огромный потенциал внедрения в разные области жизни, однако наверняка никто не знает, что именно произойдёт. Запасаемся попкорном и продолжаем наблюдать за этой увлекательной историей.

Если материал вам понравился, то приглашаю в свой Телеграм. Там я изучаю нейросети, рассказываю об их возможностях и провожу весёлые исследования. Курсы не продаю, подписываться не заставляю ⤵