Что такое нейросеть: объясняем простыми словами

Как она «мыслит» и как еë обучают.

От распознавания речи в мессенджерах до философских бесед с ChatGPT — присутствием нейросетей в обыденной жизни уже никого не удивишь. Алан Тьюринг, конечно, мечтал об обучаемых машинах, но он даже не мог предположить, что когда-нибудь искусственный интеллект займётся генерацией картинок с котятами.

Современные модели уже заменяют человека. Особенно успешно это происходит там, где для принятия решения важно опираться на предыдущий опыт и поведенческие паттерны. Вместе с Артёмом, ведущим научным сотрудником по исследованиям в области искусственного интеллекта в Meta Generative AI* в Швейцарии и автором крупнейшего канала про ИИ «эйай ньюз», разбираемся, что такое нейросети и как обстоят дела с их обучением на самом деле.

Нейросеть — это математическая модель, созданная по образу и подобию человеческого мозга. Только вместо естественных нейронов тут — вычислительные элементы, или программные модули, а вместо электрохимических сигналов — числа, бесконечно пробегающие по искусственным синапсам.

О нейросетях в середине XX века заговорили исследователи Уоррен Мак-Каллок и Уолтер Питтс. Первый был нейропсихологом, второй — нейролингвистом. Они смоделировали нейрон с помощью устройства, которое оперировало двоичными числами — нулём (нейрон в состоянии покоя) и единицей (нейрон активен). Этот процесс назвали компьютеризацией нейрона.

Созданная Уорреном Мак-Каллоком и Уолтером Питтсом модель была теоретической. Учёные показали, что она уже может выполнять числовые или логические операции разной степени сложности. Но на практике алгоритм её обучения всё ещё не был реализован.
Артём

Первую действительно обучаемую нейронную сеть — «Перцептрон» — продемонстрировал психолог Фрэнк Розенблатт в 1960 году. Она всё ещё была несовершенной, хотя умела распознавать некоторые буквы английского алфавита. Лишь в 1980-х годах, с появлением мощных вычислительных компьютеров учёные смогли разработать более сложные нейросети и алгоритмы их обучения. Уже не двухслойные, как у Мак-Каллока, Питтса и Розенблатта, а с большим числом слоёв. Далее мы расскажем, как и зачем в сложных сетях нейроны объединяются в слои.

Итак, искусственные нейроны имитируют работу нервных клеток человеческого мозга. Базовая сеть состоит из нейронов, объединённых в слои в зависимости от их функции.

Входные нейроны воспринимают новые данные и передают их следующей группе.
Следующая группа — скрытых нейронов — анализирует информацию, выявляет паттерны и особенности. В сложной сети может быть несколько скрытых слоёв.
Выходные нейроны агрегируют сигналы со скрытых слоёв и выдают результат.

Между отдельными нейронами из разных слоёв есть связи, а у связей — веса. Веса — это именно то, что позволяет нейросетям с плюс-минус одной и той же архитектурой учиться решать разные задачи: первой — отвечать на вопрос, второй — распознавать речь, третьей — отличать изображение собаки от вашего селфи.

Вот как это работает в последнем случае. Нейросети «скармливают» огромный массив размеченных изображений, среди которых, к примеру, есть фото с корги и человеческие портреты. Чтобы нейросеть могла отличить одно от другого, она должна сначала выделить разные элементы, идентифицировать их и подумать, что означает сочетание этих элементов (кстати, зрительная кора в затылочной доле нашего мозга примерно так и работает).

Это несколько задач, и для каждой требуется особая группа нейронов. Когда в следующий раз входные нейроны получат новое фото, скрытые — рассмотрят все элементы, а выходные — выдадут результат, ответ автоматически сверится с заранее известной разметкой картинки. Так оценивается успешность выполненной задачи. Если оценка будет высокой, нейросеть присвоит «удачным» связям большой вес, если низкой — обучение продолжится до тех пор, пока вес не достигнет максимального значения.

Поэтому, строго говоря, нейросеть не «думает» — она копит собственный опыт и применяет его в дальнейшей работе. Веса в данном случае играют роль фильтров, которые определяют, насколько важны входные сигналы для принятия решения.

Чем больше таких весов и чем тоньше их настройка, тем больше нас удивляет и впечатляет результат. Например, число нейронов и весов ChatGPT исчисляется миллиардами и триллионами — и всё это корректируется отобранными для обучения текстами и ручным трудом разметчиков.

Именно они (разметчики, или AI-тренеры, как сейчас модно называть) размечают данные для тренировки нейронок, показывая, как правильно отвечать на заданные вопросы. Сравнивая написанные людьми примеры с ответами модели, нейросеть «поощрается» за корректные тексты. Таким образом поддерживается имитация разговора с живым человеком.
Артём

В только что созданной нейронке вес связей распределён хаотично: сеть ещё не знает, чем корги отличается от ретривера, и не может распознать в голосовом сообщении слово «Эйяфьядлайёкюдль». Чтобы нейросеть корректно выполняла задачи, её нужно обучить — то есть настроить веса связей. Обучение нейронок бывает двух видов. Первый вариант — с учителем, второй — самостоятельное.

В первом случае нейросетям отправляют размеченный массив обучающих данных: корпус текстов, изображений или, например, звуков. Представьте, что перед контрольной вы получили сборник задач с ответами, чтобы самостоятельно решать и проверять свои решения, — нейронка действует аналогично. А когда входная группа нейронов получает новую задачу, каждый нейрон умножает полученные данные на свои веса и передаёт сигнал следующим нейронам. Похожим образом человеческий мозг анализирует условия задачи и прикидывает, как новые вводные повлияют на ответ.

Когда выходные нейроны выдают ответ, нейросеть «заглядывает» в шпаргалку с ответами и оценивает результат. Если данные совпадают, можно считать, что нейронка обучилась. А если нет, сеть корректирует веса так, чтобы выдавать более точный ответ.

Человеческое обучение проходит так же. Представьте, что вы решили задачу неправильно и учитель показал вам, где вы ошиблись. Наш мозг уменьшает «вес» использованной нейронной связи, и в следующий раз вы предпочтёте более эффективную стратегию. Процесс повторяется много раз — так обучаются и люди, и нейросети (правда, люди это пока делают быстрее).

Второй тип, обучение без учителя (self-supervised learning), предполагает, что разработчики «кормят» нейронку неразмеченным массивом данным — учебником без правильных ответов. Сеть должна сама «научиться» находить паттерны и выстраивать последовательность действий. Такой подход лучше масштабируется, так как не требуется дорогостоящая ручная разметка данных. Но, как правило, для решения конкретной задачи после этого этапа нейросеть дообучают на небольшой выборке размеченных данных высокого качества с ответами.
Артём

Существует множество архитектур нейронных сетей, которые применяются для решения разных задач. Вот самые распространённые типы нейронок:

Многослойная сеть (MLP). Одна из наиболее часто используемых архитектур. Сигнал в таких нейронках распространяется последовательно, при этом функции активации между слоями могут быть нелинейными. Современные MLP — «правнуки» модели Розенблатта, «Перцептрона».
Рекуррентные сети (RNN). Их преимущество — своего рода краткосрочная память. Такие модели хранят внутреннее состояние, которое обновляется с каждым следующим принятым на вход элементом. Примеры таких сетей: LSTM или GRU.
Свёрточные сети (CNN). Эти нейронки наиболее эффективны в работе с 2D-изображениями, потому что информация в них «привязана» к местоположению. У соседних пикселей явно больше общего, чем у пикселей из разных углов картинки. Именно это свойство изображений используют для дизайна слоёв свёрточной сети. CNN имитируют работу зрительной коры мозга и обрабатывают информацию последовательно: например, один слой распознаёт границы объекта, другой — его цвет, а последующие комбинируют признаки в сложные формы.
Автоэнкодеры (AE). Их главная задача — выдать результат, максимально приближенный к входным данным. Такую нейронку, например, могут научить сжимать изображения без потери качества.
Генеративно-состязательные сети (GAN). Это синтез двух нейронок: генератор создаёт данные, похожие на обучающие, а дискриминатор пытается отличить истинные данные от созданных. Оба компонента обучаются совместно, соревнуясь друг с другом. Такие сети в основном используются для генерации изображений. Дискриминатор при этом помогает создавать более реалистичные картинки.
Диффузионные модели (Diffusion Models). Это особый тип генеративных нейронных сетей, который используется для создания новых данных, таких как изображения или текст. Принцип их работы имитирует диффузию — физический процесс, в ходе которого частицы постепенно распространяются в пространстве. В процессе обучения диффузионная модель добавляет шум к исходным изображениям, а затем обращает этот процесс. Например, при генерации новой картинки нейронка начинает с чистого шума и шаг за шагом удаляет его, постепенно формируя осмысленное изображение.
Трансформеры (Transformer) — это мощные нейронные сети, специализирующиеся на обработке последовательных данных и в особенности текста. Они используют механизм внимания, чтобы эффективно анализировать взаимосвязи между элементами входных данных. Это позволяет им превосходно справляться с задачами обработки естественного языка. В наши дни трансформеры используют для машинного перевода, генерации текста, ответов на вопросы и других задач, связанных с пониманием и созданием текста. Кстати, ChatGPT, о котором вы наверняка слышали, — это как раз пример очень большого трансформера.

Здравоохранение, образование, инвестиции, искусство — сети постепенно проникают во все сферы нашей жизни. Вот некоторые прикладные области, в которых ИИ задействован уже сейчас:

Компьютерное зрение. Нейросети позволяют беспилотным автомобилям анализировать дорожную обстановку в реальном времени, распознавая пешеходов, дорожные знаки и транспортные средства.
Естественный язык. Нейронные сети переводят, распознают и генерируют текст. Некоторые модели даже анализируют тональность высказывания. Например, современные технологии распознавания речи на базе нейросетей понимают даже речь с ошибками, сленг, заимствования и ругательства.
Рекомендательные системы. Алгоритмы давно анализируют поведение пользователей и прогнозируют их предпочтения. Но если раньше разработчики контролировали работу этих алгоритмов, то сейчас людей могут заменять нейронки. Яркий пример — новая функция Spotify. Сервис предлагает пользователю плейлист, исходя из его предпочтений, а слушатель может сделать его более кастомным с помощью подсказок. Запросы могут быть любые: «Хочу, чтобы музыка была более попсовой» или «Подбери бит для зомби-апокалипсиса».
Медицина. Системы компьютерного зрения способны анализировать медицинские изображения — например, рентгеновские снимки или МРТ, помогая врачам выявлять заболевания на ранних стадиях с точностью, часто превышающей возможности человеческого глаза. Нейросеть SkinVision по фото пациента определяет потенциально опасные родинки — это помогает врачам обнаружить рак кожи на ранней стадии.
Создание контента. Нейросетям уже можно делегировать креаторские задачи. Наример, ChatGPT генерирует текст, Stable Diffusion и Midjourney — изображения, а Luma.ai — видео.
Финансы. Нейросети определяют платёжеспособность клиентов, составляют кредитный рейтинг, прогнозируют события на рынке ценных бумаг и обрабатывают документы.

Обучаемость нейронных сетей — это и плюс, и минус. С одной стороны, модели постоянно развиваются. С другой — в процессе обучения они способны непреднамеренно наследовать неэтичные и деструктивные установки, присутствующие в массиве обучающих данных. Например, без должного контроля за обучающей выборкой нейросеть может дискриминировать людей по расе, полу или социальному положению.

Плюсы нейросетей

Выполняют за человека рутинные задачи. Например, сервис Gmail давно использует нейронные сети для автоматического определения спама и сортировки электронной почты, а теперь нейронку можно даже попросить написать письмо.
Снижают влияние человеческого фактора. Нейронки не устают и принимают решения только на основе данных и алгоритмов. С помощью ИИ анализируют МРТ и рентгеновские снимки, выявляя аномалии, которые могут быть пропущены врачом.
Помогают обрабатывать большие объёмы данных. Это особенно полезно в научных исследованиях, финансах и медицине. Например, на Большом адронном коллайдере в ЦЕРН нейронные сети помогают идентифицировать редкие события и новые частицы. Астрофизики используют ИИ, чтобы анализировать данные гравитационных волн, находить слияния чёрных дыр и нейтронных звёзд.

Минусы нейросетей

С их помощью создают фейки. Правдоподобные изображения, поддельные записи голоса и скандальные видеоролики — последствия генеративных нейронок, которые оказались в публичном доступе. Это новый бич XXI века: теперь исследователи обучают специальные нейросети, чтобы те распознавали фейковый контент, — круг замкнулся.
Усиливают социальное неравенство. Во-первых, те, кто контролирует передовые технологии, получают социальный и экономический бенефиты. Во-вторых, нейронные сети уже приводят к сокращению рабочих мест — особенно в сферах, где есть много рутинных задач.
Иногда галлюцинируют. Буквально — игнорируют реальные факты, выдумывают персонажей или отказываются выполнять запросы.

Появление обучаемых нейросетей поставило перед человечеством ряд этических вопросов. Все ли должны иметь доступ к таким технологиям? Безопасно ли это? Насколько прозрачными должны быть алгоритмы? Если нейросеть обучаема, означает ли это, что у неё есть сознание? Если да, как с ней обращаться — как с роботом или как с человеком? Публичная дискуссия уже идёт, но единого мнения по этим вопросам, кодекса или международного этического комитета пока нет.

Если вам интересно увидеть больше примеров того, что могут современные нейронки, и углубиться в принципы их работы, подпишитесь на канал Артёма «эйай ньюз».

* Является частью компании Meta, которая признана в России экстремистской организацией.

Что такое нейросеть: простыми словами

Что такое нейросеть

Как работает нейросеть

Как обучают нейросети

Классификация нейросетей

Как применяются нейросети

Преимущества и недостатки искусственных нейросетей