Как на самом деле работают нейросети. Объясняю на пальцах за 10 минут, чтобы вы больше не велись на хайп

Привет, я Игорь Ведом. У всех уже кружится голова от терминов: трансформеры, эмбеддинги, диффузия, RAG... Кажется, чтобы в этом разобраться, нужно как минимум защитить диссертацию. Это не так.

Забудьте про формулы. В начале было слово. Я хочу провести вас по стопам инженеров и ученых, которые создавали эту технологию. Показать, какие простые, а порой и до смешного тупые идеи лежат в основе самого дикого хайпа 21 века. Я сам писал по этому диплом, участвовал в соревнованиях по машинному обучению и проектировал многопоточные процессоры. Поверьте, внутри все гораздо проще, чем кажется снаружи.

Как на самом деле работают нейросети. Объясняю на пальцах за 10 минут, чтобы вы больше не велись на хайп

Первая попытка «машинного перевода» в 50-х — это был чистый пиар для освоения военных бюджетов. Инженеры IBM взяли 250 русских слов, 6 грамматических правил и сделали электронный словарь, который просто заменял русские слова на английские. Результат был бестолковым, но пресса взорвалась: «Через пару лет проблема перевода будет решена!». Не решили. Прошло 70 лет, а мы все еще тут.

Прорыв случился, когда появились нейросети для картинок. Идея была простой: если взять фотку кошки, математически ее «свернуть» много-много раз, то на выходе получится крошечная абракадабра — самая суть кошки. И эта «суть» у всех кошек будет похожей. Так нейросети научились отличать кошек от собак.

Но была проблема: чтобы научить сеть, нужны были сотни тысяч картинок и чудовищные вычислительные мощности. И тут случились два чуда:

Геймеры: Чтобы рендерить графоний в играх, придумали GPU — видеокарты, которые умеют делать тысячи вычислений параллельно.
Майнеры: Чтобы грести крипту, им понадобились те же самые GPU, только в промышленных масштабах.

Спрос от геймеров и майнеров создал рынок и профинансировал разработку идеальных «ускорителей» для нейросетей. Каждый, кто покупал видеокарту для Cyberpunk, неосознанно инвестировал в будущее ChatGPT.

Окей, железо есть. А где взять миллионы размеченных картинок? «Это кошка», «это собака». И тут на сцену вышли соцсети.

Группы любителей котиков, паблики с собаками — это все гигантские, идеально размеченные датасеты. Каждый раз, когда вы загружали фото своего питомца в нужный альбом, вы бесплатно работали на будущие AI-корпорации, размечая для них данные.

Позже появился трюк Transfer Learning. Зачем обучать нейросеть с нуля на дорогих медицинских снимках? Можно взять уже обученную на миллионах кошек и собак сеть (которую за вас обучили пользователи соцсетей), а потом просто «доучить» ее на небольшой выборке рентгеновских снимков. Эффективность, за которую заплатили вы.

С текстами все было сложнее. Первые нейросети-переводчики были похожи на попугая Кешу: они заучивали самые частые связки слов и выдавали их к месту, не понимая смысла. Их назвали рекуррентными.

Прорыв случился, когда словам научились придавать смысл в виде чисел (векторов или эмбеддингов). Идея гениальна в своей простоте: смысл слова — это то, как часто оно встречается рядом с другими словами. «Король» и «королева» будут иметь близкие векторы, а «король» и «капуста» — далекие.

Но настоящая революция — это трансформеры (Transformer). Их научили угадывать следующее слово в предложении. А чтобы понимать смысл, слова начали резать на кусочки — токены. Оказалось, что токены в разных языках имеют аналоги! «Вода», “water”, “wasser” — это разные слова, но смысловой токен у них общий.

Так родилась модель, которая могла генерировать текст, была предобучена на всех текстах человечества и использовала архитектуру трансформера. Generative Pretrained Transformer. GPT. И да, одним из ее создателей был наш соотечественник Илья Суцкевер.

Ранние GPT были гениальны, но страдали «словесным поносом». Их несло в потоке шизофренического бреда. Решение пришло из робототехники — обучение с подкреплением (Reinforcement Learning).

OpenAI наняла армию людей, которые оценивали ответы нейросети: вот это хороший ответ (пряник), а вот это — бред (кнут). Постепенно модель научилась фильтровать чушь и стала послушной. Этот метод назвали RLHF (Reinforcement Learning from Human Feedback).

И вот ключевой, немного неприятный вывод: интеллект начинается с послушания. Без способности следовать инструкции машина (да и человек) — просто генератор хаоса.

Современный AI — это не одна большая модель, а конструктор из разных подходов.

«Контекстное обучение»: У ChatGPT нет памяти. Каждый раз, когда вы пишете сообщение, ему на вход отправляется вся история вашего диалога. Он не помнит, он перечитывает.
RAG (Retrieval Augmented Generation): Хотите, чтобы нейросеть отвечала по вашим документам? Вы создаете векторную базу данных, и перед каждым ответом система находит в ней релевантные куски и «скармливает» их модели вместе с вашим вопросом. Она не «знает» ваши данные, она «подглядывает» в них.
Агенты: Нейросети плохо считают. Поэтому их научили вызывать внешние инструменты: писать и запускать код на Python для расчетов, делать поиск в Google, обращаться к базам данных. Это и есть «агенты» — когда у LLM появляются «руки» и «инструменты».

Сейчас мы находимся на этом этапе. Гиганты строят все более мощные модели, но главная работа происходит в «обвязке» — как научить этих гипер-гуманитариев работать с реальным миром цифр, таблиц и инструментов.

P.S. Этот разбор — фундамент. Он помогает понять, как все устроено. Но чтобы понимать, что на этом фундаменте строят прямо сейчас, нужно постоянно держать руку на пульсе.

В моем Telegram-канале Кнопка* я каждый день отбираю и публикую самые свежие и важные новости из мира AI. Без воды и перепечатки пресс-релизов — только то, что действительно влияет на технологии и бизнес, с коротким анализом, что это значит для нас с вами.

Подписывайтесь, чтобы получать инсайты, а не просто новости:

t.me

Кнопка*

Как на самом деле работают нейросети. Объясняю на пальцах за 10 минут, чтобы вы больше не велись на хайп

Шаг 1: Всё началось с тупого словаря (50-е)

Шаг 2: Геймеры и майнеры (неосознанно) оплатили AI-революцию

Шаг 3: Как вы бесплатно работали на OpenAI, листая котиков

Шаг 4: Попугаи, мёртвые языки и рождение GPT

Шаг 5: Как из бредогенератора сделали послушного ассистента (Спойлер: кнутом и пряником)

Шаг 6: RAG, Агенты и почему ChatGPT до сих пор не умеет считать