Как на самом деле работают нейросети. Объясняю на пальцах за 10 минут, чтобы вы больше не велись на хайп
Привет, я Игорь Ведом. У всех уже кружится голова от терминов: трансформеры, эмбеддинги, диффузия, RAG... Кажется, чтобы в этом разобраться, нужно как минимум защитить диссертацию. Это не так.
Забудьте про формулы. В начале было слово. Я хочу провести вас по стопам инженеров и ученых, которые создавали эту технологию. Показать, какие простые, а порой и до смешного тупые идеи лежат в основе самого дикого хайпа 21 века. Я сам писал по этому диплом, участвовал в соревнованиях по машинному обучению и проектировал многопоточные процессоры. Поверьте, внутри все гораздо проще, чем кажется снаружи.
Шаг 1: Всё началось с тупого словаря (50-е)
Первая попытка «машинного перевода» в 50-х — это был чистый пиар для освоения военных бюджетов. Инженеры IBM взяли 250 русских слов, 6 грамматических правил и сделали электронный словарь, который просто заменял русские слова на английские. Результат был бестолковым, но пресса взорвалась: «Через пару лет проблема перевода будет решена!». Не решили. Прошло 70 лет, а мы все еще тут.
Шаг 2: Геймеры и майнеры (неосознанно) оплатили AI-революцию
Прорыв случился, когда появились нейросети для картинок. Идея была простой: если взять фотку кошки, математически ее «свернуть» много-много раз, то на выходе получится крошечная абракадабра — самая суть кошки. И эта «суть» у всех кошек будет похожей. Так нейросети научились отличать кошек от собак.
Но была проблема: чтобы научить сеть, нужны были сотни тысяч картинок и чудовищные вычислительные мощности. И тут случились два чуда:
- Геймеры: Чтобы рендерить графоний в играх, придумали GPU — видеокарты, которые умеют делать тысячи вычислений параллельно.
- Майнеры: Чтобы грести крипту, им понадобились те же самые GPU, только в промышленных масштабах.
Спрос от геймеров и майнеров создал рынок и профинансировал разработку идеальных «ускорителей» для нейросетей. Каждый, кто покупал видеокарту для Cyberpunk, неосознанно инвестировал в будущее ChatGPT.
Шаг 3: Как вы бесплатно работали на OpenAI, листая котиков
Окей, железо есть. А где взять миллионы размеченных картинок? «Это кошка», «это собака». И тут на сцену вышли соцсети.
Группы любителей котиков, паблики с собаками — это все гигантские, идеально размеченные датасеты. Каждый раз, когда вы загружали фото своего питомца в нужный альбом, вы бесплатно работали на будущие AI-корпорации, размечая для них данные.
Позже появился трюк Transfer Learning. Зачем обучать нейросеть с нуля на дорогих медицинских снимках? Можно взять уже обученную на миллионах кошек и собак сеть (которую за вас обучили пользователи соцсетей), а потом просто «доучить» ее на небольшой выборке рентгеновских снимков. Эффективность, за которую заплатили вы.
Шаг 4: Попугаи, мёртвые языки и рождение GPT
С текстами все было сложнее. Первые нейросети-переводчики были похожи на попугая Кешу: они заучивали самые частые связки слов и выдавали их к месту, не понимая смысла. Их назвали рекуррентными.
Прорыв случился, когда словам научились придавать смысл в виде чисел (векторов или эмбеддингов). Идея гениальна в своей простоте: смысл слова — это то, как часто оно встречается рядом с другими словами. «Король» и «королева» будут иметь близкие векторы, а «король» и «капуста» — далекие.
Но настоящая революция — это трансформеры (Transformer). Их научили угадывать следующее слово в предложении. А чтобы понимать смысл, слова начали резать на кусочки — токены. Оказалось, что токены в разных языках имеют аналоги! «Вода», “water”, “wasser” — это разные слова, но смысловой токен у них общий.
Так родилась модель, которая могла генерировать текст, была предобучена на всех текстах человечества и использовала архитектуру трансформера. Generative Pretrained Transformer. GPT. И да, одним из ее создателей был наш соотечественник Илья Суцкевер.
Шаг 5: Как из бредогенератора сделали послушного ассистента (Спойлер: кнутом и пряником)
Ранние GPT были гениальны, но страдали «словесным поносом». Их несло в потоке шизофренического бреда. Решение пришло из робототехники — обучение с подкреплением (Reinforcement Learning).
OpenAI наняла армию людей, которые оценивали ответы нейросети: вот это хороший ответ (пряник), а вот это — бред (кнут). Постепенно модель научилась фильтровать чушь и стала послушной. Этот метод назвали RLHF (Reinforcement Learning from Human Feedback).
И вот ключевой, немного неприятный вывод: интеллект начинается с послушания. Без способности следовать инструкции машина (да и человек) — просто генератор хаоса.
Шаг 6: RAG, Агенты и почему ChatGPT до сих пор не умеет считать
Современный AI — это не одна большая модель, а конструктор из разных подходов.
- «Контекстное обучение»: У ChatGPT нет памяти. Каждый раз, когда вы пишете сообщение, ему на вход отправляется вся история вашего диалога. Он не помнит, он перечитывает.
- RAG (Retrieval Augmented Generation): Хотите, чтобы нейросеть отвечала по вашим документам? Вы создаете векторную базу данных, и перед каждым ответом система находит в ней релевантные куски и «скармливает» их модели вместе с вашим вопросом. Она не «знает» ваши данные, она «подглядывает» в них.
- Агенты: Нейросети плохо считают. Поэтому их научили вызывать внешние инструменты: писать и запускать код на Python для расчетов, делать поиск в Google, обращаться к базам данных. Это и есть «агенты» — когда у LLM появляются «руки» и «инструменты».
Сейчас мы находимся на этом этапе. Гиганты строят все более мощные модели, но главная работа происходит в «обвязке» — как научить этих гипер-гуманитариев работать с реальным миром цифр, таблиц и инструментов.
P.S. Этот разбор — фундамент. Он помогает понять, как все устроено. Но чтобы понимать, что на этом фундаменте строят прямо сейчас, нужно постоянно держать руку на пульсе.
В моем Telegram-канале Кнопка* я каждый день отбираю и публикую самые свежие и важные новости из мира AI. Без воды и перепечатки пресс-релизов — только то, что действительно влияет на технологии и бизнес, с коротким анализом, что это значит для нас с вами.
Подписывайтесь, чтобы получать инсайты, а не просто новости: