Эпоха масштабирования LLM заканчивается? Да, но нет

На самом популярном видео-хостинге наткнулся на одно видео. Видео было про то, что эра масштабирования LLM закончилась. Я хоть и не подал виду, но напрягся.

Звучит так, будто завтра мы проснёмся - и всё, прогресс остановился, модели перестали умнеть, а дата-центры можно сдавать в аренду под склады.Но, немного покопавшись в интернете понял, что всё немного не так. Заканчивается не прогресс как таковой, а текущий подход, в котором мы жили последние годы:

берем сначала GPU, потом интернет тексты и делаем модель больше - гарантированно получаем следующий скачок.

Эта формула ещё работает, но всё чаще напоминает ситуацию, когда ты разгоняешь машину уже на высокой скорости: педаль жмёшь сильнее, а прирост - не тот. И главное - становится дорого проверять, сколько именно будет этого прироста.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и работать с данными, там регулярно выходят короткие заметки и практические примеры.

Самая неприятная часть истории - что данные не растут так же быстро, как вычисления. OpenAI-шный сооснователь в 2024 сформулировал это так: "peak data", дальше придётся жить с тем, что есть.

А Epoch AI попробовали это посчитать - сколько вообще существует запаса качественного публичного текста и когда он будет выедаться при текущих темпах. И по их оценкам, если тренды сохранятся, то в интервале примерно 2026-2032 мы начинаем упираться в дефицит именно качественных человеческих данных.

И да, речь не о том, что данных не будет совсем. Речь о том, что следующий процент качества будет требовать либо очень умного отбора данных, либо новых источников (мультимодальность, частные корпуса, индустриальные данные), либо замены части “органики” синтетикой.

Можно сказать: "Окей, данных мало, тогда давайте купим ещё больше железа и переобучим на том же". Но тут даже деньги решают не всё. Есть ограничения электричества, поставок, сетей, задержек внутри огромных кластеров - всё то, что делает обучение гигантов не только дорогим, но и инженерно хрупким.

Конечно, масштабирование как таковое не останавливается, но это уже становится не просто уровень крупной компании, это уже становится инфраструктурным проектом уровня государства.

Можно, а зачем? 🤔

Sequoia Capital в 2024 бросили в рынок тезис "AI’s $600B Question": если индустрия строит инфраструктуру на сотни миллиардов, то где соответствующая выручка и ценность, которые закрывают этот счёт.

Следующий GPT-уровень должен оправдываться не только бенчмарками, но и бизнес-эффектом - иначе деньги перетекают туда, где эффект понятнее: в прикладные агенты, автоматизацию, инструменты для разработчиков, корпоративные кейсы.

Суть тут в том, что в момент, когда предтренировка как раньше начинает останавливаться, то появляется уже другая форма масштабирования - масштабирование инференса.

Больше шагов рассуждения, больше вариантов, самопроверка, планирование. И под это уже есть исследования про inference scaling laws - как качество растёт от добавления вычислений на этапе ответа, а не на этапе обучения.

Да, это повышает стоимость запроса. Да, есть работы, которые показывают, что длинное рассуждение не всегда спасает фактическую точность. Но в общем и целом целом тренд понятен.

Мы всё чаще видим, что качество модели определяется не только предтренировкой, но и тем, как её доучили: RL, самофидбек, синтетические награды, обучение на решении задач, тул-юз. Это уже настолько крупный пласт, что под него выходят отдельные обзоры про post-training scaling.

И конечно же появляются синтетические данные, но с обязательным умным фильтром. Появляются работы, которые пытаются показать, что синтетика может вести себя предсказуемо и масштабируемо, но при этом все же есть определенные границы применимости.

Люди часто называют скейлингом только одну вещь - предтренировку на огромном веб-корпусе. И да, именно этот режим дорожает и становится менее линейным.Плюс есть альтернативная идеологическая позиция - что LLM в принципе не доведут нас до следующего скачка, и нужна другая парадигма (мировые модели, память, причинность).

Мы выходим из эпохи простого масштабирования в эпоху системного масштабирования.

Где решает не только размер модели, а связка:

• какие данные ты нашёл и как их отфильтровал,

• как ты пост-трейнил,

• как ты масштабируешь инференс,

• какие инструменты ты дал модели,

• и что это даёт в реальном процессе, а не на бенчмарке.

Я уверен, что этот процесс не прекратится по таким причинам уж точно, станет менее линейным - да, но дальше у этих знаний о мире есть множество различных применений.

Эпоха масштабирования LLM заканчивается? Да, но нет

Как оказывается, интернет не бесконечный 😰

Инфраструктура есть? А если найду? 👀

Cкейлинг закончился? 😱

Вывод 🤨