Эпоха масштабирования LLM заканчивается? Да, но нет
На самом популярном видео-хостинге наткнулся на одно видео. Видео было про то, что эра масштабирования LLM закончилась. Я хоть и не подал виду, но напрягся.
Звучит так, будто завтра мы проснёмся - и всё, прогресс остановился, модели перестали умнеть, а дата-центры можно сдавать в аренду под склады.Но, немного покопавшись в интернете понял, что всё немного не так. Заканчивается не прогресс как таковой, а текущий подход, в котором мы жили последние годы:
берем сначала GPU, потом интернет тексты и делаем модель больше - гарантированно получаем следующий скачок.
Эта формула ещё работает, но всё чаще напоминает ситуацию, когда ты разгоняешь машину уже на высокой скорости: педаль жмёшь сильнее, а прирост - не тот. И главное - становится дорого проверять, сколько именно будет этого прироста.
Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и работать с данными, там регулярно выходят короткие заметки и практические примеры.
Как оказывается, интернет не бесконечный 😰
Самая неприятная часть истории - что данные не растут так же быстро, как вычисления. OpenAI-шный сооснователь в 2024 сформулировал это так: "peak data", дальше придётся жить с тем, что есть.
А Epoch AI попробовали это посчитать - сколько вообще существует запаса качественного публичного текста и когда он будет выедаться при текущих темпах. И по их оценкам, если тренды сохранятся, то в интервале примерно 2026-2032 мы начинаем упираться в дефицит именно качественных человеческих данных.
И да, речь не о том, что данных не будет совсем. Речь о том, что следующий процент качества будет требовать либо очень умного отбора данных, либо новых источников (мультимодальность, частные корпуса, индустриальные данные), либо замены части “органики” синтетикой.
Инфраструктура есть? А если найду? 👀
Можно сказать: "Окей, данных мало, тогда давайте купим ещё больше железа и переобучим на том же". Но тут даже деньги решают не всё. Есть ограничения электричества, поставок, сетей, задержек внутри огромных кластеров - всё то, что делает обучение гигантов не только дорогим, но и инженерно хрупким.
Конечно, масштабирование как таковое не останавливается, но это уже становится не просто уровень крупной компании, это уже становится инфраструктурным проектом уровня государства.
Можно, а зачем? 🤔
Sequoia Capital в 2024 бросили в рынок тезис "AI’s $600B Question": если индустрия строит инфраструктуру на сотни миллиардов, то где соответствующая выручка и ценность, которые закрывают этот счёт.
Следующий GPT-уровень должен оправдываться не только бенчмарками, но и бизнес-эффектом - иначе деньги перетекают туда, где эффект понятнее: в прикладные агенты, автоматизацию, инструменты для разработчиков, корпоративные кейсы.
Суть тут в том, что в момент, когда предтренировка как раньше начинает останавливаться, то появляется уже другая форма масштабирования - масштабирование инференса.
Больше шагов рассуждения, больше вариантов, самопроверка, планирование. И под это уже есть исследования про inference scaling laws - как качество растёт от добавления вычислений на этапе ответа, а не на этапе обучения.
Да, это повышает стоимость запроса. Да, есть работы, которые показывают, что длинное рассуждение не всегда спасает фактическую точность. Но в общем и целом целом тренд понятен.
Мы всё чаще видим, что качество модели определяется не только предтренировкой, но и тем, как её доучили: RL, самофидбек, синтетические награды, обучение на решении задач, тул-юз. Это уже настолько крупный пласт, что под него выходят отдельные обзоры про post-training scaling.
И конечно же появляются синтетические данные, но с обязательным умным фильтром. Появляются работы, которые пытаются показать, что синтетика может вести себя предсказуемо и масштабируемо, но при этом все же есть определенные границы применимости.
Cкейлинг закончился? 😱
Люди часто называют скейлингом только одну вещь - предтренировку на огромном веб-корпусе. И да, именно этот режим дорожает и становится менее линейным.Плюс есть альтернативная идеологическая позиция - что LLM в принципе не доведут нас до следующего скачка, и нужна другая парадигма (мировые модели, память, причинность).
Вывод 🤨
Мы выходим из эпохи простого масштабирования в эпоху системного масштабирования.
Где решает не только размер модели, а связка:
• какие данные ты нашёл и как их отфильтровал,
• как ты пост-трейнил,
• как ты масштабируешь инференс,
• какие инструменты ты дал модели,
• и что это даёт в реальном процессе, а не на бенчмарке.
Я уверен, что этот процесс не прекратится по таким причинам уж точно, станет менее линейным - да, но дальше у этих знаний о мире есть множество различных применений.