Разрыв между первой и десятой нейросетью сжался до 5,4%: почему платить за лидера больше нет смысла
На прошлой неделе верхнюю строчку публичной арены нейросетей забрала модель, обошедшая флагман, который к тому моменту был вообще недоступен. Через пару недель там встанет другое имя, потом третье. Я смотрю на это как венчурный инвестор и как человек, который сам собирает на этих моделях рабочие инструменты, и вижу одну и ту же ошибку у фаундеров и у команд: они принимают решение по строчке в таблице, а потом платят за это переписанными процессами и сорванными сроками.
Гонка, у которой нет финишной черты
Сначала о масштабе потока, чтобы было понятно, с чем мы имеем дело. По данным Stanford HAI (AI Index Report 2026), только в США за 2025 год вышло 59 заметных моделей, в Китае – 35. Годом раньше счёт был 40 и 15. Это уже не история про «появился новый лидер», это конвейер, где один флагман сменяет другой быстрее, чем компания успевает переписать процессы под предыдущий.
Самое интересное даже не в скорости, а в том, что разница между лидерами почти исчезла. Тот же AI Index фиксирует: разрыв в рейтинге Elo между первой и десятой моделью на Chatbot Arena сжался с 11,9% до 5,4%, а между двумя верхними моделями – с 4,9% в 2023 году до 0,7% в 2024-м. На март 2026 года первое место опережает ближайших преследователей всего на 2,7%, и в плотной группе стоят сразу Anthropic, xAI, Google, OpenAI, Alibaba и DeepSeek. Когда вы выбираете «самую топовую», вы выбираете модель, которая лучше соседа на доли процента и уступит ему первое место к следующему релизу.
Параллельно с этим цена падает на порядки. По оценке Stanford HAI, стоимость инференса для модели уровня прежнего GPT-3.5 за полтора года снизилась с 20 долларов до 7 центов за миллион токенов, то есть более чем в 280 раз. Это значит, что «достаточная» вчерашняя модель сегодня стоит копейки, и переплата за верхнюю строчку рейтинга превращается из инвестиции в каприз.
Что на самом деле означает «у нас на топовой модели»
В моём венчурном опыте есть устойчивый сигнал. Когда основатель на питче гордо говорит «у нас всё на самой топовой модели», для меня это маркер того, что человек ориентируется на ярлык. Про качество продукта эта фраза не сообщает ничего, и для оценки компании она тоже ничего не весит. Модель – это сменная деталь, а не конкурентное преимущество. Преимущество находится в данных, в дистрибуции, в скорости итераций и в том, насколько глубоко продукт встроен в реальный процесс клиента.
Я отношусь к выбору модели так же, как к выбору любого другого подрядчика или сотрудника. Меня интересует не его репутация в вакууме, а то, закрывает ли он конкретную задачу с понятной ценой и предсказуемым результатом. Строчка в рейтинге к этому вопросу почти не относится.
Три оси, по которым бьёт погоня за топом
Издержки от того, что компания всё время пересаживается на нового лидера, не абстрактные. Они складываются из вполне измеримых вещей.
Первая ось – запросы и процессы, которые обнуляются при каждой смене. Команда полгода отлаживает библиотеку запросов под одну модель, добивается стабильного результата, на который можно положиться. Выходит новый лидер. Те же запросы дают на нём другой ответ, другой тон, другую структуру. Всё надо переписывать и перетестировать заново. По оценкам инженерных команд, базовое подключение новой модели занимает день-два, а полный перенос процесса на другого поставщика растягивается до трёх месяцев из-за разницы в интерфейсах, форматах и поведении. Каждый такой час – это час, который не ушёл в продукт.
Вторая ось – тихие обновления. Поставщик меняет веса модели без анонса, и поведение, которое работало месяц назад, перестаёт воспроизводиться. Для продукта, у которого под капотом крутится один и тот же запрос с расчётом на стабильный вывод, это означает внезапную деградацию там, где никто её не закладывал, и долгие поиски причины, которой нет в собственном коде.
Третья ось – привязка к поставщику. Поведение модели, обвязка вокруг неё, обученные люди и накопленные запросы завязаны на одного вендора одновременно. Каждый из этих слоёв создаёт собственную стоимость переключения, и они складываются. Компания, выстроившая процесс под одного лидера прошлого квартала, физически не может просто так перепрыгнуть на нового, даже если очень хочет.
Когда инструмент исчезает прямо посреди работы
Самый наглядный риск из всех – модель, на которой построен процесс, просто пропадает. В августе 2025 года OpenAI выпустила GPT-5 и задвинула привычную GPT-4o в архив. У тех, кто завязал на неё рабочие процессы, всё посыпалось, и по сообщениям того периода сбои обходились некоторым компаниям в тысячи долларов в день.
Сэм Альтман, генеральный директор OpenAI, после этого запуска признал: «Привязанность к модели реальна, и мы недооценили её важность». Под давлением пользователей компания вернула старую модель платным подписчикам и пообещала предупреждать заранее. А в феврале 2026 года OpenAI объявила о завершении доступа к GPT-4o уже по API, дав на адаптацию около двух недель. Сам факт, что зрелый поставщик дважды за полгода ломает чужие процессы сменой модельного ряда, должен отрезвлять любого, кто строит продукт вокруг одной конкретной версии.
Для российских команд к этому добавляется свой слой. Карты наших банков не принимают ни ChatGPT Plus, ни Claude Pro, ни Midjourney, поэтому работа идёт через зарубежные карты, посредников и VPN, которые то держатся, то отваливаются в самый неподходящий момент. «Самая топовая модель» по англоязычному рейтингу может оказаться просто недоступной в вашем продакшене, и тогда её место в таблице не стоит ничего.
Бенчмарк – это витрина поставщика, а не ваша задача
Публичный рейтинг устроен так, чтобы показать одну большую цифру, которая больше, чем у соседа. Это инструмент маркетинга самого вендора, и соблазн подгонять модель под показатель никуда не девается. Показательно, что при сильных результатах GPT-5 на тестах для программирования многие разработчики в реальной работе продолжали выбирать модели Anthropic. Разрыв между строчкой рейтинга и пригодностью в бою – это норма, а не исключение.
Бенчмарк не меряет того, что решает на практике. Он не показывает цену за результат, а она важнее цены за токен: по данным сервиса сравнения моделей Artificial Analysis, разброс стоимости между моделями доходит до 150 раз, и дешёвая модель становится дорогой, если её приходится перезапускать трижды, тогда как премиальная превращается в пустую трату на рутине. Рейтинг не меряет задержку ответа и не отвечает на вопрос, успеет ли результат к дедлайну. И он почти ничего не говорит о русском языке и культурном контексте: «топ по англоязычному тесту» не гарантирует приличного текста под локальную аудиторию.
Хорошо видно это и на крупных публичных кейсах. Праздничный ролик Coca-Cola в прошлом сезоне делали три студии на четырёх разных генеративных моделях, и зрители сразу заметили нестыковки, вплоть до того, что фирменные грузовики выглядели по-разному от кадра к кадру. Это прямое следствие того, что результат собирали из нескольких инструментов без единого источника правды, и волна критики накрыла бренд два года подряд. Другой пример – рекламный ролик Toys "R" Us, который агентство сделало на Sora, когда у самого бренда стабильного доступа к этой модели не было. Процесс, выстроенный вокруг инструмента, к которому у тебя нет надёжного доступа, ломается ровно тогда, когда нужен результат.
Где погоня за новой моделью всё-таки оправдана
Тезис «не гонитесь за топом» не означает «сидите на старом до последнего». Я сам обновляю инструменты, когда у обновления есть причина за пределами строчки рейтинга. Таких причин обычно три.
Первая – новая модель закрывает конкретное узкое место процесса. Если раньше команда вручную дорисовывала надписи на макетах, а свежая версия научилась рендерить текст сама, переход напрямую убирает целую статью ручной работы. Это апгрейд под задачу, а не под цифру.
Вторая – старый инструмент выводится из обращения или теряет доступность. Когда поставщик объявляет о выводе модели, миграция перестаёт быть вопросом вкуса, и тогда правильнее переехать управляемо заранее, чем тушить пожар за две недели до отключения.
Третья – новая модель меняет экономику в разы на большом объёме. Здесь работает разумная маршрутизация: рутину гнать на дешёвой модели, ключевые задачи – на дорогой. По моим прикидкам, на потоковых задачах такая раскладка экономит порядка трети бюджета без потери качества, и тогда смена оправдана деньгами, а не престижем.
Критерий, который переживёт смену лидера
Похожую логику я однажды проходил не с моделями, а с людьми. В Пиксель-квесте, детском развлекательном пространстве, которое я развиваю с партнёром, мы меняли маркетолога и брали более дорогого без всякой гарантии окупаемости. Бизнес тогда болтался около нуля, и решение держалось на конкретной задаче, которую иначе было не закрыть. Статус кандидата сам по себе тут ничего не решал, критерий задавала задача.
С нейросетями всё устроено так же. Сначала формулируется задача: какой формат, какой язык, какой объём, какие сроки, какой нужен доступ. Потом под эту задачу собирается критерий: стабильность доступа, цена за готовый результат, предсказуемость поведения, пригодность под русский контекст. И только в конце выбирается инструмент, который под этот критерий подходит сегодня. Такая рамка не устаревает, когда на верхней строчке арены в очередной раз меняется имя, а это происходит каждые пару недель.
FAQ
Значит, на бенчмарки можно вообще не смотреть? Смотреть стоит, но как на один из сигналов, а не как на вердикт. Рейтинг полезен, чтобы отсечь заведомо слабые модели и понять, кто вообще в игре. Дальше начинается ваша задача, ваши данные и ваша цена за результат, и тут таблица уже не помогает.
Как тогда выбрать модель, если они меняются так быстро? Зафиксировать не модель, а критерий. Опишите задачу и требования к ней, прогоните две-три кандидатуры на своих реальных примерах и выберите ту, что даёт нужный результат дешевле и стабильнее. При следующей смене лидера вы повторите тот же тест, а не будете переписывать всё с нуля под хайп.
А что делать со страхом отстать от конкурентов? Конкурентное преимущество почти никогда не лежит в том, какая модель крутится под капотом, потому что та же модель доступна всем. Оно в данных, в скорости и в том, как продукт встроен в процесс клиента. Отстать можно, если перестать решать задачу, а не если пропустить один релиз.
Стоит ли строить продукт сразу под несколько моделей? Если процесс критичен для бизнеса, закладывать возможность сменить поставщика разумно, но без фанатизма. Слой абстракции над моделью стоит денег и времени, поэтому он оправдан там, где простой или деградация реально дорогие, и избыточен там, где можно пережить день переключения вручную.
Заключение
Гонка моделей не закончится, лидеры так и будут меняться каждые пару недель, и это нормальное состояние рынка, а не временная турбулентность. Проигрывает в этой гонке не тот, кто работает на вчерашней модели, а тот, кто перестраивает процессы под каждую новую строчку рейтинга и платит за это временем, стабильностью и нервами команды. Выигрывает тот, у кого есть устойчивый критерий выбора, привязанный к задаче, а не к таблице.
Здесь я разбираю венчур, предпринимательство и AI, если зашло, подписывайтесь на мой блог.