Все нормально, вы МОЖЕТЕ считать нейросети тупыми

В мире пользователей нейросетей можно выделить два полюса — оптимисты, истово верующие в скорое пришествие Суперинтеллекта, который решит все проблемы мира (или поработит нас), и скептики, которые считают нейросети тупой слоп-машиной, постоянно ошибающейся, делающей возмутительные заявления и галлюцинирующей.

Обычный пользователь где-то посередине: каждый день он читает бесконечный поток новостей о том, что некая LLM прошла очередной Последний экзамен человечества, показав уровень интеллекта команды из пяти PhD с IQ 130; а потом задает в свой чатджпт какой-то простой вопрос, получает глупую ошибку — у него возникают вопросики.

Так как же объективно посчитать интеллект нейросетей?

Конечно, есть эти самые тесты и бенчмарки. Однако их базовая проблема в том, что в основе там лежит не размышление, не решение проблемы, а банальное извлечение ответа из памяти. Если ответ на такой (или похожий) вопрос был в сети, LLM будет его знать. Конечно, эту проблему пытаются решить — эксперты пишут задания, которые нигде не засветились, но, оказывается, они регулярно утекают в сеть, и в этой гонке вооружений по-прежнему сложно отличить, где модель «вспомнила», а где подумала. Можно ли считать человека, который заучил все ответы на экзамене умным? Черт его знает.

Кроме того, инженеры специально тренируют нейросети проходить эти тесты, тратят на это тысячи часов и миллионы денег — ведь инвесторов и журналистов надо впечатлять; поэтому в презентации каждой новой модели вы обязательно увидите красивый график, где хотя бы один столбик будет выше, чем у конкурентов.

В общем, одни эксперты пишут тесты, которые должны быть сложны для LLM-ок, а другие эксперты тренируют LLM-ки, чтобы они успешно проходили эти тесты. Эм, а пользователь тут где? Чатбот — это инструмент, он должен быть полезен для пользователей в реальном мире для решения реальных задач.

Поэтому мне куда ближе история с так называемыми чатбот-аренами. Это такой способ сравнить качество ответов нейросетей слепым методом и на живых людях. На таких сайтах можно задать вопрос и получить ответ в двух разных окнах от двух случайных моделей, которые не подписаны. Какой ответ понравился, за такой голосуешь. Так формируется общий рейтинг по принципу рейтинга в шахматах — все «играют» со всеми. Конечно, тут тоже есть ограничения — на такие сайты ходят не все, психологически в среднем люди считают более длинные ответы более хорошими и т.д. Ну и инструмент этот только относительный, а не абсолютный — он показывает, какая модель умнее другой, но не насколько она умна в целом — умнее ли человека или умна ли по мнению человека.

Но ничего лучшего у нас нет, и залипать в рейтинг LMarena (главного такого проекта) я очень люблю — он показывает много неочевидного и как раз несовпадающего с позиционированием моделей от компаний и их результатами в тестах. Видите, на каком месте здесь GPT-5-Chat, то есть «простая», не думающая, текущая версия чатджпт — самая популярная в мире сейчас модель? Отставленная 4o лучше даже думающей 5-ки. А самая лучшая модель Open AI — это 4.5, которой вообще никто не пользуется (и не пользовался). У Клода тоже топовая модель ниже базовой. Ну и наконец, видите здесь Грок? А его нет — он сильно ниже в рейтинге.

Все нормально, вы МОЖЕТЕ считать нейросети тупыми

И последний фактор, о котором хотелось бы сказать, — это скрытая инфляция сообразительности нейросетей.

Во-первых, с точки зрения скорости работы. Сейчас усиление интеллектуального развития почти полностью ушло в думающие/размышляющие версии, а быстрые наоборот скатываются в упрощение. Казалось бы, все логично: мало подумал — плохо ответил, долго — хорошо. Лично для себя по дефолту я перешел только на размышляющие версии, потому что не могу быть уверен в качестве и надежности ответа обычных. Но вообще-то конечные пользователи привыкли, что ассоциированные с компьютерными технологиями действия (поиск, вычисления, перевод) подкупают своей мгновенностью. Если быстро = плохо, то остается только медленно. А лично меня, например, это часто сбивает с ритма и выбивает из рабочего потока.

Во-вторых, вычислительные мощности, необходимые для работы нейросетей, стоят дорого. Весь предыдущий аукцион невиданной щедрости был оплачен почти безлимитными инвесторскими деньгами, но очертания АI-пузыря становятся все более четкими, юнит-экономики проектов даже не думают сходиться, все будут поджиматься и затягивать пояса — приличные модели будут дорожать. И если я считаю относительно удовлетворительной хотя бы думающую GPT-5 на подписке за 20 долларов, то некоторые тренд-сеттеры уже считают, что имеет смысл иметь дело только с GPT-5-Pro за 200 баксов. (Забавно, что буквально на днях на Реддите вышел пост о том, что после последнего обновления даже Pro деграднула по всем нетехническим сферам, лол).

В общем, между оптимистами и скептиками я где-то посередине. Полезно знать, как с технической стороны развиваются нейросети, как составляются и проходятся эти бенчмарки. Но LLM для меня — это не цифры из новостей, а инструмент, которым я пользуюсь каждый день. Несмотря на то, что я стараюсь делать грамотные промпты, использую всякие лайфхаки и индивидуальные настройки, я все равно время от времени получаю комичный слоп — и, кстати, каждый раз раздражаюсь и злюсь (да, я злюсь на программу… но это наверное уже что-то психологическое). Так что я пока воздержусь от перехода в лагерь восторженных технобро. И вы тоже не дайте себя загазлайтить.

1
Начать дискуссию