Не ведитесь на хайп: как найти лучшую языковую модель

#ai #ии #chatgpt #claude #gemini #deepseek #gigachat #yandexgpt

Недавно наткнулся на интересное интервью с руководителем продукта OpenAI, и одна мысль крепко засела в голове: большинство людей судит об искусственном интеллекте, даже не попробовав с ним поработать. Это все равно что обсуждать вкус экзотического фрукта, только глядя на его фотографии.

«ИИ отберет нашу работу!» — кричат заголовки.

«Скайнет уже близко!» — пугают блогеры.

Но если честно: насколько эти страхи оправданы?

«Одна ошибка — и ты ошибся» © Джейсон Стейтем

Чтобы разобраться в реальных возможностях современных ИИ-моделей, есть один очень действенный способ — «слепое тестирование» на платформе Chatbot Arena (LMSYS).

Это как дегустация вин с закрытыми этикетками, только вместо вин — языковые модели. Вы получаете два ответа на свой вопрос и выбираете лучший, не зная, какая модель его дала.

И знаете что? Результаты весьма показательны. Неизменные лидеры этой «гонки вооружений»:

ChatGPT от OpenAI
Claude от Anthropic
Gemini от Google

Недавно их ряды пополнил новичок — китайская LLM DeepSeek R1, о которой я планирую рассказать в одной из следующих статей.

Рейтинг LLM в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flmarena.ai%2F&postId=1771628" rel="nofollow noreferrer noopener" target="_blank">Chatbot Arena</a> от 20.01.25

Стоит отметить, что на Российском рынке также есть свои игроки:

GigaChat от Сбера
YandexGPT от Яндекса

Но возникает любопытный момент: этих моделей нет практически ни в одном популярном бенчмарке, следовательно полноценно сравнить с другими моделями нельзя.

Есть лидерборд a-ai.ru, но даже там нет YandexGPT. Кроме того, данные модели проверяются на других задачах, следовательно, сравнение все равно не будет точным.

Основной мой посыл заключается в следующем: хотите понять ИИ — начните им пользоваться. Это как с автомобилями — можно бесконечно читать обзоры, но только сев за руль, вы поймете, что вам подходит.

Chatbot Arena может стать хорошим ориентиром: не нужно перебирать все модели подряд или пользоваться только самыми хайповыми. Вы можете опираться на общедоступный рейтинг и бенчмарки, но реальное поведение модели в разных ситуациях вы увидите только на практике — вы не узнаете, как модель ведёт себя на самом деле, пока не поработаете с ней самостоятельно.

Я ни в коем случае не пытаюсь сказать, что модели Сбера и Яндекса не нужны. Очень хорошо, что есть альтернативы и они активно их разрабатывают.

Однако я также хочу посмотреть правде в глаза: данные модели на текущий момент явно отстают от лидеров рынка — это заметно при их использовании.

Поэтому для того, чтобы вы имели полное представление о состоянии сферы ИИ в мире — вам обязательно стоит обратить внимание на текущие state-of-the-art модели.

Именно поэтому в своем проекте AI-мастермайнда, где вы сможете общаться с ИИ как с командой экспертов, я планирую использовать лидирующие модели в индустрии — чтобы пользователи получили максимально качественный и полезный опыт от разговора с ИИ для решения своих задач.

А какие ИИ-модели вы уже успели попробовать? Что вас впечатлило, а что разочаровало? Поделитесь своим опытом в комментариях!

В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.

t.me

Код без тайн

Кстати, теперь на vc.ru у меня появилась возможность принимать донаты. Если вам нравятся мои статьи, то вы можете поддержать мой блог не только лайком 🔥, но и донатом 💎

1010

1111

разместить

7 комментариев

София Василевская

26 янв

Я использую Шедеврум, иногда очень красиво получается)

Ответить

Владимир Айтишников

27 февр

Здорово! А в каких целях используете? Как получается?

Ответить

Katerina Smorodina AI

9 мар

Я в основном GPT, иногда Шедеврум, если нужны простые изображения к постам или статьям. Интересная задумка у вас, в телеге тоже написала)

Ответить

Алексей Иванов

9 мар

Автор

Спасибо за комментарий и интерес к проекту 😊

Ответить

Павел Данилов

26 янв

Я недавно начал использовать Perplexity для поиска. Тут на vc.ru про неё узнал.

Ответить

Владимир Айтишников

27 февр

Круто! Можете прямо тут поделиться вашим опытом)

Ответить

Алексей Иванов

29 янв

DeepSeek: не просто хайп, а новые правила игры

Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…

2020

Битва за будущее искусственного интеллекта началась: на сцену выходят агенты

Знаете, что общего между строительством дома и созданием искусственного интеллекта? В обоих случаях есть два пути: собрать команду специалистов или найти одного универсального мастера. Именно об этом сейчас спорят крупнейшие умы Кремниевой долины, и от исхода этого спора зависит будущее технологий.

Лев Лейман

Мнения

вчера

Эволюция сознания: от первобытных костров к цифровому сверхразуму

Будут ли волны нового сознания обладать нежностью или все мы станем угловатой, но точной математикой?

Коллективное сознание всегда требовало механизмов согласования — от религиозных догм до научного метода. В гибридном сознании таким механизмом становятся алгоритмы, определяющие, какие мысли "правильные", а какие - нeт.

Алексей Иванов

7 февр

Почему обычные AI-чаты устареют в 2025 году, и когда уже наконец агенты отнимут у нас работу

AI-чаты устаревают очень быстро. Поэтому такие гиганты как OpenAI, Anthropic и Microsoft делают ставку на агентный подход, где ИИ сам принимает решения и выполняет задачи. Но будущее ИИ — это не просто автоматизация, а новый уровень мышления. Вместо того чтобы заменять тебя, ИИ должен давать инсайты, помогать находить нестандартные решения и расшир…

1212

Всего 5 Секретов Для Контента с ИИ

Привет, на связи Игорь Зуевич, - я автор этого блога. Пишу про маркетинг, продажи и AI (ИИ) в социальных сетях. 💥Однажды я устал и решил делегировать создание контента для своего блога профессиональному копирайтеру. Казалось бы, идеальное решение: я экономлю время, а тексты получаются качественными. Но что-то пошло не так.

Слишком много AI - ИИ-стартапам и OpenAI приготовиться? (большой обзор от специалистов)

По закрытой статистике отток инвестиций из ИИ в 2024 составил
Читать продолжение...

1111

Роман Куцев

24 февр

Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные.

Kirill Krivolapov

7 мар

ChatGPT-4.5: твой новый лучший друг, который пишет тексты и понимает с полуслова

Лямин о нейросетях

31 янв

OpenAI vs DeepSeek: Кража технологий или эволюция нейросетей?

На этой неделе мир ИИ всколыхнула новость: OpenAI утверждает, что китайская компания DeepSeek использовала их модель для обучения своего чат-бота. Якобы OpenAI располагает «существенными доказательствами» того, что DeepSeek применяла их технологии, включая методы дистилляции, чтобы создать собственную языковую модель.

DeepSeek. Китайский прорыв в ИИ, который взорвал рынок и напугал OpenAI, Google и Microsoft

Вы устали платить большие деньги за ИИ-сервисы, которые не оправдывают ожиданий? Или вам надоели бесконечные подписки и скрытые платежи за «инновационные» технологии, которые на деле не так уж эффективны? В этой статье я расскажу, как китайская компания DeepSeek поменяла правила игры, предложив мощную модель ИИ за меньшую цену и без скрытых затрат.…

Геннадий Гужов

12 февр

Ученые доказали, что AI делает нас глупее

Ну, вот и официальная инфа: AI реально может делать нас тупее. Ученые из Microsoft и Университета Карнеги-Меллон (да-да, те самые ботаны в белых халатах) доказали: чем больше мы полагаемся на искусственный интеллект, тем меньше шевелим мозгами. И это не просто слова — исследование провели 319 научных работников, которые рассказали о 936 примерах ис…

Роман Куцев

6 мар

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

Не ведитесь на хайп: как найти лучшую языковую модель

Как узнать, какая модель умнее?

Какой из этого вывод?