реклама
разместить

Не ведитесь на хайп: как найти лучшую языковую модель

Не ведитесь на хайп: как найти лучшую языковую модель

Недавно наткнулся на интересное интервью с руководителем продукта OpenAI, и одна мысль крепко засела в голове: большинство людей судит об искусственном интеллекте, даже не попробовав с ним поработать. Это все равно что обсуждать вкус экзотического фрукта, только глядя на его фотографии.

«ИИ отберет нашу работу!» — кричат заголовки.

«Скайнет уже близко!» — пугают блогеры.

Но если честно: насколько эти страхи оправданы?

«Одна ошибка — и ты ошибся» © Джейсон Стейтем
«Одна ошибка — и ты ошибся» © Джейсон Стейтем

Как узнать, какая модель умнее?

Чтобы разобраться в реальных возможностях современных ИИ-моделей, есть один очень действенный способ — «слепое тестирование» на платформе Chatbot Arena (LMSYS).

Это как дегустация вин с закрытыми этикетками, только вместо вин — языковые модели. Вы получаете два ответа на свой вопрос и выбираете лучший, не зная, какая модель его дала.

И знаете что? Результаты весьма показательны. Неизменные лидеры этой «гонки вооружений»:

  • ChatGPT от OpenAI
  • Claude от Anthropic
  • Gemini от Google

Недавно их ряды пополнил новичок — китайская LLM DeepSeek R1, о которой я планирую рассказать в одной из следующих статей.

Рейтинг LLM в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flmarena.ai%2F&postId=1771628" rel="nofollow noreferrer noopener" target="_blank">Chatbot Arena</a> от 20.01.25
Рейтинг LLM в Chatbot Arena от 20.01.25

Стоит отметить, что на Российском рынке также есть свои игроки:

  • GigaChat от Сбера
  • YandexGPT от Яндекса

Но возникает любопытный момент: этих моделей нет практически ни в одном популярном бенчмарке, следовательно полноценно сравнить с другими моделями нельзя.

Есть лидерборд a-ai.ru, но даже там нет YandexGPT. Кроме того, данные модели проверяются на других задачах, следовательно, сравнение все равно не будет точным.

Какой из этого вывод?

Основной мой посыл заключается в следующем: хотите понять ИИ — начните им пользоваться. Это как с автомобилями — можно бесконечно читать обзоры, но только сев за руль, вы поймете, что вам подходит.

Chatbot Arena может стать хорошим ориентиром: не нужно перебирать все модели подряд или пользоваться только самыми хайповыми. Вы можете опираться на общедоступный рейтинг и бенчмарки, но реальное поведение модели в разных ситуациях вы увидите только на практике — вы не узнаете, как модель ведёт себя на самом деле, пока не поработаете с ней самостоятельно.

Я ни в коем случае не пытаюсь сказать, что модели Сбера и Яндекса не нужны. Очень хорошо, что есть альтернативы и они активно их разрабатывают.

Однако я также хочу посмотреть правде в глаза: данные модели на текущий момент явно отстают от лидеров рынка — это заметно при их использовании.

Поэтому для того, чтобы вы имели полное представление о состоянии сферы ИИ в мире — вам обязательно стоит обратить внимание на текущие state-of-the-art модели.

Именно поэтому в своем проекте AI-мастермайнда, где вы сможете общаться с ИИ как с командой экспертов, я планирую использовать лидирующие модели в индустрии — чтобы пользователи получили максимально качественный и полезный опыт от разговора с ИИ для решения своих задач.

А какие ИИ-модели вы уже успели попробовать? Что вас впечатлило, а что разочаровало? Поделитесь своим опытом в комментариях!

В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.

Кстати, теперь на vc.ru у меня появилась возможность принимать донаты. Если вам нравятся мои статьи, то вы можете поддержать мой блог не только лайком 🔥, но и донатом 💎
1010
11
реклама
разместить
7 комментариев

Я использую Шедеврум, иногда очень красиво получается)

1

Здорово! А в каких целях используете? Как получается?

1

Я в основном GPT, иногда Шедеврум, если нужны простые изображения к постам или статьям. Интересная задумка у вас, в телеге тоже написала)

1

Спасибо за комментарий и интерес к проекту 😊

1

Я недавно начал использовать Perplexity для поиска. Тут на vc.ru про неё узнал.

Круто! Можете прямо тут поделиться вашим опытом)

DeepSeek: не просто хайп, а новые правила игры
Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…

2020
66
11
реклама
разместить
Битва за будущее искусственного интеллекта началась: на сцену выходят агенты

Знаете, что общего между строительством дома и созданием искусственного интеллекта? В обоих случаях есть два пути: собрать команду специалистов или найти одного универсального мастера. Именно об этом сейчас спорят крупнейшие умы Кремниевой долины, и от исхода этого спора зависит будущее технологий.

99
22
11
11
Эволюция сознания: от первобытных костров к цифровому сверхразуму
Будут ли волны нового сознания обладать нежностью или все мы станем угловатой, но точной математикой?

Коллективное сознание всегда требовало механизмов согласования — от религиозных догм до научного метода. В гибридном сознании таким механизмом становятся алгоритмы, определяющие, какие мысли "правильные", а какие - нeт.

Почему обычные AI-чаты устареют в 2025 году, и когда уже наконец агенты отнимут у нас работу
Почему обычные AI-чаты устареют в 2025 году, и когда уже наконец агенты отнимут у нас работу

AI-чаты устаревают очень быстро. Поэтому такие гиганты как OpenAI, Anthropic и Microsoft делают ставку на агентный подход, где ИИ сам принимает решения и выполняет задачи. Но будущее ИИ — это не просто автоматизация, а новый уровень мышления. Вместо того чтобы заменять тебя, ИИ должен давать инсайты, помогать находить нестандартные решения и расшир…

1212
11
Всего 5 Секретов Для Контента с ИИ

Привет, на связи Игорь Зуевич, - я автор этого блога. Пишу про маркетинг, продажи и AI (ИИ) в социальных сетях. 💥Однажды я устал и решил делегировать создание контента для своего блога профессиональному копирайтеру. Казалось бы, идеальное решение: я экономлю время, а тексты получаются качественными. Но что-то пошло не так.

Всего 5 Секретов Для Контента с ИИ
Слишком много AI - ИИ-стартапам и OpenAI приготовиться? (большой обзор от специалистов)
1111
55
22
11
11
11
11
11
Люди больше не нужны? Профессии, которые уже заменил ИИ
Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные.

11
ChatGPT-4.5: твой новый лучший друг, который пишет тексты и понимает с полуслова
ChatGPT-4.5: твой новый лучший друг, который пишет тексты и понимает с полуслова
11
OpenAI vs DeepSeek: Кража технологий или эволюция нейросетей?

На этой неделе мир ИИ всколыхнула новость: OpenAI утверждает, что китайская компания DeepSeek использовала их модель для обучения своего чат-бота. Якобы OpenAI располагает «существенными доказательствами» того, что DeepSeek применяла их технологии, включая методы дистилляции, чтобы создать собственную языковую модель.

реклама
разместить
DeepSeek. Китайский прорыв в ИИ, который взорвал рынок и напугал OpenAI, Google и Microsoft
DeepSeek. Китайский прорыв в ИИ, который взорвал рынок и напугал OpenAI, Google и Microsoft

Вы устали платить большие деньги за ИИ-сервисы, которые не оправдывают ожиданий? Или вам надоели бесконечные подписки и скрытые платежи за «инновационные» технологии, которые на деле не так уж эффективны? В этой статье я расскажу, как китайская компания DeepSeek поменяла правила игры, предложив мощную модель ИИ за меньшую цену и без скрытых затрат.…

22
Ученые доказали, что AI делает нас глупее

Ну, вот и официальная инфа: AI реально может делать нас тупее. Ученые из Microsoft и Университета Карнеги-Меллон (да-да, те самые ботаны в белых халатах) доказали: чем больше мы полагаемся на искусственный интеллект, тем меньше шевелим мозгами. И это не просто слова — исследование провели 319 научных работников, которые рассказали о 936 примерах ис…

Ученые доказали, что AI делает нас глупее
11
От ресторанов до банков: какие компании доверяют ИИ важные задачи
От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

11
[]