Не ведитесь на хайп: как найти лучшую языковую модель
Недавно наткнулся на интересное интервью с руководителем продукта OpenAI, и одна мысль крепко засела в голове: большинство людей судит об искусственном интеллекте, даже не попробовав с ним поработать. Это все равно что обсуждать вкус экзотического фрукта, только глядя на его фотографии.
«ИИ отберет нашу работу!» — кричат заголовки.
«Скайнет уже близко!» — пугают блогеры.
Но если честно: насколько эти страхи оправданы?
Как узнать, какая модель умнее?
Чтобы разобраться в реальных возможностях современных ИИ-моделей, есть один очень действенный способ — «слепое тестирование» на платформе Chatbot Arena (LMSYS).
Это как дегустация вин с закрытыми этикетками, только вместо вин — языковые модели. Вы получаете два ответа на свой вопрос и выбираете лучший, не зная, какая модель его дала.
И знаете что? Результаты весьма показательны. Неизменные лидеры этой «гонки вооружений»:
- ChatGPT от OpenAI
- Claude от Anthropic
- Gemini от Google
Недавно их ряды пополнил новичок — китайская LLM DeepSeek R1, о которой я планирую рассказать в одной из следующих статей.
Стоит отметить, что на Российском рынке также есть свои игроки:
- GigaChat от Сбера
- YandexGPT от Яндекса
Но возникает любопытный момент: этих моделей нет практически ни в одном популярном бенчмарке, следовательно полноценно сравнить с другими моделями нельзя.
Есть лидерборд a-ai.ru, но даже там нет YandexGPT. Кроме того, данные модели проверяются на других задачах, следовательно, сравнение все равно не будет точным.
Какой из этого вывод?
Основной мой посыл заключается в следующем: хотите понять ИИ — начните им пользоваться. Это как с автомобилями — можно бесконечно читать обзоры, но только сев за руль, вы поймете, что вам подходит.
Chatbot Arena может стать хорошим ориентиром: не нужно перебирать все модели подряд или пользоваться только самыми хайповыми. Вы можете опираться на общедоступный рейтинг и бенчмарки, но реальное поведение модели в разных ситуациях вы увидите только на практике — вы не узнаете, как модель ведёт себя на самом деле, пока не поработаете с ней самостоятельно.
Я ни в коем случае не пытаюсь сказать, что модели Сбера и Яндекса не нужны. Очень хорошо, что есть альтернативы и они активно их разрабатывают.
Однако я также хочу посмотреть правде в глаза: данные модели на текущий момент явно отстают от лидеров рынка — это заметно при их использовании.
Поэтому для того, чтобы вы имели полное представление о состоянии сферы ИИ в мире — вам обязательно стоит обратить внимание на текущие state-of-the-art модели.
Именно поэтому в своем проекте AI-мастермайнда, где вы сможете общаться с ИИ как с командой экспертов, я планирую использовать лидирующие модели в индустрии — чтобы пользователи получили максимально качественный и полезный опыт от разговора с ИИ для решения своих задач.
А какие ИИ-модели вы уже успели попробовать? Что вас впечатлило, а что разочаровало? Поделитесь своим опытом в комментариях!
В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.
Кстати, теперь на vc.ru у меня появилась возможность принимать донаты. Если вам нравятся мои статьи, то вы можете поддержать мой блог не только лайком 🔥, но и донатом 💎
Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…
Знаете, что общего между строительством дома и созданием искусственного интеллекта? В обоих случаях есть два пути: собрать команду специалистов или найти одного универсального мастера. Именно об этом сейчас спорят крупнейшие умы Кремниевой долины, и от исхода этого спора зависит будущее технологий.
Коллективное сознание всегда требовало механизмов согласования — от религиозных догм до научного метода. В гибридном сознании таким механизмом становятся алгоритмы, определяющие, какие мысли "правильные", а какие - нeт.
AI-чаты устаревают очень быстро. Поэтому такие гиганты как OpenAI, Anthropic и Microsoft делают ставку на агентный подход, где ИИ сам принимает решения и выполняет задачи. Но будущее ИИ — это не просто автоматизация, а новый уровень мышления. Вместо того чтобы заменять тебя, ИИ должен давать инсайты, помогать находить нестандартные решения и расшир…
Привет, на связи Игорь Зуевич, - я автор этого блога. Пишу про маркетинг, продажи и AI (ИИ) в социальных сетях. 💥Однажды я устал и решил делегировать создание контента для своего блога профессиональному копирайтеру. Казалось бы, идеальное решение: я экономлю время, а тексты получаются качественными. Но что-то пошло не так.
По закрытой статистике отток инвестиций из ИИ в 2024 составил
Читать продолжение...
2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные.
На этой неделе мир ИИ всколыхнула новость: OpenAI утверждает, что китайская компания DeepSeek использовала их модель для обучения своего чат-бота. Якобы OpenAI располагает «существенными доказательствами» того, что DeepSeek применяла их технологии, включая методы дистилляции, чтобы создать собственную языковую модель.
Вы устали платить большие деньги за ИИ-сервисы, которые не оправдывают ожиданий? Или вам надоели бесконечные подписки и скрытые платежи за «инновационные» технологии, которые на деле не так уж эффективны? В этой статье я расскажу, как китайская компания DeepSeek поменяла правила игры, предложив мощную модель ИИ за меньшую цену и без скрытых затрат.…
Ну, вот и официальная инфа: AI реально может делать нас тупее. Ученые из Microsoft и Университета Карнеги-Меллон (да-да, те самые ботаны в белых халатах) доказали: чем больше мы полагаемся на искусственный интеллект, тем меньше шевелим мозгами. И это не просто слова — исследование провели 319 научных работников, которые рассказали о 936 примерах ис…
Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.
Я использую Шедеврум, иногда очень красиво получается)
Здорово! А в каких целях используете? Как получается?
Я в основном GPT, иногда Шедеврум, если нужны простые изображения к постам или статьям. Интересная задумка у вас, в телеге тоже написала)
Спасибо за комментарий и интерес к проекту 😊
Я недавно начал использовать Perplexity для поиска. Тут на vc.ru про неё узнал.
Круто! Можете прямо тут поделиться вашим опытом)