Не ведитесь на хайп: как найти лучшую языковую модель
Недавно наткнулся на интересное интервью с руководителем продукта OpenAI, и одна мысль крепко засела в голове: большинство людей судит об искусственном интеллекте, даже не попробовав с ним поработать. Это все равно что обсуждать вкус экзотического фрукта, только глядя на его фотографии.
«ИИ отберет нашу работу!» — кричат заголовки.
«Скайнет уже близко!» — пугают блогеры.
Но если честно: насколько эти страхи оправданы?
Как узнать, какая модель умнее?
Чтобы разобраться в реальных возможностях современных ИИ-моделей, есть один очень действенный способ — «слепое тестирование» на платформе Chatbot Arena (LMSYS).
Это как дегустация вин с закрытыми этикетками, только вместо вин — языковые модели. Вы получаете два ответа на свой вопрос и выбираете лучший, не зная, какая модель его дала.
И знаете что? Результаты весьма показательны. Неизменные лидеры этой «гонки вооружений»:
- ChatGPT от OpenAI
- Claude от Anthropic
- Gemini от Google
Недавно их ряды пополнил новичок — китайская LLM DeepSeek R1, о которой я планирую рассказать в одной из следующих статей.
Стоит отметить, что на Российском рынке также есть свои игроки:
- GigaChat от Сбера
- YandexGPT от Яндекса
Но возникает любопытный момент: этих моделей нет практически ни в одном популярном бенчмарке, следовательно полноценно сравнить с другими моделями нельзя.
Есть лидерборд a-ai.ru, но даже там нет YandexGPT. Кроме того, данные модели проверяются на других задачах, следовательно, сравнение все равно не будет точным.
Какой из этого вывод?
Основной мой посыл заключается в следующем: хотите понять ИИ — начните им пользоваться. Это как с автомобилями — можно бесконечно читать обзоры, но только сев за руль, вы поймете, что вам подходит.
Chatbot Arena может стать хорошим ориентиром: не нужно перебирать все модели подряд или пользоваться только самыми хайповыми. Вы можете опираться на общедоступный рейтинг и бенчмарки, но реальное поведение модели в разных ситуациях вы увидите только на практике — вы не узнаете, как модель ведёт себя на самом деле, пока не поработаете с ней самостоятельно.
Я ни в коем случае не пытаюсь сказать, что модели Сбера и Яндекса не нужны. Очень хорошо, что есть альтернативы и они активно их разрабатывают.
Однако я также хочу посмотреть правде в глаза: данные модели на текущий момент явно отстают от лидеров рынка — это заметно при их использовании.
Поэтому для того, чтобы вы имели полное представление о состоянии сферы ИИ в мире — вам обязательно стоит обратить внимание на текущие state-of-the-art модели.
Именно поэтому в своем проекте AI-мастермайнда, где вы сможете общаться с ИИ как с командой экспертов, я планирую использовать лидирующие модели в индустрии — чтобы пользователи получили максимально качественный и полезный опыт от разговора с ИИ для решения своих задач.
А какие ИИ-модели вы уже успели попробовать? Что вас впечатлило, а что разочаровало? Поделитесь своим опытом в комментариях!
В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.
Кстати, теперь на vc.ru у меня появилась возможность принимать донаты. Если вам нравятся мои статьи, то вы можете поддержать мой блог не только лайком 🔥, но и донатом 💎
Я недавно начал использовать Perplexity для поиска. Тут на vc.ru про неё узнал.
Я использую Шедеврум, иногда очень красиво получается)