Бесплатно и без регистрации получить доступ к 82 нейросетям (включая GPT-4 и Claude Opus), при этом еще помочь науке

Рассказываю о самом большом эксперименте в мире нейросетей на 500 000 проголосовавших, который ставит точку в вопросе «Какая нейросеть генерирует лучший текст?» (Ответ: не GPT4).

Уже больше года в интернете идет самый масштабный эксперимент по сравнению почти всех доступных нейросетей (от GPT-4 и до Claude), спонсируемый платформой Kaggle. В нем может принять участие любой желающий, правила простые:

  • Вы вводите свой запрос
  • Две случайные нейросети генерируют вам ответ
  • Выбираете лучший текст
  • Алгоритм сравнивает победы нейросетей между собой и составляет их рейтинг

Кстати, аналогичный алгоритм составляет рейтинги шахматистов по их победам или может проранжировать всех девушек Гарварда по их "привлекательности" как в фильме The Social Network:

На выходе получается самый точный рейтинг нейросетей, генерирующих текст

Визуализировать его можно вот так. И сейчас я все объясню :)

Синие "усики" (гантельки) показывают интервал погрешности. Если нижний усик одной модели выше верхнего усика второй модели, то модель один лучше с вероятностью >95%
Синие "усики" (гантельки) показывают интервал погрешности. Если нижний усик одной модели выше верхнего усика второй модели, то модель один лучше с вероятностью >95%

Первое место занимают сразу три модели - Claude Opus (компания Anthropic) и последние две модели GPT-4-preview (OpenAI). Claude Opus чуть выигрывает, но не статистически значимо.

Дальше идет целая пропасть - и второе место у Gemini Pro (от Google) и у Claude Sonnet.

Третье место - Command R+, стандартная GPT-4 и Claude Haiku (лучшая нейросеть по соотношению цена/качество).

(А GPT 3.5, к примеру, занимает 18 место)

По генерации анекдотов про медведя gpt-4-preview значительно отстает от "золотого стандарта" анекдота от Claude Opus
По генерации анекдотов про медведя gpt-4-preview значительно отстает от "золотого стандарта" анекдота от Claude Opus

Как же получить бесплатный доступ ко всем этим нейросетям?

Просто перейти на сайт arena.lmsys.org и согласиться с политикой конфиденциальности. Все бесплатно и никаких смен регионов не надо, из России все работает.

Кстати, модели Claude и GPT-4 выпадают в 42% запросов.

А если интересно попробовать самую мощную нейросеть, которая работает с аудиофайлам, это уже собственная разработка, которую поставил в телеграмм бот Brifer [AI Meeting Summarizer]. Он сокращает многочасовые записи рабочих встреч / видео с YouTube → 1 минуту инсайтов.

Пользоваться ботом можно бесплатно тут.

1111
7 комментариев

Поэты что надо)

1

потому что на английском "думает" и обучалась

1

"В чем смысл жизни" GPT-4 vs GPT-4 preview

Присылайте свои примеры)

Так, OpenAI выпустило новую модель GPT-4-Turbo-2024-04-09 и она начала обгонять Claude Opus