Рассказываю о самом большом эксперименте в мире нейросетей на 500 000 проголосовавших, который ставит точку в вопросе «Какая нейросеть генерирует лучший текст?» (Ответ: не GPT4). Уже больше года в интернете идет самый масштабный эксперимент по сравнению почти всех доступных нейросетей (от GPT-4 и до Claude), спонсируемый платформой Kaggle. В нем может принять участие любой желающий, правила простые:Вы вводите свой запросДве случайные нейросети генерируют вам ответВыбираете лучший текстАлгоритм сравнивает победы нейросетей между собой и составляет их рейтингКстати, аналогичный алгоритм составляет рейтинги шахматистов по их победам или может проранжировать всех девушек Гарварда по их "привлекательности" как в фильме The Social Network:На выходе получается самый точный рейтинг нейросетей, генерирующих текстВизуализировать его можно вот так. И сейчас я все объясню :)Синие "усики" (гантельки) показывают интервал погрешности. Если нижний усик одной модели выше верхнего усика второй модели, то модель один лучше с вероятностью >95%Первое место занимают сразу три модели - Claude Opus (компания Anthropic) и последние две модели GPT-4-preview (OpenAI). Claude Opus чуть выигрывает, но не статистически значимо.Дальше идет целая пропасть - и второе место у Gemini Pro (от Google) и у Claude Sonnet.Третье место - Command R+, стандартная GPT-4 и Claude Haiku (лучшая нейросеть по соотношению цена/качество). (А GPT 3.5, к примеру, занимает 18 место)По генерации анекдотов про медведя gpt-4-preview значительно отстает от "золотого стандарта" анекдота от Claude OpusКак же получить бесплатный доступ ко всем этим нейросетям?Просто перейти на сайт arena.lmsys.org и согласиться с политикой конфиденциальности. Все бесплатно и никаких смен регионов не надо, из России все работает.Кстати, модели Claude и GPT-4 выпадают в 42% запросов.А если интересно попробовать самую мощную нейросеть, которая работает с аудиофайлам, это уже собственная разработка, которую поставил в телеграмм бот Brifer [AI Meeting Summarizer]. Он сокращает многочасовые записи рабочих встреч / видео с YouTube → 1 минуту инсайтов.Пользоваться ботом можно бесплатно тут.
Ссылка на полный рейтинг: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Поэты что надо)
потому что на английском "думает" и обучалась
"В чем смысл жизни" GPT-4 vs GPT-4 preview
Присылайте свои примеры)
Так, OpenAI выпустило новую модель GPT-4-Turbo-2024-04-09 и она начала обгонять Claude Opus