{"id":14287,"url":"\/distributions\/14287\/click?bit=1&hash=1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","title":"\u0412\u044b\u0440\u0430\u0441\u0442\u0438 \u0438\u0437 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u0434\u043e \u0440\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044f \u0437\u0430 \u0433\u043e\u0434","buttonText":"","imageUuid":""}

Бесплатно и без регистрации получить доступ к 82 нейросетям (включая GPT-4 и Claude Opus), при этом еще помочь науке

Рассказываю о самом большом эксперименте в мире нейросетей на 500 000 проголосовавших, который ставит точку в вопросе «Какая нейросеть генерирует лучший текст?» (Ответ: не GPT4).

Уже больше года в интернете идет самый масштабный эксперимент по сравнению почти всех доступных нейросетей (от GPT-4 и до Claude), спонсируемый платформой Kaggle. В нем может принять участие любой желающий, правила простые:

  • Вы вводите свой запрос
  • Две случайные нейросети генерируют вам ответ
  • Выбираете лучший текст
  • Алгоритм сравнивает победы нейросетей между собой и составляет их рейтинг

Кстати, аналогичный алгоритм составляет рейтинги шахматистов по их победам или может проранжировать всех девушек Гарварда по их "привлекательности" как в фильме The Social Network:

На выходе получается самый точный рейтинг нейросетей, генерирующих текст

Визуализировать его можно вот так. И сейчас я все объясню :)

Синие "усики" (гантельки) показывают интервал погрешности. Если нижний усик одной модели выше верхнего усика второй модели, то модель один лучше с вероятностью >95%

Первое место занимают сразу три модели - Claude Opus (компания Anthropic) и последние две модели GPT-4-preview (OpenAI). Claude Opus чуть выигрывает, но не статистически значимо.

Дальше идет целая пропасть - и второе место у Gemini Pro (от Google) и у Claude Sonnet.

Третье место - Command R+, стандартная GPT-4 и Claude Haiku (лучшая нейросеть по соотношению цена/качество).

(А GPT 3.5, к примеру, занимает 18 место)

По генерации анекдотов про медведя gpt-4-preview значительно отстает от "золотого стандарта" анекдота от Claude Opus

Как же получить бесплатный доступ ко всем этим нейросетям?

Просто перейти на сайт arena.lmsys.org и согласиться с политикой конфиденциальности. Все бесплатно и никаких смен регионов не надо, из России все работает.

Кстати, модели Claude и GPT-4 выпадают в 42% запросов.

А если интересно попробовать самую мощную нейросеть, которая работает с аудиофайлам, это уже собственная разработка, которую поставил в телеграмм бот Brifer [AI Meeting Summarizer]. Он сокращает многочасовые записи рабочих встреч / видео с YouTube → 1 минуту инсайтов.

Пользоваться ботом можно бесплатно тут.

0
7 комментариев
Написать комментарий...
# Без Воды
Автор

Ссылка на полный рейтинг: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Ответить
Развернуть ветку
# Без Воды
Автор

А еще сегодня Brifer стал ботом недели в телеграм, спасибо комьюнити vc.ru за вашу поддержку ❤️ https://t.me/trendingapps/237

Brifer — Summarize hours of audio and video content into one-minute briefs

Need to review meeting recordings or take notes? Brifer can transcribe and summarize up to 15 hours of audio, video and YouTube content. Just upload your file or share a link, and receive summary of pur...

Brifer — Summarize hours of audio and video content into one-minute briefs

Need to review meeting recordings or take notes? Brifer can transcribe and summarize up to 15 hours of audio, video and YouTube content. Just upload your file or share a link, and receive summary of pure facts with timestamps.

Looking for specific information? Ask Brifer any question about the recording, and get precise answers with timestamps. Plus, this bot can even create «smart goals» for you and your team based on the meeting's content.

Brifer’s advanced speech-to-text AI supports 70+ languages and outperforms Google and OpenAI models. Maximize your productivity and effortlessly recall every detail from your meetings with Brifer!

#utilities #text_bots

Ответить
Развернуть ветку
Алёна Ильченко

Поэты что надо)

Ответить
Развернуть ветку
Anton Anikin

потому что на английском "думает" и обучалась

Ответить
Развернуть ветку
# Без Воды
Автор

"В чем смысл жизни" GPT-4 vs GPT-4 preview

Ответить
Развернуть ветку
# Без Воды
Автор

Присылайте свои примеры)

Ответить
Развернуть ветку
# Без Воды
Автор

Так, OpenAI выпустило новую модель GPT-4-Turbo-2024-04-09 и она начала обгонять Claude Opus

Ответить
Развернуть ветку
4 комментария
Раскрывать всегда