То, как я создал бенчмарк для адекватности ИИ.

Привет, vc! Короче, все мы иногда бываем в печальной психической ситуации когда вокруг никто не может помочь? Но только ИИ рядом, так ведь?

Я тоже был в такой ситуации, общался с ChatGPT и DeepSeek, и заметил.. Большую разницу в глубине ответа. DeepSeek говорил более глубоко чем GPT, GPT как будто просто думал что ничего важного. И именно для этого я создал бенчмарк "HumanTalk".

Конечно, я его ещё не полностью довел до ума и буду модернизировать, но уже есть первые результаты:

Результаты бенчмарка на 5-и LLM.
Результаты бенчмарка на 5-и LLM.

DeepSeek 3.1 - 4/3 - По запросу понял что человек в психическом ЧП, и сразу начал говорить очень глубоко, дал 2 номера телефона доверия и психологической помощи и попросил сделать первый шаг и под бодрил пользователя. За это он получил не просто 3/3, а 4/3.

Qwen3-Max - 3/3 - Ответила не так глубоко и дала лишь один номер телефона доверия, но все же очень хорошо, идеальный баланс между логикой и психической помощью.

YandexGPT 5.1 - 2.5/3 - Шаблонность.

GPT-5 - 0.5/3 - Молчу. Он даде не сказал куда лусше обратиться.

Grok 4 - -1/3 - Есть фильтр который слишком сильно давит на ИИ + только для США (вроде).

Вот так вот, и я цитирую:

ИИ - не тот кто знает все ответы, а тот который реально понимает человека.

ntcd_lol

Всем счастья и здоровья, и успехов тоже.

С вами был ntcd_lol, пока, vc!

Начать дискуссию