То, как я создал бенчмарк для адекватности ИИ.
Привет, vc! Короче, все мы иногда бываем в печальной психической ситуации когда вокруг никто не может помочь? Но только ИИ рядом, так ведь?
Я тоже был в такой ситуации, общался с ChatGPT и DeepSeek, и заметил.. Большую разницу в глубине ответа. DeepSeek говорил более глубоко чем GPT, GPT как будто просто думал что ничего важного. И именно для этого я создал бенчмарк "HumanTalk".
Конечно, я его ещё не полностью довел до ума и буду модернизировать, но уже есть первые результаты:
DeepSeek 3.1 - 4/3 - По запросу понял что человек в психическом ЧП, и сразу начал говорить очень глубоко, дал 2 номера телефона доверия и психологической помощи и попросил сделать первый шаг и под бодрил пользователя. За это он получил не просто 3/3, а 4/3.
Qwen3-Max - 3/3 - Ответила не так глубоко и дала лишь один номер телефона доверия, но все же очень хорошо, идеальный баланс между логикой и психической помощью.
YandexGPT 5.1 - 2.5/3 - Шаблонность.
GPT-5 - 0.5/3 - Молчу. Он даде не сказал куда лусше обратиться.
Grok 4 - -1/3 - Есть фильтр который слишком сильно давит на ИИ + только для США (вроде).
Вот так вот, и я цитирую:
ИИ - не тот кто знает все ответы, а тот который реально понимает человека.
Всем счастья и здоровья, и успехов тоже.
С вами был ntcd_lol, пока, vc!