Тесты моделей ИИ: результаты Claude, GPT-5.4, Gemini 3.1 Pro

➡Не заправляйте ЛЛМку по горлышко! Ей плохеет!

Прилагаю свежие результаты тестов по поиску иглы в стоге сена: модели ищут 8 нужных фрагментов в тексте от 128K до 1M токенов.

Смотрим, кто как держится:

🥳Claude (Opus 4.6): 91.9% → 78.3%. Пьет таблетки от склероза - минимальное падение из всех.

😏GPT-5.4: 79.3% при 256K - к 1M токенам рушится до 36.6%. Т.е. теряет каждый второй фрагмент по сравнению с 256к. Или две трети от всего контекста.

😱Gemini 3.1 Pro: 71.9% → 25.9%. Вот он тот самый "миллион токенов" на практике. Чушпан редкостный!

Вывод простой - если даже впихивается, пихать не всегда нужно. Моделькам сложно думать. Берегите ИИ, не делайте ему больно!

Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.