Тесты моделей ИИ: результаты Claude, GPT-5.4, Gemini 3.1 Pro
➡Не заправляйте ЛЛМку по горлышко! Ей плохеет!
Прилагаю свежие результаты тестов по поиску иглы в стоге сена: модели ищут 8 нужных фрагментов в тексте от 128K до 1M токенов.
Смотрим, кто как держится:
🥳Claude (Opus 4.6): 91.9% → 78.3%. Пьет таблетки от склероза - минимальное падение из всех.
😏GPT-5.4: 79.3% при 256K - к 1M токенам рушится до 36.6%. Т.е. теряет каждый второй фрагмент по сравнению с 256к. Или две трети от всего контекста.
😱Gemini 3.1 Pro: 71.9% → 25.9%. Вот он тот самый "миллион токенов" на практике. Чушпан редкостный!
Вывод простой - если даже впихивается, пихать не всегда нужно. Моделькам сложно думать. Берегите ИИ, не делайте ему больно!
Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.
Начать дискуссию