О модели Gemini 2.5 Pro
Google выкатил Gemini 2.5 Pro ещё в марте 2025 года. С тех пор модель прошла несколько итераций — и сейчас это уже совсем другой продукт. Решил разобраться что внутри и где реально работает.
Начну с того, что зацепило больше всего.
Контекстное окно — главный козырь
1 миллион токенов — крупнейшее среди коммерчески доступных моделей. Для сравнения: GPT-4o — 128K, Claude Opus 4.6 — 200K. При этом recall на уровне 99,7% при полном миллионе токенов. Это значит, что целая кодовая база, десятки тысяч строк документации или часовое видео — всё в одном запросе без разбиения на чанки.
✅ Бенчмарки:
Математика и наука — Gemini 2.5 Pro лидирует. GPQA Diamond: 84,0% против 78,2% у Claude 3.7 и 71,4% у GPT-4.5. На Humanity's Last Exam — 18,8%, лучший результат среди всех моделей
Веб-разработка — #1 на WebDev Arena. Инженер Simon Willison провёл рефакторинг кодовой базы: модель самостоятельно определила 18 файлов для изменения, весь проект — 45 минут
Видео — нативная обработка до 1 часа видео одновременно с аудио. VideoMME: 84,8% — state-of-the-art результат. Реальный use case: загружаешь запись митинга, получаешь структурированный анализ с таймкодами
Цена — $1,25 за 1М input-токенов против $4,00 у Claude Opus 4.6. Лучшее соотношение цена/качество среди флагманских моделей
❌ Где проседает:
Debugging — пользователи на Reddit и Hacker News фиксируют одну и ту же проблему: модель забывает что сделала, выдаёт неполные файлы, не следует инструкциям на длинных сессиях. Для сложных GitHub issues Claude 3.7 Sonnet (70,3% на SWE-bench) пока впереди — 63,8% у Gemini
Hallucination rate — 88% среди неправильных ответов. Выше чем у GPT-5.1 (81%) и заметно выше Grok 4 (64%). Для критических приложений нужен дополнительный слой валидации
Длинные промпты — после порога ~30K символов модель начинает терять контекст. Несколько пользователей зафиксировали удаление целых блоков аргументации из статей
Thinking tokens — при включённом режиме рассуждений латентность становится непредсказуемой. Плюс thinking-токены входят в стоимость, даже если в ответе только summary
Мой опыт:
Модель отлично подходит для задач с большим контекстом, мультимодального анализа и веб-разработки. Для сложного кодинга и точного следования инструкциям в длинных сессиях пока лучше Claude или Codex
Сам в повседневной работе предпочитаю другие модели. Но, Gemini использует моя команда в проекте речевой аналитики. Осным преимуществом модели и почему ее используют является огромное контекстное окно и нативная работа с аудио. Для этих задач альтернатив пока немного. Об альтернативах расскажу позднее.
Подписывайтесь на Telegram Пащенко Илья | IT технологии и цифровизация.