Benchmarking: статьи и новости по теме

09.08.2025

Независимая оценка возможностей GPT-5

Не успела выйти новая модель, как независимые «оценщики» ИИ моделей METR оперативно проверили ее. Расскажу к каким выводам они пришли

GPT-5 способен автономно работать над задачами примерно до 2 часов 15 минут. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmetr.github.io%2Fautonomy-evals-guide%2Fgpt-5-report%2F&postId=2147480" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Роман Куцев

03.03.2025

Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:

Роман Куцев

27.02.2025

Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.

Роман Куцев

21.11.2024

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подой…