Hugging Face: оценка способности ИИ-агентов предсказывать будущее

Hugging Face представили новый бенчмарк: FutureBench для оценки предсказаний ИИ

✦ Современные тесты оценивают ИИ на прошлые знания, но FutureBench фокусируется на прогнозировании

✦ Новый подход использует реальные рынки прогнозов и новости для создания задач

✦ Разрабатывается трехуровневая система оценки: фреймворки, инструменты и возможности моделей

✦ Прогнозирование требует сложных рассуждений, а не просто сопоставления с шаблонами

✦ GPT-4.1 спрогнозировала инфляцию на уровне 2,4%, используя рыночный консенсус

✦ Claude пыталась получить данные с сайта Бюро статистики труда, но столкнулась с ограничениями

✦ DeepSeekV3 скорректировала методологию из-за нехватки исторических данных

✦ Проблемы: высокая стоимость оценки из-за большого числа токенов в запросах

Интерактивная таблица лидеров доступна для самостоятельного изучения

Подписывайтесь на Telegram EFEMERA: AI news.

Начать дискуссию