Hugging Face: оценка способности ИИ-агентов предсказывать будущее
✦ Hugging Face представили новый бенчмарк: FutureBench для оценки предсказаний ИИ
✦ Современные тесты оценивают ИИ на прошлые знания, но FutureBench фокусируется на прогнозировании
✦ Новый подход использует реальные рынки прогнозов и новости для создания задач
✦ Разрабатывается трехуровневая система оценки: фреймворки, инструменты и возможности моделей
✦ Прогнозирование требует сложных рассуждений, а не просто сопоставления с шаблонами
✦ GPT-4.1 спрогнозировала инфляцию на уровне 2,4%, используя рыночный консенсус
✦ Claude пыталась получить данные с сайта Бюро статистики труда, но столкнулась с ограничениями
✦ DeepSeekV3 скорректировала методологию из-за нехватки исторических данных
✦ Проблемы: высокая стоимость оценки из-за большого числа токенов в запросах
✦ Интерактивная таблица лидеров доступна для самостоятельного изучения
Подписывайтесь на Telegram EFEMERA: AI news.