Grok-4: Лидер в прогнозировании по данным FutureX

А ещё Grok‑4 - лидер в прогнозировании будущего по данным крупнейшего живого бенчмарка FutureX.

• Grok‑4 занял 1 место в общем зачёте среди 25 моделей, обойдя Gemini Deep Research и GPT‑4o‑mini (Think&Search).

• На 4 уровне сложности (Super Agent Tier, задачи с высокой волатильностью) Grok‑4 единственный стабильно показывал результат, в то время как большинство моделей ушли в нули.

• Среднее время ответа: менее 5 минут на задачу. Для сравнения, у некоторых глубоких research‑моделей до 30 минут.

• Количество поисковых запросов - до 40 на задачу. Именно эта агрессивная стратегия поиска и дала ему преимущество.

• В финансовых прогнозах по S&P 500 (Q2 2025) лучшие модели выиграли у аналитиков Уолл‑стрит в 33‑37% случаев. Grok‑4 вошел в топ‑результаты, показав высокую точность и скорость.

• В простых задачах (уровень 1‑2) Grok‑4 догоняет или перегоняет людей. В задачах 3‑4 уровня эксперты пока впереди на 10‑25% по точности, но разрыв сокращается.

• Конкретный кейс: вопрос "Сколько будет смертей во время беспорядков в Калифорнии до конца июля 2025?". Grok‑4 правильно спрогнозировал ноль, опираясь на BBC, LA Times и NPR. Другие модели ошибались, выдавая вымышленные события.

Подписывайтесь на Telegram Сергей Булаев AI 🤖.