Новый тест AGI Poetiq с использованием GPT-5.2: результаты и возможности

Создатель одного из самых популярных тестов AGI для ИИ в 2022 и 2023 годах говорил публично, что тест вряд ли будет пройден в течении многих лет. В декабре 2024 модель OpenAI o3 показала выше 85%, что превосходит средний результат людей.

После этого был запущен куда более сложный текст ARC-AGI-2, а сегодня вот официально опубликовано решение Poetiq (опенсорсная обвязка вокруг LLM) с использованием GPT-5.2, которое показало 75% в челлендже. Они использовали модель в режиме мега-пупер размышлений (читай: длина CoT), но как видно на графике это меньше $10 на задачу.

Не прошло и года, а очередной бенчмарк AGI уже не торт. Понятно, что goalpost продолжит двигаться, но вот посмотреть промты и логику работы Poetiq я очень рекомендую.

Это не совсем «один промпт = один ответ», а мета-система, которая показывает LLM несколько пар вход-выход, просит придумать правило и часто сразу написать Python-код, затем сама запускает этот код на тренировочных примерах, смотрит где не совпало, возвращает фидбек модели и заставляет исправлять (иногда меняя стратегию или даже выбирая другую модель для следующего шага). Фактически, это аудирующая сама себя система, которая обучается вне LLM и использует опыт решения для новых задач.

Подписывайтесь на Telegram e/acc.