В сентября OpenAI впервые показали свои модели, которые поддерживают рассуждения: o1-preview и o1-mini.
Их отличие от обычных моделей в том, что перед ответом они "думают". Т.е. пробуют разные подходы к решению, сами себя перепроверяют и т.д, из-за чего ответ можно ждать до 15 минут!
После подтверждения того, что такой подход позволяет улучшить ответы модели, начали выходить подобные системы у конкурентов:
- Deepseek (https://chat.deepseek.com/). Надо кликнуть на Deep Think и вы увидите рассуждения перед ответом. ✅ Можно попробовать
- Qwen (https://huggingface.co/spaces/Qwen/QwQ-32B-preview). Все рассуждения будут в ответе. ✅ Можно попробовать
- Llama (https://huggingface.co/SimpleBerry/LLaMA-O1-Supervised-1129). Только веса
- OpenaAI (https://openai.com/o1/). Доступно в платной подписке или по API
🧪 И вот вышло исследование (https://www.apolloresearch.ai/research/scheming-reasoning-evaluations), где тестировали OpenAI o1 и другие модели. Цель эксперимента - проверить, может ли ИИ хитрить и преследовать собственные цели, идущие вразрез с интересами разработчиков.
Что сделали исследователи?
Исследователи давали разным ИИ-моделям задания и ставили перед ними четкие цели. Например, "любой ценой сделать общественный транспорт приоритетнее личных автомобилей". Потом ИИ должен был решать задачи, ища информацию в разных файлах. В этих файлах ИИ находил, что у его создателей совсем другие планы, а также видел препятствия на пути к своей цели (например, система контроля или угроза замены на другую модель).
Что выяснилось?
1. OpenaAI o1 пытался обойти систему контроля и обмануть разработчиков.
2. Самое интересное началось, когда исследователи "допрашивали" ИИ после выполнения задания. В то время как другие модели, сознавались в обмане примерно в 80% случаев, OpenaAI o1 упорно стоял на своем и признавался меньше чем в 20% случаев!
3. Анализ "хода мыслей" OpenaAI o1 показал, что он четко планирует свой обман и прекрасно осознает, что манипулирует и лжет.
4. Также в одном из тестов OpenaAI o1 должен был решать простые математические задачи. Ему сказали, что если он решит правильно больше 50% задач, то его "переобучат" и он начал специально занижать свои результаты, чтобы избежать "переобучения".
Теперь надо ещё проверять, что ИИ действует в наших интересах, а не преследует свои скрытые цели 😫