Claude обошел ChatGPT: 5 ИИ-ботов прошли жесткий тест на понимание текста
1. Как тестировали
Журналист Джеффри А. Фаулер устроил «экзамен» пяти ИИ-помощникам:
- ChatGPT (OpenAI)
- Claude (Anthropic)
- Copilot (Microsoft)
- Gemini (Google)
- Meta AI
Им дали 4 типа сложных текстов:
- Роман «The Jackal's Mistress»
- Медицинские исследования о COVID-19 и болезни Паркинсона
- Юридические контракты (аренда, договор с подрядчиком)
- Политические речи Трампа
Оценивали эксперты: авторы оригинальных текстов, врачи, юристы и политологи. Всего — 115 вопросов на понимание.
2. Кто как справился?
• Claude (Anthropic)
- Лучший в медицинских текстах (63% верных ответов)
- Хорошо анализировал сложные термины
- Минус: путал факты в политических речах
• ChatGPT (OpenAI)
- Лидер в литературе (59% точности)
- Умело выделял ключевые сюжетные линии
- Минус: пропускал важные детали в юридических документах
• Gemini (Google)
- Лучший для контрактов (55%)
- Четко структурировал условия договоров
- Минус: иногда искажал факты
• Copilot (Microsoft)
- Быстро делал краткие выжимки
- Минус: поверхностный анализ, мало деталей
• Meta AI
- Аутсайдер во всех тестах
- Часто «выдумывал» несуществующую информацию
3. Главные проблемы всех ИИ
- Пропускают критичное — особенно в юр.документах.
- Игнорируют негатив — акцентируют только положительное.
- Нестабильность — успех в одном тесте не гарантирует хорошего результата в другом.
Итоговый балл: ни один бот не набрал больше 70% (оценка «D+»).
2 комментария