Claude обошел ChatGPT: 5 ИИ-ботов прошли жесткий тест на понимание текста

Claude обошел ChatGPT: 5 ИИ-ботов прошли жесткий тест на понимание текста

1. Как тестировали

Журналист Джеффри А. Фаулер устроил «экзамен» пяти ИИ-помощникам:

  • ChatGPT (OpenAI)
  • Claude (Anthropic)
  • Copilot (Microsoft)
  • Gemini (Google)
  • Meta AI

Им дали 4 типа сложных текстов:

  1. Роман «The Jackal's Mistress»
  2. Медицинские исследования о COVID-19 и болезни Паркинсона
  3. Юридические контракты (аренда, договор с подрядчиком)
  4. Политические речи Трампа

Оценивали эксперты: авторы оригинальных текстов, врачи, юристы и политологи. Всего — 115 вопросов на понимание.

2. Кто как справился?

• Claude (Anthropic)

  • Лучший в медицинских текстах (63% верных ответов)
  • Хорошо анализировал сложные термины
  • Минус: путал факты в политических речах

• ChatGPT (OpenAI)

  • Лидер в литературе (59% точности)
  • Умело выделял ключевые сюжетные линии
  • Минус: пропускал важные детали в юридических документах

• Gemini (Google)

  • Лучший для контрактов (55%)
  • Четко структурировал условия договоров
  • Минус: иногда искажал факты

• Copilot (Microsoft)

  • Быстро делал краткие выжимки
  • Минус: поверхностный анализ, мало деталей

• Meta AI

  • Аутсайдер во всех тестах
  • Часто «выдумывал» несуществующую информацию

3. Главные проблемы всех ИИ

  1. Пропускают критичное — особенно в юр.документах.
  2. Игнорируют негатив — акцентируют только положительное.
  3. Нестабильность — успех в одном тесте не гарантирует хорошего результата в другом.

Итоговый балл: ни один бот не набрал больше 70% (оценка «D+»).

1
2 комментария