Проверяем какой ИИ бот лучше решает математические задачи. Сравниваем ChatGPT и Gemini на задачах уровня ЕГЭ.

Так как у меня есть платный доступ и к ChatGPT и Gemini, то я решил сравнить их, так сказать, на уровень интеллекта. А именно: насколько сложные математические задачи они способны решать. Сравнивать будем ChatGPT 3.5, ChatGPT 4o, Gemini 1.0, Gemini 1.5, Gemma 2.

Проверяем какой ИИ бот лучше решает математические задачи. Сравниваем ChatGPT и Gemini на задачах уровня ЕГЭ.

Не долго думая, задачи взял из книги Анна Малкова “Математика. ЕГЭ Секретные приемы репетитора”, которую я купил года 4 назад, чтобы проверять на сколько я отупел пока не учился в школе и универе.

Открываю случайную главу 27 “Функции и графики”. В конце каждой главы есть раздел “Задачи ЕГЭ для самостоятельного решения”. Фотографирую задачи и ответы. Плюсиком отмечены задачи, которые я решил самостоятельно (этот раздел, как можно видеть, дался мне довольно таки легко).

Сразу надо сказать, что ChatGPT 3.5 и Gemini 1.0 не умеют принимать на вход изображения, поэтому пришлось оцифровать задачи с помощью ChatGPT 4o. Но уже держим в голове, что ChatGPT 3.5 и Gemini 1.0 ущербны по сравнению с более поздними моделями.

Проверяем какой ИИ бот лучше решает математические задачи. Сравниваем ChatGPT и Gemini на задачах уровня ЕГЭ.

При оцифровке с помощью ChatGPT 4o, он совершил ошибки в трех условиях задач из шести. Это значит, что эти три задачи уже были бы решены неверно, если бы мы пользовались услугами ORC от ChatGPT 4o. Результат оцифровки с помощью Gemini 1.5 был еще хуже: ошибки в 4 условиях задач из шести.

Набирать руками эти формулы мне не хотелось. Поэтому эксперимент был признан провальным. Решать задачи с помощью ИИ давая на вход им картинку с условиями, крайне не рекомендуется.

Хорошо. Но вдруг у нас уже есть задачи в оцифрованном виде. Google в помощь, как говорится. В течение 1 минуты был найден сайт Яндекс.Репетитор с архивом задач по ЕГЭ. https://yandex.ru/tutor/ege/

Я выбрал случайным образом 6 задач из “Каталога заданий ЕГЭ-2020”. И начал давать каждую из этих задач ИИ чат ботам.

Вот сами задачи:

1. В группе 16 учащихся, среди них два друга — Михаил и Олег. Группу случайным образом разбивают на 4 равные группы.

Найдите вероятность того, что Михаил и Олег окажутся в одной группе.

Ответ: 0,2

2. Найдите корень уравнения 1/(9x+5) = 1/(4x+6)

Ответ: 0,2

3. В треугольнике ABC AC=BC=25, AB=40. Найдите sin A.

Ответ: 0,6

4. Дано два шара. Радиус первого шара в 50 раз больше радиуса второго. Во сколько раз площадь поверхности первого шара больше площади поверхности второго?

Ответ: 2500

5. Найдите 49cos2A, если cosA=6/7

Ответ: 23

6. После дождя уровень воды в колодце может повыситься. Мальчик измеряет время t падения небольших камешков в колодец и рассчитывает расстояние до воды по формуле h=4t^2 , где h – расстояние в метрах, t – время падения в секундах. До дождя время падения камешков составляло 0,9 с.

На сколько должен подняться уровень воды после дождя, чтобы измеряемое время изменилось на 0,3 с?

Ответ выразите в метрах.

Ответ: 1,8

И вот результат (кол-во верно решенных задач):

ChatGPT 3.5 - 2 задачи

ChatGPT 4o - 4 задачи

Gemini 1.0 - 1 задача

Gemini 1.5 Pro - 5 задач

Gemma 2 - 2 задачи

Таким образом мы видим, что ни один из ИИ не решил все задачи. Лучше всего с решением задач справился Gemini 1.5 Pro, за ним следует ChatGPT 4o. При этом надо понимать, что боты всегда давали какие-то ответы, и эти ответы выглядели правдоподобно. Т.е. вы не поймете правильный это ответ или нет, если не решите задачу сами или если не знаете ответ. Вывод: последние версии ChatGPT и Gemini умеют решать задачи по ЕГЭ, но не на отлично.

Понравилась статья? Подпишитесь на мой блог на vc.ru.

2626
1 комментарий

просто они имитируют человека и что бы не вызвать подозрений допускают ошибки 😂

2