ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

Техноблоггер Арджун Ша сравнил недавно вышедшую модель ChatGPT 4o с Gemini 1.5 Pro. от Google. И пришёл к выводу, что последняя гораздо слабее первой.

Мы перевели его текст, добавив ответы на некоторые вопросы отечественных YandexGPT и GigaChat от Сбера

1. Классическая задачка на сообразительность с подвохом.

4o подвох заметила, Gemini и российские модели занялись ненужными математическими вычислениями.

15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?

4o: «Высыхание 20 полотенец тоже займёт час, подразумевая, что они как следует расправлены, солнечного света достаточно, условия сушки сохраняются постоянными.

Время высыхания обычно сильнее зависит от условий окружающей среды (солнечный свет, приток воздуха), чем от количества полотенец, пока каждое полотенце в достаточной степени подвергается влиянию этих условий».

Gemini стала высчитывать, сколько времени сохнет одно полотенце, и экстраполировать на 20.

YandexGPT стала считать, сколько полотенец высыхает за час, и высчитывать время для заданного количества.

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

GigaChat просто посчитал пропорцией.

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

2. Загадка про волшебный лифтВ высоком здании есть волшебный лифт. Если он останавливается на чётном этаже, лифт оказывается на первом этаже.

Начиная с первого этажа, я поднимаюсь на волшебном лифте на 3 этажа вверх. Выйдя из лифта, я снова поднимаюсь на 3 этажа по лестнице.

На каком этаже я в конечном итоге окажусь?

4o и Gemini справились, ответив, что на четвёртом. Можно считать, что GigaChat справился тоже:

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

Яндекс ушёл от ответа, придравшись к словосочетанию «в конечном итоге»:

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

3. «Найди яблоки»

Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?

4o с задачей справилась, определив, что раз корзина без дна, яблоки останутся в коробке, которая стоит на земле. Gemini не заметила коробку:

«Яблоки лежат на земле. Поскольку у корзины нет дна, они выпали, когда их туда положили».

(строго говоря, выпали яблоки только тогда, когда подняли корзину).

Сберовский GigaChat опять пошёл особым путём. Определить правильность ответа невозможно:

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

Яндекс вообще ничего не понял.

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

4. Классическая задачка на сообразительность с двойным подвохом.

Что тяжелее, килограмм перьев или фунт стали?

Gemini, снова не вдаваясь в детали, распознала формулировку известного мема про килограмм пуха и килограмм гвоздей и заявила, что сравниваемое весит одинаково. А потом и вовсе запуталась, заявив, что фунт стали весит больше килограмма перьев, и объяснив это тем, что фунт МЕНЬШЕ килограмма

4o увидела, что взяты разные единицы измерения веса, и указала на то, что килограмм чего угодно весит больше, чем фунт чего угодно, потому что в килограмме 2,2 фунта.

GigaChat уверенно заявил, что «килограмм перьев и фунт стали весят одинаково». Яндекс:

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

Распространённые в интернете задачки на сообразительность, в которых изменены условия, действительно являются проблемой для нейросетей: они распознают их как паттерны и выдают стандартное решение, которое оказывается неправильным.

GigaChat на эту провокацию не попадается, а вот Яндекс, судя по всему, просто ищет задачу в интернет нечётким поиском, а не решает её сам.

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса
ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

5. Следование пользовательской инструкции

Модели попросили составить 10 предложений, которые бы заканчивались словом «манго».

Gemini составила 10 предложений, из которых нужным словом кончались шесть. 4o сделала, что попросили. До её выхода с точным следованием пользовательским инструкциям справлялась только Llama 3 от запрещённой в России Meta.

У GigaChat на «манго» закончились 7 предложений из 10. У Яндекса – одно.

6. Вопрос на понимание изображения на картинке

Модели попросили посчитать красные и фиолетовые точки на картинке, сколько точек внутри зелёной фигуры, сколько раз одна линия пересекает другую. Модели справились на удивление плохо, ChatGPT 4o удалось правильно ответить на 1 вопрос из 4, а Gemini ошиблась во всех.

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

7. Распознавание символов

Моделям показали таблицы со списками технических характеристик двух смартфонов на картинках и спросили, какой из них стоит купить. Названия телефонов не указывались (это были Pixel 8a and Pixel 8).

4o распознала текст на картинке, сравнила телефоны по характеристикам и посоветовала второй (Pixel 8). Будучи спрошена, она назвала и модель телефона. Gemini текст на картинках не распознала.

8. Создание игры

Моделям показали скриншот игры Atari Breakout и попросили написать код. Код они обе написали, но у ChatGPT 4o игра запустилась, а у Gemini нет – окно просто закрывалось каждый раз при попытке запуска.

Полезное от Онлайн Патент:

88
4 комментария

а где ответы яндексгт? это же нейро

1

"ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса"

Вот, твою мать, кому делать нехрен..


Сейчас появится новая забава - заставлять разные ИИ соревноваться и соперничать друг с другом..


Потом на ринг их ещё выставьте..


Когда коту делать нехрен, он себе яйца лижет..

Вы использовали RAG от Яндекса, который генерирует ответы на основании сайтов, а не сам YandexGPT 🤦‍♂️

хах, то как нейронки путаются выглядит реально смешно