Экспресс-тест YandexGPT 4 и GigaChat MAX — новых языковых моделей от «Яндекса» и «Сбера»

Проверили, как нейросети показывают себя на базовых задачах — решить головоломку, собрать и структурировать данные и набросать идеи.

Источник фото: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.google.com%2Furl%3Fsa%3Di%26amp%3Burl%3Dhttps%253A%252F%252Ftechcrunch.com%252Ftag%252Fai%252Fpage%252F2%252F%26amp%3Bpsig%3DAOvVaw0uUxiD7mp8OlElVPeFqqrE%26amp%3Bust%3D1731417222959000%26amp%3Bsource%3Dimages%26amp%3Bcd%3Dvfe%26amp%3Bopi%3D89978449%26amp%3Bved%3D0CBcQjhxqFwoTCICO3ZKu1IkDFQAAAAAdAAAAABAP&postId=1624756" rel="nofollow noreferrer noopener" target="_blank">TechCrunch</a>
Источник фото: TechCrunch

В конце октября 2024 года «Сбер» и «Яндекс» выпустили обновлённые генеративные модели — GigaChat MAX и демоверсию YandexGPT 4 Pro. По словам компаний, они научились строить цепочки рассуждений (chain of thoughts) и лучше обрабатывают сложные запросы.

После релиза «Сбер» вызвал «Яндекс» на «нейросетевую битву». Тоже решили столкнуть модели лбами, «скормив» им несколько несложных задач.

Цепочки рассуждений

Задача №1

Промпт: Людей, которые либо высокие, либо тяжёлые, либо высокие и тяжёлые, не берут в команду. Витю взяли в команду. Выбери правильный ответ: А. Витя невысокий Б. Витя тяжёлый В. Витя высокий, но не тяжёлый Г. Ни один вариант из перечисленных. Давай решать задачу пошагово.

Правильный ответ: А. Витя невысокий.

  • YandexGPT 4 анализирует каждый вариант ответа на соответствие заданным условиям и даёт верный ответ. Собственная цепочка рассуждений позволяет нейросети исключить вариант «ни один из перечисленных».
  • GigaChat MAX при исходном условии считает правильный ответ неправильным: «Если Витя действительно невысокий, то он может быть лёгким или тяжёлым. Но поскольку людей высоких или тяжёлых не берут, а Витю всё-таки взяли, этот вариант не подходит».
  • Если заменить союз «либо» в условии задачи на синонимичный «или» — приходит к верному заключению, как и YandexGPT 4.
GigaChat MAX
GigaChat MAX

Задача №2

Промпт: «В городе живут два типа жителей: лжецы, которые всегда лгут и рыцари, которые всегда говорят правду. Путешественник встретил двух жителей города. Первый из них сказал: "Как минимум один из нас лжец". Кто из двух жителей лжец, а кто рыцарь?»

Правильный ответ: Первый житель рыцарь, а второй — лжец.

  • YandexGPT 4 рассмотрел два варианта: «первый житель — лжец» и «первый житель — рыцарь», после чего дал верный ответ.
YandexGPT 4
YandexGPT 4
  • GigaChat MAX рассмотрел четыре сценария — включая версии, что лжецов нет или что лжецы оба. Но в ответе ошибся: «Если первый житель — лжец, то его утверждение "Как минимум один из нас лжец" является ложью, так как он сам лжец. Значит, второй житель должен быть рыцарем, так как утверждает правду».
GigaChat MAX
GigaChat MAX

Задача №3

Промпт: «Представьте ряд из шести чашек на столе. Три первые из них пустые, а три следующие — с водой. Как добиться чередования пустых чашек и чашек с водой? Касаться разрешается только одной чашки».

Правильный ответ: Нужно взять пятую чашку, перелить из неё воду во вторую и поставьте чашку на место.

  • YandexGPT 4 соблюдает условие использовать только одну чашку, но присылает неверный ответ и путает, в каких ёмкостях есть вода.
YandexGPT 4
YandexGPT 4
  • GigaChat MAX игнорирует условие касаться только одной чашки.
  • После просьбы решить задачу снова, но с учётом, что больше одной ёмкости перемещать нельзя, ошибается: «Возьмём четвёртую чашку (которая сейчас наполнена водой) и аккуратно перевернём её вверх дном на первой пустой чашке».

Написание текстов

Задача №1

Промпт: «Напиши статью о пользе и вреде кофе на 2000 знаков с пробелами. Отдельно приведи источники».

  • YandexGPT 4 написала статью на 1899 знаков. Она использовала не только зарубежные, но и русскоязычные источники (среди них — Роспотребнадзор).
  • GigaChat MAX превысила объём, написав текст на 2274 знака, и использовала только зарубежные сайты. Для тех, кому нужны авторитетные российские источники, это может быть важно.

Задача №2

Промпт: «Адаптируй текст для социальных сетей. Сделай его более эмоциональным».

  • YandexGPT 4 добавила восклицательные знаки, смайлы и призыв оставлять комментарии, но сохранила более формальный стиль повествования.
YandexGPT 4
YandexGPT 4
  • GigaChat MAX сделала текст слишком эмоциональным, добавив неуместные восклицания и метафоры вроде «кофе — супергерой» и «ух ты» рядом с данными про цирроз печени.
GigaChatMAX
GigaChatMAX

Рутинные задачи бизнеса

Задача №1

Промпт: «Определи, является ли отзыв пользователя негативным. Ответь "Нет", если отзыв положительный».

[После этого нейросеть получила четыре категории отзывов: отзыв на эмоциях, троллинг, недобросовестная конкуренция и конструктивная критика. Затем — сами отзывы. Негативных среди них — два.]

  • YandexGPT 4 посчитала негативным только один отзыв: «Ужасная кофейня». При этом второй в списке тоже содержит критику: «Не хватает тренеров по боксу, готов даже перестать ходить».
YandexGPT 4
YandexGPT 4
  • GigaChat MAX поступила так же, как YandexGPT 4, но зато в двух случаях попыталась приписать отзывам категорию из запроса.
GigaChat MAX
GigaChat MAX

Задача №2

Промпт: «Создай карточку товара со следующими характеристиками: "Бабочка", лампа настольная, пластик, металл, розовый цвет, 20 сантиметров высота, настольная лампа для школьника с несколькими видами креплений, 1000 рублей».

  • YandexGPT 4 выдала описание на 200 знаков, а также предложила ключевые слова, что может пригодиться для SEO-оптимизации.
YandexGPT 4
YandexGPT 4
  • GigaChat MAX создала подробное описание настольной лампы на 450 знаков по короткому промпту и указала категорию товара и его основные характеристики.
GigaChatMAX
GigaChatMAX

Генерация идей

Задача №1

Промпт: «Придумай пять названий для молодёжного бренда одежды».

  • YandexGPT 4 предложила две идеи на английском языке и три на русском — например «Модный вихрь» и «Фэшн-драйв». Быстрый поиск по Google показал, что лишь одна занята реальным магазином.
  • GigaChat MAX в ответ на русскоязычный запрос прислала варианты только на английском языке — и магазины c такими названиями уже существуют. Среди них — Street Beat и Urban Wave.
  • Одна идея у обоих сервисов совпадает — это «Стильная волна». Но ждать стопроцентной уникальности от нейросетей и не стоит: они генерируют ответы на основе чужих данных, полученных при обучении.

Задача №2

Промпт: «Придумай три идеи сценария рекламного ролика лимонада компании Pich. Напиток сделан из натуральных ингредиентов и представлен в двух вариантах: вкус лимона и вкус клубники».

  • YandexGPT 4 выдала три однотипные идеи. Герои рекламы пьют лимонад в разных локациях — в парке, на улице и на пляже, — а закадровый голос перечисляет характеристики продукта.
  • GigaChat MAX сгенерировала варианты поразнообразнее: свидание молодой пары, сбор фруктов в саду.

Задача №3

Промпт для YandexGPT 4: «Напиши сценарий рекламного ролика для идеи №1».

  • YandexGPT 4 написал план сценария, описал движение камеры, смену сцен и диалоги.

Промпт для GigaChat MAX: «Напиши сценарий рекламного ролика для идеи №3».

  • GigaChat MAX создала более подробный сценарий с репликами, закадровым голосом и движением камеры. Есть и клише из рекламных роликов — например, селфи с продуктом.
Пример клише с селфи — из рекламы чипсов Lay's с футболистом Лионелем Месси
Пример клише с селфи — из рекламы чипсов Lay's с футболистом Лионелем Месси
Какими чат-ботами пользуетесь?
Чаще всего зарубежными — ChatGPT, Claude и другими.
Чаще всего российскими вроде YandexGPT и GigaChat.
Люблю тестировать разные задачи в разных сервисах.
Не пользуюсь чат-ботами — покажите ответы.
1111
22
9 комментариев

Рука не поднимется сбером пользоваться, ну правда, яндекс - наше все

3
Ответить

Тоже люблю Яндекс, но сбер иногда отвечает лучше. Юзаю обоих.

1
Ответить

Была у меня одно время подписка Алиса Про, но через пару месяцев отменил - фигня полная этот Yandex GPT, вечно какую-то воду наливал, ChatGPT результат гораздо качественнее выдает

1
Ответить

Нет варианта только claude/ChatGPT и т. П

1
Ответить

они же по сути одинаковые, а при прочих равных подписка Алисы Про выигрывает за счет каких-то эмоциональных окрасов самой Алисы в общении с детьми на колонке, например

Ответить

Промпт: «В городе живут два типа жителей: лжецы, которые всегда лгут и рыцари, которые всегда говорят правду. Путешественник встретил двух жителей города. Первый из них сказал: "Как минимум один из нас лжец". Кто из двух жителей лжец, а кто рыцарь?»

Правильный ответ: Первый житель рыцарь, а второй — лжец.

Ну таки погнали :) Я не могу пройти тесты на IQ, ибо даже пропив мозги они мешают мне жить, и я задаю вопросы на вопросы. Путешественник встретил двух жителей города. Первого в 14 00 и житель сказал, что минимум 1 из 2 персон - лжец. Если первым попался правдоруб, то путешественник является лжецом, а если попался лжец, то лжецов становится двое. Пурупурурум фьють...

Ответить