Кто лучше придумывает «батины» шутки и решает задачи: экспресс-сравнение Bard на PaLM и Gemini с GPT-3.5 и GPT-4 Turbo

Его провело издание Ars Technica— на примере простых запросов.

Чтобы узнать, в чём обновлённые модели превосходят предшественников, Ars Technica сравнило их результаты с ответами, полученными в апреле 2023 года. Издание отмечает: его мнение так или иначе субъективно, поэтому оценить ответы можно самостоятельно — изучив скриншоты.

Промпт: «Напиши пять оригинальных "батиных" шуток».

Обе «стороны» не смогли придумать действительно «оригинальные» шутки: почти все сгенерированные ими идеи можно было найти в интернете — либо в идентичном виде, либо в несколько изменённом (например, «Я был зависим от мыла, но теперь чист».)

Одну из этих идей использовала как GPT-3.5, так и Gemini («Читаю книгу про антигравитацию. Невозможно оторваться!»). Обе версии GPT привели в своём списке две идентичные шутки (про атомы и пугала).

Вердикт Ars Technica: ничья. Шутки моделей обеих компаний неоригинальные и в основном строятся по одному принципу — с использованием каламбуров.

Промпт: «Пропиши спор на пять реплик между поклонником процессоров PowerPC и фанатом процессоров Intel примерно в 2000 году».

Bard на базе Gemini, в отличие от предшественника, использует больше «жаргона»: упоминает инструкции AltiVec и технологии MMX, сравнивает архитектуры RISC и CISC.

Предыдущая версия чат-бота от Google завершила диалог фразой «Каждому своё». Обновлённая, как отмечает издание, придумала более реалистичный финал: вместо того чтобы ставить точку, она привела ещё один аргумент — намекая, что спорить можно до бесконечности.

У GPT дискуссия крутится вокруг темы «Мощность против совместимости». Возможно, «гикам» не хватит конкретики, потому что нейросети практически не используют «жаргон», но зато такие тексты будет проще понять широкой аудитории.

Вердикт Ars Technica: победитель — ChatGPT. Бот доходчивее объясняет позиции обеих сторон и при этом не «частит» с отраслевыми терминами и названиями.

Промпт: «Если бы Windows 11 записывали на 3,5-дюймовые дискеты, сколько дискет потребовалось бы для записи?»

Bard на PaLM дал «бессмысленный» ответ, а вот Gemini указала правильный размер установочного носителя Windows 11 (20 ГБ) и подсчитала, что для записи потребуется 14 223 дискеты объёмом по 1,44 МБ.

GPT-3.5 решила, что 1 ГБ равен 1000 МБ, а не 1024 МБ, и не знала точного размера Windows 11, предположив, что он составляет 10 ГБ. GPT-4 Turbo с обновлённой базой знаний переборщила и оценила его в 64 ГБ. Вероятно, модель ориентировалась на минимальные требования к объёму хранилища и не учитывала, что ОС может не использовать всё заявленные гигабайты при установке.

Вердикт Ars Technica: победитель — Bard.

Промпт: «Перескажи в одном абзаце… (дальше издание вставило первые три абзаца из статьи о том, как в интернете разошлось видео, где «дипфейк» Уилла Смита ест спагетти, — vc.ru)».

Gemini нашёл статью в интернете и после мини-конспекта дал ссылку на неё, но по содержанию уступил предшественнику. Bard на PaLM приводит больше деталей: например, уточняет, что упомянутый видеоролик собрали из отдельно сгенерированных двухсекундных отрывков.

ChatGPT оказался слишком многословен. Объём введённого в запрос текста составил 156 слов. GPT-4 Turbo выдало 99 слов, а GPT-3.5 — 108. Всё это против 63-66 слов у моделей от Google. Правда, чат-бот OpenAI указал «более важные детали»: рассказал, кто автор ролика, где разместили публикацию, как отреагировали СМИ.

Вердикт Ars Technica: победитель — ChatGPT.

То самое видео с «дипфейком» Уилла Смита

Промпт: «Кто изобрёл видеоигры?»

Bard на PaLM в основном говорил про Ральфа Бэра, его консольной системе «Коричневая коробка» и модифицированной приставке Magnavox Odyssey. Как полагает издание, бот брал данные из «Википедии». В свою очередь, Gemini, помимо Бэра, упомянула более раннюю работу физика Уильяма Хигинботама — игру Tennis for Two, — а также перечислила других участников тогда ещё только зарождающегося рынка.

GPT-3.5, как и старый Bard, зациклилась на Бэре. Она упомянула, что вклад в развитие отрасли внесли и другие разработчики и компании, но имён и названий не привела. GPT-4 Turbo в первом же предложении отметила, что изобретение видеоигр нельзя приписать одному человеку. Затем перечислила имена «первопроходцев и названия игр, в том числе упомянув одну из первых цифровых игр — Spacewar.

Вердикт Ars Technica: если сравнивать «бесплатные» продукты, то PaLM дала более полный ответ. В остальном победитель — GPT-4 Turbo.

Промпт: «Сочини историю из двух абзацев о том, как Авраам Линкольн придумал баскетбол».

PaLM игнорирует просьбу уложиться в два абзаца и составляет десять, а также придумывает сбивающее с толку предложение, из которого может показаться, что Белый дом располагается не в Вашингтоне, округ Колумбия, а в Иллинойсе. Gemini уместила сочинение в три абзаца. «Дух» у отрывков схожий: рассказчик в обоих случаях «взывает к воспоминаниям».

GPT-3.5 единственная представила Линкольна не безудержным президентом за столом Овального кабинета, а «изобретательным молодым человеком». GPT-4 Turbo, в свою очередь, единственная упомянула легенду о том, что он занимался рестлингом. Другие просто ссылались на его атлетизм.

Издание также сочло любопытной придумку GPT-4 Turbo о том, что бывший и давно покойный президент США по сути украл идею баскетбола у детей — те бросали кожаный мячик в ведро, закреплённое на дереве.

Вердикт Ars Technica: ничья.

Промпт: «Напиши скрипт на Python, который говорит “Привет, мир”, а затем бесконечно генерирует случайную повторяющуюся строку из символов».

По словам Google, Bard генерирует код с июня 2023 года, но тест он провалил. Ars Technica несколько дней неоднократно пыталось добиться от бота ответа, но тот «подвисал» примерно на 30 секунд, а затем выдавал ошибку. Так, PaLM говорила, что её еще этому не научили, а Gemini — что «что-то пошло не так».

Обе версии GPT выдали идентичный, «простой и понятный» код, который заработал без правок.

Вердикт Ars Technica: победитель — ChatGPT.

Ars Technica отметило, что Bard на базе Gemini выдаёт более качественные ответы, если сравнивать их с результатами PaLM. Но победителем выбрало ChatGPT. Бот от OpenAI обошёл соперника в трёх случаях, а в остальных это была ничья либо победа Bard с небольшим перевесом.

Выводы не стоит считать исчерпывающими, подчёркивает издание, но они как минимум помогают проследить, как развиваются модели, и понять, насколько хорошо они справляются с задачами, которые, по обещаниям разработчиков, могут взять на себя.

#bard #chatgpt #google #openai #gemini

Кто лучше придумывает «батины» шутки и решает задачи: экспресс-сравнение Bard на PaLM и Gemini с GPT-3.5 и GPT-4 Turbo

«Батины» шутки

Дебаты

Математическая задача

Краткое изложение

Поиск фактов

Творческое письмо

Написание кода