Большое сравнение нейросетей: Grok, DeepSeek и ChatGPT

Привет! Когда-то давно я обещал написать ещё раз про нейросети, теперь пришло время платить по счетам, как говорится. В этот раз снова буду задавать вопросы самому себе и отвечать на них.

Попробуем понять, какая из нейронок реально круче? ChatGPT на словах только Лев Толстой, а на деле похудее будет? DeepSeek — это Chery Tiggo от мира нейросетей? И впереди ли планеты всей наш слон Илон Маск с его Grok?

Коль уж обитаем мы в нише рекламной, то и оценивать будем применительно к нашим задачам. В этом, собственно, и будет интерес, так как уже есть открытые данные, у кого длиннее код, благодаря бенчмаркам кодинга, научным и математическим.

(скрин таблицы)

Grok от Илона Маска и xAI
DeepSeek (если верить шуткам, на основе советского кода 1985 года)
ChatGPT 4.5 от OpenAI

Одна из главных фишек — отказ от жёсткой цензуры, свойственной другим популярным нейронкам. Первая закрытая версия вышла в 2023 году, а не так давно открыли доступ к Grok 3.

На текущий момент мне удалось поработать с Гроком около четырёх недель, но мнение уже успело сложиться. Из забавного вспоминается его слабое понимание нашего родного русского языка. Живой пример — швабропсов.

Из особенностей стоит выделить открытый API и доступ без ограничений, в отличие от двух других нейросетей из этой статьи, а также возможность пользоваться без VPN, что, между прочим, очень удобно.

В целом Дипсик тоже может похвастаться отсутствием жёсткой цензуры, если это, конечно, не касается самого Китая. Первое время пользователи пытались выяснить с помощью Дипсика, что же на самом деле произошло на площади Тяньаньмэнь? Они только и добились, что довели китайскую бедолагу до нервного срыва.

Тут мы будем пользовать свежеиспеченную 4.5 от ребят из Сан Франциско. За последний год мы стали чаще работать с ChatGPT: тестить задачи, где нужно делать выводы на большом объёме данных, создавать креативы.

Сравним нейронки на основе трёх разных задач:

Анализ данных
Планирование (подготовка роадмапы)
Работа с текстом (составление резюме)

Кормим таблицей Excel с данными выдуманной рекламной кампании и одинаковым запросом каждой нейросети:

«Я бы хотел, чтобы ты проанализировал все строки. Предложи на основе этих данных, как можно достичь большего кол-ва лидов и низкой стоимости. Также выяви интересные, необычные корреляции. Это может быть самый лучший, худший день недели, месяца и т.д.»

Grok: Выдал довольно обширный анализ: отметил лучшие и худшие периоды, указал зависимость стоимости лида от сезонности и даже дал советы по оптимизации бюджета. Но мне пришлось слегка урезать его анализ, чтобы выделить главное и не заставлять вас во всё это вникать.

ChatGPT: Подвох пришёл откуда не ждали. У меня уже был опыт обработки Excel-документов через ChatGPT, в целом результат обычно был нормальным. Но сейчас, видимо, OpenAI раскутюжил чикушку-другую и приказал работать мне — человеку. В этот раз он ограничился общими фразами и поверхностными

DeepSeek: Самую сбалансированную выжимку смог предоставить только наш китайский брат. Выделил наибольший CTR, назвал самую высокую стоимость лида за всё время, предложил конкретные варианты оптимизации, обратил внимание на

Обычный запрос пользователя, без хитрых промтов, нейросети должны подготовить роадмапу в Google Sheets.

DeepSeek: Выдал совсем скудный формат, просто предложив копипастнуть таблицу в Google Sheets. Пытался раскрутить его на наглядную карту, но результат получился довольно посредственным.

Grok: Наблюдаем кардинальные изменения относительно китайского ИИ. Появилось разделение по цветам, подробнее расписаны даты, добавлен ожидаемый результат. Правда, сначала Грок капризничал, и пришлось немного повозиться, в основном помог код, который он подготовил для App Script в Google Sheets.

ChatGPT: Вышло не так информативно, как у сети Маска, но цвета есть, сроки на месте. Из плюсов — тебе сразу прилетает готовый Excel-файл, конечному пользователю не приходится мучиться с Ctrl+C, Ctrl+V. Также ChatGPT с помощью DALL-E 3 способен выдать сгенерированное изображение роадмапы. Данные довольно сильно обобщены, но круто смотрится. Тут точно лайк.

Тестируем нейронки на понимание чернового текста и способность красиво оформить резюме. Для этого я специально набросал сумбурный текст, где был полный набор профессионального сленга, опечаток и своего фирменного косноязычия. Посмотрим, кто из наших кандидатов сможет разобрать этот ребус.

DeepSeek:Неплохо справился, разгадал всю белиберду, кроме загадочного «апса аналитоса» (так известного нам как AppsFlyer). Несмотря на этот промах, подготовил внятный список задач, логично всё структурировал и красиво подвёл итог. Респект таким пацанам.

Grok:Грок тоже сразу не разобрался с моим косноязычием и слегка запутался в формулировках, но быстро сориентировался. Он даже добавил от себя ожидаемые результаты и прописал предполагаемые навыки и подходы. Правда, не очень понятно, зачем ему это понадобилось, но смотрится уверенно и профессионально. Получился добротный текст на твёрдую четвёрку.

ChatGPT:Получился довольно неожиданный результат. По каким-то неведомым причинам ChatGPT решил украсить сухое резюме эмодзи, что вообще не было частью запроса. С формулировками вышло суховато, но зато он сразу просёк, где таится AppsFlyer, сделал ровно то, о чём просили, и не стал уходить в лирику. Прагматично, но зато чётко.

DeepSeek отлично показал себя в аналитике, классно справился с текстом, но слабоват в визуализации и лагает. Зато бесплатный, рекомендую как рабочую лошадку для большинства задач.
Grok оптимален во всём: анализирует, отлично строит роадмапы, быстро работает, есть бесплатные фишки вроде генерации изображений и кода.
ChatGPT выступил слабее коллег, но зато постоянно удивляет. Лично моё впечатление от него сильно лучше результатов конкретных тестов. Ну и ностальгия, когда ChatGPT тестировался на игре Dota 2 в миду против Данила Dendi Ишутина, дорогого стоит.

А что лучше выбрать — решать вам, смотря в чём хотите больше тунеядствовать!