Большое сравнение нейросетей: Grok, DeepSeek и ChatGPT
Привет! Когда-то давно я обещал написать ещё раз про нейросети, теперь пришло время платить по счетам, как говорится. В этот раз снова буду задавать вопросы самому себе и отвечать на них.
Попробуем понять, какая из нейронок реально круче? ChatGPT на словах только Лев Толстой, а на деле похудее будет? DeepSeek — это Chery Tiggo от мира нейросетей? И впереди ли планеты всей наш слон Илон Маск с его Grok?
Коль уж обитаем мы в нише рекламной, то и оценивать будем применительно к нашим задачам. В этом, собственно, и будет интерес, так как уже есть открытые данные, у кого длиннее код, благодаря бенчмаркам кодинга, научным и математическим.
(скрин таблицы)
🔥 Наши участники:
- Grok от Илона Маска и xAI
- DeepSeek (если верить шуткам, на основе советского кода 1985 года)
- ChatGPT 4.5 от OpenAI
📌 Обзор участников
1. Grok
Одна из главных фишек — отказ от жёсткой цензуры, свойственной другим популярным нейронкам. Первая закрытая версия вышла в 2023 году, а не так давно открыли доступ к Grok 3.
На текущий момент мне удалось поработать с Гроком около четырёх недель, но мнение уже успело сложиться. Из забавного вспоминается его слабое понимание нашего родного русского языка. Живой пример — швабропсов.
2. DeepSeek
Из особенностей стоит выделить открытый API и доступ без ограничений, в отличие от двух других нейросетей из этой статьи, а также возможность пользоваться без VPN, что, между прочим, очень удобно.
В целом Дипсик тоже может похвастаться отсутствием жёсткой цензуры, если это, конечно, не касается самого Китая. Первое время пользователи пытались выяснить с помощью Дипсика, что же на самом деле произошло на площади Тяньаньмэнь? Они только и добились, что довели китайскую бедолагу до нервного срыва.
3. ChatGPT 4.5
Тут мы будем пользовать свежеиспеченную 4.5 от ребят из Сан Франциско. За последний год мы стали чаще работать с ChatGPT: тестить задачи, где нужно делать выводы на большом объёме данных, создавать креативы.
Наши тесты
Сравним нейронки на основе трёх разных задач:
- Анализ данных
- Планирование (подготовка роадмапы)
- Работа с текстом (составление резюме)
Тест №1: Анализ данных
Кормим таблицей Excel с данными выдуманной рекламной кампании и одинаковым запросом каждой нейросети:
«Я бы хотел, чтобы ты проанализировал все строки. Предложи на основе этих данных, как можно достичь большего кол-ва лидов и низкой стоимости. Также выяви интересные, необычные корреляции. Это может быть самый лучший, худший день недели, месяца и т.д.»
Результаты:
Grok: Выдал довольно обширный анализ: отметил лучшие и худшие периоды, указал зависимость стоимости лида от сезонности и даже дал советы по оптимизации бюджета. Но мне пришлось слегка урезать его анализ, чтобы выделить главное и не заставлять вас во всё это вникать.
ChatGPT: Подвох пришёл откуда не ждали. У меня уже был опыт обработки Excel-документов через ChatGPT, в целом результат обычно был нормальным. Но сейчас, видимо, OpenAI раскутюжил чикушку-другую и приказал работать мне — человеку. В этот раз он ограничился общими фразами и поверхностными
DeepSeek: Самую сбалансированную выжимку смог предоставить только наш китайский брат. Выделил наибольший CTR, назвал самую высокую стоимость лида за всё время, предложил конкретные варианты оптимизации, обратил внимание на
Тест №2: Планирование (роадмапа)
Обычный запрос пользователя, без хитрых промтов, нейросети должны подготовить роадмапу в Google Sheets.
Результаты:
DeepSeek: Выдал совсем скудный формат, просто предложив копипастнуть таблицу в Google Sheets. Пытался раскрутить его на наглядную карту, но результат получился довольно посредственным.
Grok: Наблюдаем кардинальные изменения относительно китайского ИИ. Появилось разделение по цветам, подробнее расписаны даты, добавлен ожидаемый результат. Правда, сначала Грок капризничал, и пришлось немного повозиться, в основном помог код, который он подготовил для App Script в Google Sheets.
ChatGPT: Вышло не так информативно, как у сети Маска, но цвета есть, сроки на месте. Из плюсов — тебе сразу прилетает готовый Excel-файл, конечному пользователю не приходится мучиться с Ctrl+C, Ctrl+V. Также ChatGPT с помощью DALL-E 3 способен выдать сгенерированное изображение роадмапы. Данные довольно сильно обобщены, но круто смотрится. Тут точно лайк.
Тест №3: Работа с текстом (резюме)
Тестируем нейронки на понимание чернового текста и способность красиво оформить резюме. Для этого я специально набросал сумбурный текст, где был полный набор профессионального сленга, опечаток и своего фирменного косноязычия. Посмотрим, кто из наших кандидатов сможет разобрать этот ребус.
DeepSeek:Неплохо справился, разгадал всю белиберду, кроме загадочного «апса аналитоса» (так известного нам как AppsFlyer). Несмотря на этот промах, подготовил внятный список задач, логично всё структурировал и красиво подвёл итог. Респект таким пацанам.
Grok:Грок тоже сразу не разобрался с моим косноязычием и слегка запутался в формулировках, но быстро сориентировался. Он даже добавил от себя ожидаемые результаты и прописал предполагаемые навыки и подходы. Правда, не очень понятно, зачем ему это понадобилось, но смотрится уверенно и профессионально. Получился добротный текст на твёрдую четвёрку.
ChatGPT:Получился довольно неожиданный результат. По каким-то неведомым причинам ChatGPT решил украсить сухое резюме эмодзи, что вообще не было частью запроса. С формулировками вышло суховато, но зато он сразу просёк, где таится AppsFlyer, сделал ровно то, о чём просили, и не стал уходить в лирику. Прагматично, но зато чётко.
Итоговое мнение
- DeepSeek отлично показал себя в аналитике, классно справился с текстом, но слабоват в визуализации и лагает. Зато бесплатный, рекомендую как рабочую лошадку для большинства задач.
- Grok оптимален во всём: анализирует, отлично строит роадмапы, быстро работает, есть бесплатные фишки вроде генерации изображений и кода.
- ChatGPT выступил слабее коллег, но зато постоянно удивляет. Лично моё впечатление от него сильно лучше результатов конкретных тестов. Ну и ностальгия, когда ChatGPT тестировался на игре Dota 2 в миду против Данила Dendi Ишутина, дорогого стоит.
А что лучше выбрать — решать вам, смотря в чём хотите больше тунеядствовать!