Почему Claude 3 лучше чем ChatGPT: Подробное сравнение возможностей и сценариев использования

В мире нейросетей не так давно появился новый игрок - Claude 3 от Anthropic. Эта статья о сравнении возможностей Claude 3 и популярного ChatGPT, в ней мы рассматриваев различные сценарии использования, в которых Claude 3 значительно выигрывает.

Привет! На связи Роман Шарафутдинов. Я маркетолог, продюсер, специалист по нейросетям, спикер.

Занимаюсь стратегическим маркетингом, продюсированием, помогаю экспертам, блогерам, предпринимателям и фрилансерам внедрять нейросети в свою работу, экономить время/деньги и зарабатывать больше за счет внедрения ИИ.

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

t.me

Роман про Маркетинг 🧠 GPT. Нейросети

Claw-free - это ещё одна большая языковая модель, которая, по утверждению компании Anthropic, превосходит GPT-4 в различных тестах и оценках производительности. Кроме того, многие пользователи интернета, уже опробовавшие эту нейросеть на практике, также отмечают, что она работает лучше.

Я не хотел делать поспешных выводов и сразу писать статью, поэтому решил сначала самостоятельно протестировать Claude в различных сценариях использования. Ведь главный вопрос заключается в следующем: стоит ли отказаться от использования GPT-4 в пользу Claude?

Если говорить кратко, то ответ зависит от ваших конкретных задач и целей. Но в целом, вероятно, да, имеет смысл перейти на Claude. Эта нейросеть обладает практически всеми возможностями, которые есть у ChatGPT. При этом сама базовая модель, лежащая в основе Claude, действительно хорошо справляется с определёнными задачами.

На мой взгляд, вполне логично, что многие люди сравнивают Claude с GPT-4. GPT-4 является лидером в категории больших языковых моделей и занимает это место с момента своего выпуска не просто так - она действительно чрезвычайно хороша. Хотя появилось множество альтернатив, таких как модели с открытым исходным кодом или Gemini, ни одна из них по-настоящему не смогла превзойти GPT-4 с точки зрения удобства использования и потребительских предпочтений. Однако, я полагаю, что сейчас ситуация могла измениться.

Сначала я дам вам краткий обзор всего, что вам нужно знать - ключевые моменты для вас как пользователя.

- Какие у нее спецификации?

- Что важно с точки зрения удобства использования?

Затем я хочу сразу перейти к примерам использования, потому что я попробовал эту нейросеть во всех случаях, когда я использую большие языковые модели ежедневно. Есть много нишевых вариантов использования, есть много сложных процессов или конкретных автоматизаций, которые у меня есть, но они не являются повседневными. Такие вещи, как помощь в создании контента или генерация идей, - вот что я использую постоянно, и именно это меня интересует. Поэтому мы будем рассматривать именно это сегодня, и я дам свое честное мнение, буду ли я использовать ее вместо GPT-4 или нет, и если да, то почему.

Но прежде чем мы даже заговорим о спецификациях, позвольте показать вам сайт, где вы можете использовать ее бесплатно. Если вы зайдете на chat.lms.ai, вы сможете перейти в Direct Chat и выбрать Claw-free Opus, который является их новой флагманской моделью.

Теперь они выпустили несколько моделей, и вы можете ознакомиться со всеми деталями. Поэтому я, как опытный пользователь, даже перестал обращать на это внимание. То есть, отлично, победа во всех тестах, здорово. Двигаемся дальше. Для меня важно, как работает извлечение данных, какая будет цена, какова будет скорость и качество выходных данных.

Ладно, итак, в основном стоимость составляет $20 в месяц, но этот сайт позволяет использовать её бесплатно. Правда, иногда он немного перегружен, но эй, это бесплатно. Вы можете пройти и протестировать её. Если перейти в Arena Side by Side, вы сможете сравнить её с GPT-4 и запустить здесь запрос, и вы получите оба результата - включая GPT-4, и это бесплатно, что весьма удивительно. У них есть венчурное финансирование, и по сути они хотят создать рейтинговую таблицу для чат-ботов, что они успешно и делают. Это один из лучших способов оценить различные модели. Она просто обновляется каждые 2-3 недели, поэтому эта рейтинговая таблица ещё не обновлена. Кстати, следующий момент: если вы хотите использовать Claw-free, она недоступна в Европе, а лучшая модель Opus доступна только за $20 в месяц.

Хорошо, давайте обсудим некоторые из ключевых особенностей этого продукта с точки зрения пользователя, кроме того факта, что он имеет контекстное окно в 200 тысяч токенов. Сейчас, если вы используете GPT-4 в ChatGPT, у вас есть контекстное окно в 32 тысячи, верно? Но он прекрасно извлекает всю информацию вместе с этим. Если вы используете контекстное окно в 128 тысяч токенов API GPT-4, оно уже не так идеально. Иногда информация в середине просто теряется, как вы, возможно, знаете. Это проверяется с помощью теста под названием "иголка в стоге сена", где они в основном прячут маленькую строчку внутри очень-очень длинного документа, который исчерпывает контекст, а затем просят модель извлечь этот фрагмент информации. Этот график действительно имеет значение, потому что он наглядно показывает, насколько хорошо модель извлекает скрытую часть информации. Другими словами, у нас есть очень большое контекстное окно, которое действительно работает с чрезвычайно мощной моделью. Это выглядит очень многообещающе по всем параметрам.

Интерфейс приятный и интуитивно понятный. У вас есть история внизу, вы можете начинать новые чаты, прикреплять PDF-файлы или изображения. Однако, должен сказать, что если вы используете этот веб-интерфейс и сравниваете его с ChatGPT, то он лишен практически всего, что есть у ChatGPT, кроме самой генерации текста. Здесь нет интерпретатора кода, нет генерации изображений, нет голосового ввода или вывода, нет плагинов (так называемых действий), нет пользовательских инструкций, и вы не можете редактировать сообщения, которые отправили ранее. Но ядро этого продукта - это ответы, которые он дает, так что давайте поговорим об этом.

Итак, насколько хорошо она справляется? Что ж, позвольте вам сказать, она действительно отлично справляется. Во многих самых простых запросах, таких как "напиши мне эссе" или "исследуй эту тему", она работает практически так же, как GPT-4. И, кстати, всё, что я сейчас скажу, является чисто субъективным. Это всё точка зрения опытного пользователя, который проводит почти всё своё время, экспериментируя с этими инструментами, а затем обучая других людей тому, что я нахожу. Но я должен сказать, что на базовом уровне они казались идентичными. Но затем, если вы копнёте немного глубже и начнёте расширять контекст, и если вы смотрите этот канал, то знаете, что чем больше контекста вы предоставляете в запросах, тем больше вы можете ожидать на выходе. Это будет более персонализировано и релевантно. И если вы сделаете это, я хочу начать с одного случая использования, который действительно поразил меня.

Здесь вы получите невероятные результаты. Я просто покажу вам этот небольшой разговор, который у меня был с ней, и он действительно впечатлил меня. Запрос супер базовый. По сути, у вас могут быть очень простые запросы, если у вас есть свои собственные инструкции к ним. У меня есть свой набор пользовательских инструкций, которые я разработал для себя со временем, и затем я просто включаю этот супер простой запрос. По сути, она берёт контекст из моих пользовательских инструкций и изображения, которое очень богато данными, верно? Здесь есть количество просмотров, заголовки, все миниатюры, и тогда мне практически нужен только простой запрос, как этот. И вот в чём дело, результат, который я получил, я согласен с большинством из этих идей. Это фантастические идеи для видео, все они. Она предлагает различные шоу, и когда я смотрю на них, я понимаю, что все эти идеи невероятно точны, я именно так себе это и представлял

Я хочу рассказать об одном интересном варианте использования нейросети Claude. Если копнуть глубже, я действительно обнаружил, что она просто потрясающе работает с изображениями. Когда я взаимодействую с картинками через Claude, у меня возникают совершенно иные ощущения, чем с другими нейросетями. Если выразить это количественно, можно посмотреть на результаты тестов визуальных возможностей и то, как нейросеть Anthropic (на базе которой работает Claude) превосходит GPT-4. Но лучший способ, которым я могу это описать: в GPT-4 мне кажется, что у них есть отдельно большая языковая модель и отдельно модель компьютерного зрения, которые они просто соединили друг с другом и позволили им работать вместе. Это здорово, но с Claude всё ощущается по-другому. Такое чувство, что она мультимодальна с самого начала, на более глубоком уровне. И это действительно так - если использовать возможности зрения через API, а не через интерфейс чата, то это будут две разные конечные точки API. С практической точки зрения работа Claude с изображениями меня просто поразила. Она показывала лучшие результаты по сравнению с другими нейросетями, когда я тестировал на сложных картинках.

Ещё один вариант использования, который очень важен лично для меня - это генерация запросов (prompt engineering). Я часто рассказываю о нём на своём канале. У нас есть бесплатная рассылка, и если вы на неё подпишетесь, то получите огромную подборку ресурсов по ChatGPT. Моя любимая часть в ней - это генераторы запросов. Мы даём по 10 генераторов для 10 различных профессий, которые можно настроить под себя. Также у нас есть большой платный продукт, где мы уже предварительно сгенерировали тысячу запросов, чтобы вам не пришлось делать это самостоятельно. Так вот, я протестировал один из этих генераторов, который создаёт довольно универсальные формулы запросов для специалиста по росту, в обеих нейросетях - и в Claude, и в GPT-4. У меня большой опыт работы с этим инструментом, я постоянно гоняю его в разных вариациях, меняя инструкции, чтобы находить новые сценарии использования ИИ. Это мой любимый способ, который я советую людям, когда они спрашивают: "Как придумывать и открывать новые возможности ChatGPT?". Я отвечаю - берите этот генератор, настраивайте инструкции в нём под свои задачи, и он будет выдавать вам идеи того, что вы можете сделать с помощью ИИ уже сегодня. Потому что именно так он и работает. Так вот, я много раз гонял этот генератор запросов и в Claude, и в GPT-4, и обнаружил, что он выдаёт примерно одинаково хорошие результаты в обеих нейросетях.

Я много раз использовал один конкретный генератор запросов, поэтому мне кажется, что я могу довольно объективно оценить результаты его работы. И знаете, мне без разницы, в какой нейросети его запускать - в Claude или в GPT-4. Он отлично работает в обеих. Правда, есть один нюанс: в GPT-4 ограничен размер выходных данных. Поэтому когда я гоняю этот генератор там, он выдаёт мне где-то около 22 запросов, в зависимости от их длины. Но это не страшно - я просто дописываю "продолжай" или нажимаю кнопку, чтобы он генерировал дальше. А вот в Claude лимит выходных токенов побольше, что довольно удобно.

Но есть один интересный момент, в котором Claude действительно отличается. У меня есть определённый процесс: я беру один из сгенерированных запросов и дорабатываю его с учётом контекста конкретной задачи, над которой работаю. И знаете, в результате такой доработки получается вот такой запрос - более подробный и проработанный. Не буду вдаваться во все детали, это не главное сейчас. Но мне нравится именно этот улучшенный вариант. Он более детальный, более ориентированный на действие, лучше сохраняет переменные - то есть всё то, что мне нужно, учитывая мой исходный ввод. И я заметил, что такая тенденция сохраняется, когда дорабатываю и другие запросы, созданные разными генераторами. Поэтому я пришёл к выводу: если вы используете большую языковую модель для создания запросов, то Claude справляется с этим заметно лучше.

Я также протестировал генерацию запросов для создания изображений. Мы уже обсуждали эту тему на канале, и я давал вам пример такого запроса. С его помощью можно создавать потрясающие фотореалистичные картинки. Всё, что нужно - это в конце запроса написать, например, "кот в шляпе". А дальше нейросеть сама развивает эту идею, добавляя кучу деталей. Так что вам остаётся только немного подкорректировать результат под себя. И знаете, оказалось, что в плане генерации таких изображений нет вообще никакой разницы между ChatGPT и Claude. Посмотрите сами: первая картинка создана по запросу из ChatGPT, вторая - из Claude. По сути, одно и то же. Так что тут без разницы, какую нейросеть использовать. А вот для генерации текстовых запросов к большим языковым моделям, как я выяснил, разница есть, и существенная - в пользу Claude.

Знаете, результаты могут зависеть от того, как именно вы работаете с нейросетями и какие запросы используете. Но я стараюсь сравнивать по принципу "яблоки с яблоками". Я работаю над некоторыми запросами уже довольно давно, и меня удивило, как много из них показывают лучшие результаты в Claude прямо "из коробки". Но не будем слишком их нахваливать. Были случаи, когда Claude откровенно лажала. Например, вот ещё один простой запрос, который я нашёл на Reddit: "У Сэма в комнате 50 книг, он прочитал 5 из них. Сколько книг осталось в комнате?". Claude думает, что осталось 45 книг. Но ведь Сэм просто прочитал эти книги, а не убрал их. Они всё ещё в комнате, так что правильный ответ - 50. ChatGPT сразу дала верный ответ.

Кроме того, я прогнал кучу других тестов - на создание палиндромов, на генерацию кода. И знаете, если сравнивать по-честному, мне пока сложно составить однозначное мнение. Обе нейросети завалили тест с палиндромами. А с генерацией кода всё очень зависит от того, что именно вы хотите сгенерировать и с какими библиотеками работаете. У меня пока нет чёткой позиции по этому вопросу. Да, по всем тестам и бенчмаркам Claude выигрывает. Но сейчас я бы не стал слишком полагаться на эти результаты. Вся индустрия ИИ знает, что их оценивают по этим параметрам. И хотя разработчики утверждают, что вопросы из тестов не включены в обучающую выборку, сама эта выборка не является публичной. Так что я не уверен, можем ли мы проверить, насколько их слова соответствуют действительности.

Итак, есть один специфический запрос от другого автора - отличная работа над этим запросом, нужно отдать ему должное. Ребята из Synaptic Labs с профессором Синапсом прямо-таки убили его. Это реально эффективный способ улучшить взаимодействие с ChatGPT, особенно если вы не очень хорошо разбираетесь в составлении запросов. Нейросеть задаёт уточняющие вопросы и создаёт специального персонажа, чтобы помочь вам. Понятно, что если настроить всё вручную, точно указать нужные характеристики персонажа и сформулировать запрос под свои задачи, то результат, наверное, будет лучше. Но для начала этот вариант тоже подойдёт.

Я протестировал этот запрос в Claude - по сути, это тот же самый запрос профессора Синапса. И знаете, я был просто поражён - да что там, я был в шоке, как и вся индустрия ИИ - что он не сработал. Потому что Claude вроде как за этичность, за то, чтобы не навредить. Это их главный принцип. Они хотят масштабировать свою нейросеть для бизнеса, это их основное преимущество. Если посмотреть на структуру их научной статьи, на их аргументы и всё остальное, то вряд ли они пытаются создать продукт для рядовых пользователей. В общем, этот запрос у них вообще не работает. И это большое ограничение. Многие запросы, которые я использую, основаны на моделировании персонажей.

И напоследок стоит упомянуть креативное письмо. Тут очень сложно судить, потому что, как мне кажется, это дело сугубо субъективное. К тому же мне нужно больше времени, чтобы сформировать чёткое мнение, которым я буду готов с вами поделиться. Моё первое впечатление: для создания контента Claude очень похожа на GPT-4, может, даже чуть хуже. Это просто моя первоначальная интуиция. Потому что когда я создаю контент с GPT-4 и планирую его, нейросеть ведёт себя скорее как режиссёр и берёт на себя больше ответственности (по крайней мере, в моих рабочих процессах). А Claude просто выдаёт текст, и он не то чтобы выдающийся. У меня лично очень высокие стандарты к контенту, поэтому я никогда не стал бы использовать сценарии, сгенерированные ИИ, в том виде, в каком они есть.

Но, как я уже говорил, мне очень нравится применять Claude для генерации идей, и в этом она просто превосходна. Теперь это будет мой главный инструмент для мозгового штурма и придумывания идей, и это огромный плюс. То же самое касается улучшения запросов - тут Claude однозначно лучше.

Итак, каков мой предварительный вывод после использования Claude для задач, которые действительно важны для меня, и сценариев, которые я применяю изо дня в день? Что ж, я добавляю эту вкладку в закладки и размещаю её прямо рядом с ChatGPT, потому что отныне я буду пользоваться обеими нейросетями. И во всех случаях, которые я ещё не опробовал, я буду тестировать и ту, и другую, потому что похоже, что в определённых вещах Claude просто лучше. И всякий раз, когда мне нужно будет использовать изображение в качестве контекста, я по умолчанию буду выбирать Claude. Честно говоря, такое случается довольно часто. Я много работаю с картинками в своих запросах, так что вот так.

Надеюсь, вся эта информация была полезной. И теперь, как человек, который очень внимательно следит за Anthropic, я могу сказать, что в типичной для них манере они, вероятно, выкатят свою следующую большую разработку в течение дней, а не недель. Потому что Claude в её текущем виде определённо переманит многих пользователей OpenAI. Она просто слишком хороша, и я не думаю, что я единственный, кто придёт к такому выводу.

Источник

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

t.me

Роман про Маркетинг 🧠 GPT. Нейросети

#chatgpt #искусственныйинтеллект #нейросети #AI #GPT #промпты #claude #claude3