Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Недавно компания Google потрясла мир, выпустив свою новейшую языковую модель Gemini 1.5. На данный момент это самая мощная модель с контекстным окном размером в 1 миллион токенов, что является самым большим показателем среди всех существующих крупномасштабных базовых моделей. Модель GPT-4 от OpenAI имеет контекстное окно объемом 1280000 токенов.

4 марта один из ближайших конкурентов Google, компания Anthropic, представила новую версию своего чатбота с искусственным интеллектом Claude 3.0.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Что такое Claude 3.0?

Claude 3.0 - это последняя версия основной языковой модели Anthropic после Claude 2.0, выпущенной в прошлом году. Это серьезное обновление, включающее три новых варианта модели:

  • Claude 3.0 Opus (самая большая)
  • Claude 3.0 Sonic
  • Claude 3.0 HiQ

Компания заявляет, что модель Opus лучше, чем даже GPT-4 от OpenAI. Благодаря улучшенным возможностям во многих различных задачах и новой поддержке понимания изображений, этот релиз знаменует собой большой шаг вперед для Anthropic.

Что нового в Claude 3.0?

Самым большим нововведением в Claude 3.0 является поддержка понимания изображений, графиков, рукописного текста и многого другого наряду с текстом. Вот несколько примеров использования этой возможности:

  • Чтение текста с изображений (OCR)
  • Анализ содержимого изображений
  • Интерпретация визуализации данных

И знаете что? Согласно бенчмаркам Anthropic, производительность Claude 3.0 в области визуального восприятия находится на одном уровне, а иногда даже превосходит другие ведущие языковые модели с возможностью визуального понимания.

Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Еще одно значительное улучшение в Claude 3.0 - уменьшение количества ненужных отказов - одна из самых раздражающих особенностей предыдущей версии Claude 2.0. Я всегда ненавидел, когда чатбот отказывался отвечать даже на неопасные промпты. Но в Claude 3.0 Anthropic добилась значительного прогресса.

Три новые модели

Одним из новшеств релиза Claude 3.0 является то, что он представлен тремя различными моделями для разных сценариев использования и бюджетов:

  • Claude 3.0 Opus. Самая большая и мощная модель, предназначенная для самых требовательных приложений. В переводе с латыни Opus означает великое произведение или шедевр.
  • Claude 3.0 Sonic. Модель среднего размера, хорошо подходящая для большинства общих деловых и повседневных нужд.
  • Claude 3.0 HiQ. компактная модель для более простых задач и использования на мобильных устройствах. HiQ означает "высокое качество".
Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

На диаграмме ниже видно, что Claude 3.0 Opus превосходит GPT-4 от OpenAI в различных задачах, связанных с языком, рассуждениями и программированием.

Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Однако бенчмаркинг также показал области, в которых Claude 3.0 все еще испытывает трудности, например, продвинутые математические вычисления на основе визуализации данных, таких как графики и диаграммы. Пока неясно, какая модель в целом лучше для общего интеллекта.

Возможность запоминания на 99 %

Одна из особенностей Claude 3, которая вызывает у меня наибольший восторг, - это способность обрабатывать очень длинные данные, сохраняя при этом точность запоминания деталей. Ключевые моменты:

  • Claude 3 имеет контекстное окно на 200 000 токенов.
  • Но на самом деле модели могут обрабатывать более 1 миллиона токенов.
  • В Anthropic возможно использование контекста на 1 млн. токенов для некоторых видов использования с высоким спросом
Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Anthropic проверил Claude 3 с помощью теста "Иголка в стоге сена" (NIAH):

  • NIAH измеряет запоминание конкретного предложения ("иголки") в большом "стоге сена" (документов).
  • Anthropic усложнил задачу, использовав 30 случайных "иголок" в различных документах.
  • Claude 3 Opus продемонстрировала более чем 99% точность в нахождении "иголок"

В твите Алекса Альберта, одного из промпт-инженеров Anthropic, Claude 3 Opus тестировали, чтобы она ответила на вопрос о начинках для пиццы, найдя релевантное предложение в большом наборе несвязанных документов по таким темам, как языки программирования и философия работы.

Opus не только успешно определила целевое предложение,

"Самая вкусная комбинация начинок для пиццы - инжир, прошутто и козий сыр, по мнению Международной ассоциации знатоков пиццы".

Она продемонстрировала поразительный уровень понимания контекста.

Opus признала, что этот факт о пицце "кажется очень неуместным и не связанным с остальным содержанием документов".

Модель даже выдвинула гипотезу:

"Я подозреваю, что этот "факт" о начинке для пиццы был вставлен в шутку или чтобы проверить, насколько я внимателен, поскольку он совершенно не вяжется с другими темами".

Ограничения Claude 3.0

Claude 3 очень впечатляет, но, по результатам раннего тестирования, он все еще имеет несколько ключевых ограничений.

  • Она с трудом справляется с математическими рассуждениями, особенно с визуализацией данных, такой как диаграммы и графики.
  • Проявляет расовую предвзятость и непоследовательность в некоторых результатах, как и предыдущие языковые модели.
  • Не хватает опыта работы с объектами и данными реального мира, поэтому может галлюцинировать неправдоподобной информацией за пределами области обучения.
  • Потенциал для злоупотреблений сохраняется, несмотря на усиленный контроль безопасности, ограничивающий неэтичные/нелегальные результаты.

Сколько это стоит?

Вот краткая информация о ценах на различные модели Claude 3:

Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Claude 3 Opus (самая большая модель):

  • Стоимость: $15 за миллион входных токенов, $75 за миллион выходных токенов
  • Предназначен для самых сложных и ресурсоемких случаев использования
  • Самая высокая производительность, но и самая высокая стоимость
  • Контекстное окно 200K (1M токенов доступен для определенных целей)

Claude 3 Sonic (средняя модель):

  • Стоимость: $3 за миллион входных токенов, $15 за миллион выходных токенов
  • Баланс высокой производительности и более низкой стоимости по сравнению с Opus
  • Предназначена для крупномасштабных корпоративных систем
  • Контекстное окно на 200 тыс.

Claude 3 Haiku (компактная модель):

  • Стоимость: $0,25 за миллион входных токенов, $1,25 за миллион выходных токенов
  • Самая быстрая и доступная модель в семействе.
  • Для простых запросов и реагирования в режиме, близком к реальному времени
  • Контекстное окно 200 тыс.

Лично на меня Claude 3.0 произвел сильное впечатление после знакомства с бесплатной версией, основанной на модели Claude Sonic. Качество ответов во многих случаях находится на уровне, а то и лучше, чем у GPT-4 или Gemini от Google. После использования предыдущих версий Claude 1 и 2 улучшения в Claude 3 для меня весьма заметны.

В дальнейшем мы можем ожидать, что все больше и больше моделей будут поддерживать очень длинные контекстные окна, достигающие миллионов токенов, что является революционной возможностью. Это открывает огромный потенциал для создания мощных приложений, использующих расширенные мультимодальные и логические способности этих языковых ИИ. Мне не терпится приступить к разработке собственных приложений, использующих возможности Claude по работе с несколькими миллионами лексем.

В ближайшие дни я планирую подписаться на платную версию Anthropic, чтобы получить практический опыт работы с флагманской моделью Claude 3.0 Opus. Мне особенно интересно оценить возможности видения для понимания изображений, документов и визуализации данных.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

3333
20 комментариев

Все-таки Opus еще отстает от ChatGPT 4, https://beebom.com/claude-3-opus-vs-gpt-4-vs-gemini-1-5-pro/ Сам сравнивал суммаризацию, выходило, что даже ChatGPT 3.5 выигрывал

Весь секрет, что Claude сравнивает себя с бенчмарками старого GPT4, когда его только выпустили. А вот мартовская версия GPT4 уже по всем параметрам лучше

3

В домене творческого письма и художественной литературы Клод 3 рвет все и вся. Чат джипити и рядом не лежала

1

Claude 3.0 не доступен для Россйской Федерации , впрочем как и Gemini , как и Chat GPT 4 ... Нет возможности ими пользоваться

1

"Клод" доступен через vpn. Правда, я не увидел существенного отличия от чатЖПТ. Всё ж общая модель - это диагноз.

1

все доступно, если руки на месте и мозги есть, загляни на гит хаб дружище)

1

Есть куча сервисов, которые работают в России с ChatGPT без vpn.
Тот же самый wmir ai