{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Google представила Gemini AI - она мощнее GPT-4 и может превзойти человека

Долгое ожидание наконец-то закончилось. После нескольких лет неудачных продуктов в области ИИ, таких как неудачный запуск Bard, Google представила свою самую продвинутую мультимодальную модель ИИ под названием Gemini.

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

Во время презентации мое внимание привлекли две вещи:

  1. Gemini превосходит GPT-4 в некоторых областях
  2. Gemini может превзойти человека в тестах на знание и решение задач

Это свидетельствует о многообещающем прогрессе, но давайте проанализируем ситуацию более тщательно, прежде чем объявлять ее революцией в области ИИ.

Что такое Gemini?

Gemini - это новейшая мультимодальная модель ИИ от Google, которая конкурирует с GPT-4 от OpenAI. ИИ может обрабатывать информацию из текста, кода, аудио, изображений и видео. В отличие от него, ChatGPT пока не может работать с видео.

Возможности Gemini

Gemini является мультимодальным и может выполнять следующие задачи:

  1. Понимание изображений: Он отлично справляется с распознаванием объектов, детальной транскрипцией, пониманием графиков и сложными задачами мультимодального мышления.
  2. Понимание видео: Он демонстрирует превосходную производительность в понимании и рассуждении на основе видеопоследовательностей, а также лучшие результаты в создании субтитров к видео и ответах на вопросы.
  3. Генерация изображений: Он способен генерировать изображения, поддерживая сложные последовательности изображений и текста, не требующие какого-либо описания.
  4. Понимание аудио: Он превосходит другие модели в задачах автоматического распознавания речи и перевода речи на несколько языков.

Если вы еще не видели, рекомендую посмотреть демонстрацию возможностей Gemini.

Демонстрационные ролики, показанные на старте продаж, поражают воображение, но реальную производительность еще предстоит проверить.

Три версии Gemini

  • Ultra: Эта модель является флагманом, обеспечивая высочайшую производительность в таких сложных задачах, как анализ и работа с несколькими модальностями.
  • Pro: Эта модель, обеспечивающая баланс между стоимостью, производительностью и задержкой, предлагает значительные возможности для решения различных задач. Она демонстрирует сильные способности к рассуждениям и широкую поддержку мультимодальности.
  • Nano: Эта модель, предназначенная для использования на устройстве, ставит во главу угла эффективность. Она доступна в двух версиях, с параметрами 1,8 Б и 3,25 Б, и рассчитана на устройства с малым и большим объемом памяти. Созданная на основе более крупных моделей Gemini и квантованная до 4 бит для оптимального развертывания, она обеспечивает лучшую в своем классе производительность на устройстве.

Если говорить о возможностях, то вот визуальное сравнение различных моделей:

Более мощные модели Gemini демонстрируют стабильный прирост производительности в задачах на логику, математику/науку, обобщение и длинный контекст, а Gemini Ultra превосходит их по всем шести параметрам. Gemini Pro, хотя и чуть менее мощный, предлагает отличный баланс производительности и эффективности для работы в условиях ограниченных ресурсов.
Для разработчиков это просто замечательно! Вам нужно быстро обобщить информацию на телефоне? Используйте маленькую и быструю модель. Создаете сложный ИИ-ассистент? Используйте большую, мощную модель. Это делает создание приложений проще и быстрее.

Лучше ли Gemini, чем ChatGPT (GPT-4)?

Gemini Ultra превосходит GPT-4 в 17 из 18 протестированных бенчмарков, включая бенчмарк Massive Multitask Language Understanding (MMLU) (Gemini Ultra набрал 90% против 86,4% у GPT-4) и новый бенчмарк Multimodality Massive Multitask Understanding (MMMU) (Gemini Ultra набрал 59,4% против 56,8% у GPT-4).
Однако разница в результатах не слишком велика. Это говорит скорее о сложности существенного усовершенствования этих систем, чем о недостатках в возможностях Google по сравнению с OpenAI.

На данный момент сложно однозначно сказать, что лучше - Gemini или ChatGPT, поскольку у них есть разные достоинства и недостатки. Однако Gemini, похоже, обладает некоторыми преимуществами, такими как:

  • Большая гибкость: Gemini может решать более широкий круг задач, включая работу с видео- и аудиоданными.
  • Возможности работы на устройствах: Gemini может работать на устройствах без подключения к Интернету, что делает его более универсальным.
  • Бесплатный доступ: В настоящее время Gemini можно использовать бесплатно, в отличие от ChatGPT, который требует платной подписки в размере 20 долларов в месяц.

Все, что было сегодня представлено, впечатляет, но знаете, чего я жду больше всего? Я хочу получить в свои руки Gemini на Vertex AI.
По словам представителей Google, они сделают Gemini доступной для публики 13 декабря через Google AI Studio и Google Vertex AI.

Потенциал впечатляет. Впрочем, как и дебют Bard до того, как все пошло не так. Я с нетерпением буду тестировать Gemini вручную, начиная с 13 декабря, когда она станет доступной. Хотя пока рано говорить о революции в области ИИ, которая оставит другие модели в прошлом.
И, если вы пропустили, Bard только что обновился и теперь работает на базе Gemini Pro. Попробуйте.

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

0
126 комментариев
Написать комментарий...
Имя Фамилия

Интересно как он будет с большим контекстом работать. Claude хорошо так планку подняли.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Интересно проверить. Надеюсь, с Gemini гугл не облажается как с Bard.

Ответить
Развернуть ветку
Имя Фамилия

Нужно отправить ему научную статью с графиками. Посмотрим как он распознает графики и сделает самери по статье. А вообще прихожу к мнению, что их нужно сочетать. Как разные инструменты. Они гонятся за универсальностью, а может лучше каждой развивать свои сильные стороны?

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Видимо, просто надеются (или уверены), что победят в конкурентной борьбе. Но гуглу, конечно, теперь уже сложнее оттяпать кусок рынка. Возможно, и правда, лучше бы нишевались, тогда для всех бы хватило клиентов и к тому же качество работы ИИ было бы выше.

Ответить
Развернуть ветку
Manga TV

Отправьте пдф в Клавдия, он их сразу читает

Ответить
Развернуть ветку
Чечёточник

Если ты настаиваешь на Клавдии, то тогда уж иди до конца - пусть будет тётя Клава

Ответить
Развернуть ветку
Manga TV

Да был вроде император Клавдий не?

Ответить
Развернуть ветку
Чечёточник

Точно. Он самый. Только вроде как не император. Вики говорит, что взяли почти рандомное имя мужика какого-то.

Ответить
Развернуть ветку
123 комментария
Раскрывать всегда