{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Google представила Gemini AI - она мощнее GPT-4 и может превзойти человека

Долгое ожидание наконец-то закончилось. После нескольких лет неудачных продуктов в области ИИ, таких как неудачный запуск Bard, Google представила свою самую продвинутую мультимодальную модель ИИ под названием Gemini.

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

Во время презентации мое внимание привлекли две вещи:

  1. Gemini превосходит GPT-4 в некоторых областях
  2. Gemini может превзойти человека в тестах на знание и решение задач

Это свидетельствует о многообещающем прогрессе, но давайте проанализируем ситуацию более тщательно, прежде чем объявлять ее революцией в области ИИ.

Что такое Gemini?

Gemini - это новейшая мультимодальная модель ИИ от Google, которая конкурирует с GPT-4 от OpenAI. ИИ может обрабатывать информацию из текста, кода, аудио, изображений и видео. В отличие от него, ChatGPT пока не может работать с видео.

Возможности Gemini

Gemini является мультимодальным и может выполнять следующие задачи:

  1. Понимание изображений: Он отлично справляется с распознаванием объектов, детальной транскрипцией, пониманием графиков и сложными задачами мультимодального мышления.
  2. Понимание видео: Он демонстрирует превосходную производительность в понимании и рассуждении на основе видеопоследовательностей, а также лучшие результаты в создании субтитров к видео и ответах на вопросы.
  3. Генерация изображений: Он способен генерировать изображения, поддерживая сложные последовательности изображений и текста, не требующие какого-либо описания.
  4. Понимание аудио: Он превосходит другие модели в задачах автоматического распознавания речи и перевода речи на несколько языков.

Если вы еще не видели, рекомендую посмотреть демонстрацию возможностей Gemini.

Демонстрационные ролики, показанные на старте продаж, поражают воображение, но реальную производительность еще предстоит проверить.

Три версии Gemini

  • Ultra: Эта модель является флагманом, обеспечивая высочайшую производительность в таких сложных задачах, как анализ и работа с несколькими модальностями.
  • Pro: Эта модель, обеспечивающая баланс между стоимостью, производительностью и задержкой, предлагает значительные возможности для решения различных задач. Она демонстрирует сильные способности к рассуждениям и широкую поддержку мультимодальности.
  • Nano: Эта модель, предназначенная для использования на устройстве, ставит во главу угла эффективность. Она доступна в двух версиях, с параметрами 1,8 Б и 3,25 Б, и рассчитана на устройства с малым и большим объемом памяти. Созданная на основе более крупных моделей Gemini и квантованная до 4 бит для оптимального развертывания, она обеспечивает лучшую в своем классе производительность на устройстве.

Если говорить о возможностях, то вот визуальное сравнение различных моделей:

Более мощные модели Gemini демонстрируют стабильный прирост производительности в задачах на логику, математику/науку, обобщение и длинный контекст, а Gemini Ultra превосходит их по всем шести параметрам. Gemini Pro, хотя и чуть менее мощный, предлагает отличный баланс производительности и эффективности для работы в условиях ограниченных ресурсов.
Для разработчиков это просто замечательно! Вам нужно быстро обобщить информацию на телефоне? Используйте маленькую и быструю модель. Создаете сложный ИИ-ассистент? Используйте большую, мощную модель. Это делает создание приложений проще и быстрее.

Лучше ли Gemini, чем ChatGPT (GPT-4)?

Gemini Ultra превосходит GPT-4 в 17 из 18 протестированных бенчмарков, включая бенчмарк Massive Multitask Language Understanding (MMLU) (Gemini Ultra набрал 90% против 86,4% у GPT-4) и новый бенчмарк Multimodality Massive Multitask Understanding (MMMU) (Gemini Ultra набрал 59,4% против 56,8% у GPT-4).
Однако разница в результатах не слишком велика. Это говорит скорее о сложности существенного усовершенствования этих систем, чем о недостатках в возможностях Google по сравнению с OpenAI.

На данный момент сложно однозначно сказать, что лучше - Gemini или ChatGPT, поскольку у них есть разные достоинства и недостатки. Однако Gemini, похоже, обладает некоторыми преимуществами, такими как:

  • Большая гибкость: Gemini может решать более широкий круг задач, включая работу с видео- и аудиоданными.
  • Возможности работы на устройствах: Gemini может работать на устройствах без подключения к Интернету, что делает его более универсальным.
  • Бесплатный доступ: В настоящее время Gemini можно использовать бесплатно, в отличие от ChatGPT, который требует платной подписки в размере 20 долларов в месяц.

Все, что было сегодня представлено, впечатляет, но знаете, чего я жду больше всего? Я хочу получить в свои руки Gemini на Vertex AI.
По словам представителей Google, они сделают Gemini доступной для публики 13 декабря через Google AI Studio и Google Vertex AI.

Потенциал впечатляет. Впрочем, как и дебют Bard до того, как все пошло не так. Я с нетерпением буду тестировать Gemini вручную, начиная с 13 декабря, когда она станет доступной. Хотя пока рано говорить о революции в области ИИ, которая оставит другие модели в прошлом.
И, если вы пропустили, Bard только что обновился и теперь работает на базе Gemini Pro. Попробуйте.

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

0
126 комментариев
Написать комментарий...
Имя Фамилия

На https://huggingface.co столько моделей, что голова идет кругом). Просто они все в иллюзии AGI. Им кажется, что они ухватили удачу за хвост и могут повторить, а потом и превзойти человека. Когда они поймут, что человек -это не только интеллект и физическое тело, а еще чувства, интуиция и много еще чего, то сразу и успокоятся)

Ответить
Развернуть ветку
mv

Что такое разум? Как проверить что у машины не появился разум?

Ответить
Развернуть ветку
Sergeant Ding

Человек одарен разумом, он есть сознающая себя жизнь, он осознает себя, своего ближнего, свое прошлое и возможности своего будущего. Эрих Фромм

Ответить
Развернуть ветку
Rnatery

Сообщение удалено

Ответить
Развернуть ветку
Jon Rembo

Недавно читал, что учёные (вроде даже не британские) доказали что рыбы осознают себя, те тоже имеют разум выходит

Ответить
Развернуть ветку
Артемий Какашко

Не читайте хуйню.

Ответить
Развернуть ветку
mv

Как это отвечает на мой вопрос?

Ответить
Развернуть ветку
Sergeant Ding

Это и есть разум. Осознание себя, прошлого и будущего. А ещё по Сартру зрелость человека, это принятие того, что в итоге от человека не останется ничего. Вот когда машина осознает себя и примет то, что от неё ничего не останется - вот тогда и признаем, что она разумна. В художественной форме это описано у Азимова в рассказе «Двухсотлетний человек».

Ответить
Развернуть ветку
mv

Не вижу ответ на вопрос. Как проверить что у машины нет разума?

Ответить
Развернуть ветку
Rnatery

Никак, может у всего есть разум

Ответить
Развернуть ветку
AlSh

Вроде как это из разряда неразрешимых философских проблем - как доказать отсутствие того, что в принципе не существует. Разум - это не более чем абстракция, с помощью которой пытаются обозначить совокупность механизмов, определяющих поведение человека.

У нейронных сетей в любом случае на текущем этапе не существует независимых от внешних стимулов процессов (костыли не считаем). Если человек в состоянии депривации может осмысливать имеющуюся информацию, продолжать ее перерабатывать и получать нечто новое, то нейронные сети архитектурно на это не способны.

Ответить
Развернуть ветку
Rnatery

Нейронные сети способны, есть рекуррентные нейронные сети

Ответить
Развернуть ветку
AlSh

Вы пропустили императив "костыли не в счет". RNN - это не магический пендаль, решающий все проблемы, а всего лишь попытка справиться с ограниченностью архитектур нейронных сетей, которая им присуща by design. Именно поэтому текущую погоду делают уже трансформеры, в том числе для "претендующих" на звание "разумных" больших языковых моделей. Так как rnn - это долго, затратно, ненадежно и с ограниченными возможностями работать с длинными временными последовательностями.

Ответить
Развернуть ветку
123 комментария
Раскрывать всегда