Google представила Gemini AI - она мощнее GPT-4 и может превзойти человека
Долгое ожидание наконец-то закончилось. После нескольких лет неудачных продуктов в области ИИ, таких как неудачный запуск Bard, Google представила свою самую продвинутую мультимодальную модель ИИ под названием Gemini.
Во время презентации мое внимание привлекли две вещи:
- Gemini превосходит GPT-4 в некоторых областях
- Gemini может превзойти человека в тестах на знание и решение задач
Это свидетельствует о многообещающем прогрессе, но давайте проанализируем ситуацию более тщательно, прежде чем объявлять ее революцией в области ИИ.
Что такое Gemini?
Gemini - это новейшая мультимодальная модель ИИ от Google, которая конкурирует с GPT-4 от OpenAI. ИИ может обрабатывать информацию из текста, кода, аудио, изображений и видео. В отличие от него, ChatGPT пока не может работать с видео.
Возможности Gemini
Gemini является мультимодальным и может выполнять следующие задачи:
- Понимание изображений: Он отлично справляется с распознаванием объектов, детальной транскрипцией, пониманием графиков и сложными задачами мультимодального мышления.
- Понимание видео: Он демонстрирует превосходную производительность в понимании и рассуждении на основе видеопоследовательностей, а также лучшие результаты в создании субтитров к видео и ответах на вопросы.
- Генерация изображений: Он способен генерировать изображения, поддерживая сложные последовательности изображений и текста, не требующие какого-либо описания.
- Понимание аудио: Он превосходит другие модели в задачах автоматического распознавания речи и перевода речи на несколько языков.
Если вы еще не видели, рекомендую посмотреть демонстрацию возможностей Gemini.
Демонстрационные ролики, показанные на старте продаж, поражают воображение, но реальную производительность еще предстоит проверить.
Три версии Gemini
- Ultra: Эта модель является флагманом, обеспечивая высочайшую производительность в таких сложных задачах, как анализ и работа с несколькими модальностями.
- Pro: Эта модель, обеспечивающая баланс между стоимостью, производительностью и задержкой, предлагает значительные возможности для решения различных задач. Она демонстрирует сильные способности к рассуждениям и широкую поддержку мультимодальности.
- Nano: Эта модель, предназначенная для использования на устройстве, ставит во главу угла эффективность. Она доступна в двух версиях, с параметрами 1,8 Б и 3,25 Б, и рассчитана на устройства с малым и большим объемом памяти. Созданная на основе более крупных моделей Gemini и квантованная до 4 бит для оптимального развертывания, она обеспечивает лучшую в своем классе производительность на устройстве.
Если говорить о возможностях, то вот визуальное сравнение различных моделей:
Более мощные модели Gemini демонстрируют стабильный прирост производительности в задачах на логику, математику/науку, обобщение и длинный контекст, а Gemini Ultra превосходит их по всем шести параметрам. Gemini Pro, хотя и чуть менее мощный, предлагает отличный баланс производительности и эффективности для работы в условиях ограниченных ресурсов.
Для разработчиков это просто замечательно! Вам нужно быстро обобщить информацию на телефоне? Используйте маленькую и быструю модель. Создаете сложный ИИ-ассистент? Используйте большую, мощную модель. Это делает создание приложений проще и быстрее.
Лучше ли Gemini, чем ChatGPT (GPT-4)?
Gemini Ultra превосходит GPT-4 в 17 из 18 протестированных бенчмарков, включая бенчмарк Massive Multitask Language Understanding (MMLU) (Gemini Ultra набрал 90% против 86,4% у GPT-4) и новый бенчмарк Multimodality Massive Multitask Understanding (MMMU) (Gemini Ultra набрал 59,4% против 56,8% у GPT-4).
Однако разница в результатах не слишком велика. Это говорит скорее о сложности существенного усовершенствования этих систем, чем о недостатках в возможностях Google по сравнению с OpenAI.
На данный момент сложно однозначно сказать, что лучше - Gemini или ChatGPT, поскольку у них есть разные достоинства и недостатки. Однако Gemini, похоже, обладает некоторыми преимуществами, такими как:
- Большая гибкость: Gemini может решать более широкий круг задач, включая работу с видео- и аудиоданными.
- Возможности работы на устройствах: Gemini может работать на устройствах без подключения к Интернету, что делает его более универсальным.
- Бесплатный доступ: В настоящее время Gemini можно использовать бесплатно, в отличие от ChatGPT, который требует платной подписки в размере 20 долларов в месяц.
Все, что было сегодня представлено, впечатляет, но знаете, чего я жду больше всего? Я хочу получить в свои руки Gemini на Vertex AI.
По словам представителей Google, они сделают Gemini доступной для публики 13 декабря через Google AI Studio и Google Vertex AI.
Потенциал впечатляет. Впрочем, как и дебют Bard до того, как все пошло не так. Я с нетерпением буду тестировать Gemini вручную, начиная с 13 декабря, когда она станет доступной. Хотя пока рано говорить о революции в области ИИ, которая оставит другие модели в прошлом.
И, если вы пропустили, Bard только что обновился и теперь работает на базе Gemini Pro. Попробуйте.
Оригинал статьи на английском - здесь.
"Gemini может превзойти человека в тестах на знание и решение задач" - ну, тут удивляться не чему, вы еще заставьте пройти тест на IQ меня и ИИ (денежные ставки не ставьте на меня, мы проиграем)
или вот с калькулятором в делении например можно еще посоревноваться, я точно проиграю
я так понимаю, что победить можно, используя сам gemini.
запрос: ну ка штука хитрожопая, придумай как мне тебя победить
Комментарий удален автором поста
GPT3 и так большинство людей превосходит
По способности менять свое мнение на противоположное без сомнения
Охват у чатжпт такой, что никакому человеку не снилось.
В своей задаче (продвинутый Т9) - безусловно
Иронично, что в итоге роботы научились писать музыку и рисовать лучше многих людей ещё до того, как обрели толком физическую форму и самосознание
Заставьте его бесконечно повторять "company"
Крипово выглядит.
ты сделал ему больно
Detroit Become human
На https://huggingface.co столько моделей, что голова идет кругом). Просто они все в иллюзии AGI. Им кажется, что они ухватили удачу за хвост и могут повторить, а потом и превзойти человека. Когда они поймут, что человек -это не только интеллект и физическое тело, а еще чувства, интуиция и много еще чего, то сразу и успокоятся)
А интуиция по факту это не просто угадывание, посредством выбора одного варианта из многих, через выдумывание (контекстно или на базе личного опыта) аргументации за этот вариант? Угадали - о, это интуиция работает. Не угадали - ну, что-то подвела интуиция.
Ну по интеллекту, может, и превзойдут, но у человека, как вы сказали, кроме интеллекта есть разум, чувства и т.д.
Ну да, конечно, человек "разумен"...
А как же плоскоземельщики, адепты Кашпировского, Чумака, Мавроди? Зомбированные телевизором и пропагандой сородичи? Цыгановы всякие ...
Ага, разумен...
Что такое разум? Как проверить что у машины не появился разум?
Посмотри как люди на тот же жпт реагируют. По моему если им сказать что жпт2 уже был супер-хуюпер AGI, но просто притворялся, они поверят без колебаний.
и при чем тут чувства?
Очень интересно: бесплатно или подписка? Сколько будет стоить?
Бесплатно. По крайней мере сначала ).
Интересно как он будет с большим контекстом работать. Claude хорошо так планку подняли.
4000 токенов, примерно 2000 слов. Чисто початиться и позадавать негромоздкие задачки.
Интересно проверить. Надеюсь, с Gemini гугл не облажается как с Bard.
Bard пишет что не знает что такое Gemini и что это знак зодиака, а он ai. Если он действительно обновился то это печаль
Не знаю, у меня так
Только на англ и только в этих странах https://support.google.com/bard/answer/14294096
Слава роботам, она пока не может делать видео по сценарию с озвучкой 😂 я могу спать спокойно ещё полгодика. Но появления на Vertex AI конечно жду, бизон слабоват
что ха вертекс аи
Ты с помощью нескольких нейронных сетей делаешь?
Так она ж еще недоступна для пользователей
Комментарий удален автором поста
Когда уже ИИ смогут ответить на вопрос, который я задаю уже год?
Кто из актеров, играющих главных героев в шоу "Квантовый скачок" еще жив?
Ответить может, но неправильно
Этот релиз мне сильно флешбекнул Железного человека где все управлялось ИИ Джарвисом. Прям реально похоже , только более приземленные задачи в видосе показаны)
Как всегда отличные статьи пишите! Спасибо )
А что за косяк был с Bard?
Год назад, когда запускали его, обосрались конкретно
Кароче все хорошо, но при выкладке в паблик привычно облажается. Первый же медицинский вопрос поставит в тупик или начнет сочинять бред как чатгпт
Я слышал ChatGPT уже ставит диагнозы точнее докторов
Галлюционируют пока все нейронки.
И какакие технические требования к устройствам без интернета?
На Pixel 8 pro скоро запустят, там нано модель на 4 гига памяти всего
Комментарий удален модератором
Вот бы ещё цензуру отменили
Где?
Что в Bard пошло не так?
Ну что за детский сад - Скайнет надо было назвать!
Ну нашли кого сравнивать человека и ии, который может за пару секунд составить текст, решить пример или написать код. Когда человеку нужно время подумать. Да, и ии сейчас далек от совершенства, поэтому сравнивать - глупо
Комментарий удален автором поста
Главный вопрос: будет ли доступно для пользователей РФ?
Как только появится АПИ, появятся и прокладки
Когда наконец выпустят ИИ, генерирующий пассивный доход, например, на фондовых рынках? Вот актуальный запрос от общества!
А то одни и те же задолбавшие уже свистоперделки в виде картинок, текста, музыки и прочий хлам. Доколе?
Так ИИ этот доход будет сам тратить, на подготовку к уничтожению человечества 😂 почитайте Уильяма Гибсона
хрень, Bard даже не работает, сомневаюсь что они хотя бы дотянутся до GPT-4, а уж то что обгонят это фантастика.
Ура АПИ заработало. Подключил за час)) дерзайте
Комментарий удален автором поста