Gemini - "убийца" GPT-4V: Чем он лучше и как его использовать?

Google добавили новую модель Gemini в Bard. Вся мощь Gemini представлена в демонстрационном видео. Но особо не впечатляйтесь, там был использован монтаж - это подтвердили в соц сети сами Google.

Вот момент оттуда, где ведущая попросила нейросеть Gemini преобразовать изображение в векторный формат:

фрагмент из презентации

Как видно внизу, это видео я перевела с помощью нейросети Elevenlabs - во вкладке Dubbing загрузила видео, выбрал язык и через минуту скачала переведенное видео.

Итак, из-за чего весь переполох и чем Gemini лучше gpt-4:

Gemini обучена с нуля быть мультимодальной - способной распознавать речь, видео и изображения. Она без плагинов работает с любыми материалами: картинки, видео, аудио, текст. По поведению она вроде как похожа на человека, так как за основу взяли огромные базы с транскрипциями ютуб-роликов.

Gemini превосходит GPT-4 почти по всем тестам, но всего на 5%

Первая версия Gemini пока не может генерировать изображения, как ChatGPT-4, но планируется добавить эту возможность в скором времени.

Модель представлена в трех комплектациях:

  • Nano (для мобильных) для решения простых задач. Её можно попробовать на смартфонах Pixel 8 Pro;
  • Pro -для сложных задач, которая с сегодняшнего дня работает в чат-боте Bard;
  • Ultra - самая мощная версия, которая обходит GPT-4 и GPT-4V, c 14 декабря доступен через API разработчикам, и все еще находится на стадии оценки. Ожидается, что она будет выпущена в начале следующего года.

Как начать использовать Gemini

1. Подключаемся к VPN с локацией в США и переходим по ссылке https://bard.google.com/chat

2. Меняем язык Google-аккаунта на американский английский. Для этого пройдите по этой ссылке, выберите English в поиске и выберите страну USA. Также удалите дополнительные языки и отключите автоматический подбор языка:

Gemini - "убийца" GPT-4V: Чем он лучше и как его использовать?

3. Стоит учесть, что сам сервис Bard поддерживает русский язык, но все ответы на русском сейчас формируются устаревшей ИИ моделью от Google – PaLM2. Если вы хотите попробовать генеративную модель Gemini Pro, пишите запросы на английском:

Gemini - "убийца" GPT-4V: Чем он лучше и как его использовать?

Если у вас что-то не получилось - почистите кеш, историю или просто попробуйте Gemini на huggingface

Мощь Gemini: наглядно

Переведено с сохранением голоса в Elevenlabs

Парень загрузил фото столика в ресторане и снимок меню, а нейросеть посчитала его счет — какие бутылки на столе и сколько они стоят.

Тем временем Google уже занимается разработкой Gemini 2, создает нейросеть Pixie для смартфонов Pixel и ИИ-очки с функцией распознавания объектов. Google теперь точно влетел в бум ИИ.

Вывод

Что ж, использование бесплатного GPT-3.5 c каждым днем все менее актуально. И действительно, смысл? Почти все новые модели (например, Claude-2, Gemini) превосходят в тестах GPT-3.5. и они все бесплатные. Тем не менее, GPT-4 пока самая сильная модель. И Copilot (он же бывший Bing chat) ChatGPT-4 можно использовать бесплатно.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉

Начать дискуссию