Google Gemini!

Корпорация Google совсем недавно представила мультимодальную модель ИИ, которую называет конкурентом GPT-4 от OpenAI!

Google Gemini!

Что нам показала компания Google на этот раз?

В своей презентации Сундар Пичаи, генеральный директор Google Inc. и материнской компании Alphabet, заявил, что Gemini может без проблем выполнять такие задачи:

  • Понимать изображения. Т. е. распознавать различные объекты, разбирать графики, решать сложные задачи мультимодального мышления. Модель «понимает» рукописный текст, распознает и генерирует компьютерный код, таблицы.
  • Работать с аудио. Например, автоматически распознавать речь, а также переводить речь с одного языка на другой.
  • Генерировать изображения. Поддерживается генерация сложных последовательностей картинок и текста.
  • Работать с видео. Судя по презентации, модель способна «понимать» действия, происходящие на видео, плюс она умеет создавать точные субтитры к роликам, правда, лишь на английском языке (пока что).
44
Начать дискуссию