5 главных анонсов Google IO 2024

5 главных анонсов Google IO 2024

OpenAI против Google - это самая большая битва, которую я видел в сфере ИИ.

Всего через день после того, как OpenAI представила свою очень продвинутую и впечатляющую модель GPT-4o, Google на конференции Google IO 2024 ответила несколькими огромными обновлениями Gemini и совершенно новыми ИИ-продуктами.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Честно говоря, почти двухчасовое мероприятие было очень насыщенным. Google представила множество новых и обновленных функций, но я выделил пять наиболее интересных:

  1. Project Astra
  2. Imagen 3 (преобразование текста в изображение)
  3. Veo (преобразование текста в видео)
  4. Gemini в поиске Google
  5. Gemini в Google Фото

Давайте разберемся в каждом из этих интересных событий.

1. Project Astra (Gemini Live)

Демис Хассабис, глава Google DeepMind, продемонстрировал раннюю версию Project Astra, мультимодального ИИ-помощника, работающего в режиме реального времени и нацеленного на то, чтобы стать универсальным ассистентом.

Это, пожалуй, самый интригующий новый продукт Google, напрямую конкурирующий с голосовым помощником, работающим в режиме реального времени на базе GPT-4o, от OpenAI.

5 главных анонсов Google IO 2024

По словам представителей Google, публичный доступ к Astra будет открыт в приложении Gemini в конце этого года. В перспективе планируется перейти от чат-ботов к ИИ-агентам, которые будут знать о вас все и смогут работать 24 часа в сутки 7 дней в неделю. Боты, которые не просто разговаривают с вами, но и выполняют задания от вашего имени.

Если это будет соответствовать ожиданиям, я буду очень рад пользоваться этим на ежедневной основе.

2. Imagen 3 (генератор изображений)

Похоже, у MidJourney появился сильный конкурент. Первые результаты, показанные на демонстрации, выглядят очень многообещающе. Только взгляните на этот пример.

Промпт: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.
5 главных анонсов Google IO 2024

Это выглядит так фотореалистично. Помимо улучшения качества, Google также усовершенствовал модель для более точной интерпретации и генерации текста. Вот пример:

Промпт: Word “light” made from rainbow feathers, black background
5 главных анонсов Google IO 2024

Забавно, что им пришлось поместить под изображением надпись "unedited raw output", поскольку Google часто критикуют за подделку демонстрационных изображений и видео.

3. Veo (Text-to-video)

Наконец-то появились некоторые разработки в области создания видео с помощью ИИ. Прошло уже несколько месяцев с тех пор, как OpenAI анонсировал Sora, и это оказало сильное давление на Google, чтобы она объявила о своей собственной версии модели преобразования текста в видео.

Google называет ее Veo, это самая мощная модель генерации видео на сегодняшний день. Она генерирует высококачественные видеоролики с разрешением 1080p, продолжительность которых может превышать минуту, в широком диапазоне кинематографических и визуальных стилей.

Вот пример:

Промпт: A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors

Примеры видео, которые Google продемонстрировала, выглядели очень хорошо и были сопоставимы с видео, созданных с помощью Sora.

Кроме того, Veo поддерживает редактирование по маске, позволяя изменять определенные области видео, когда вы добавляете область маски к видео и текстовому промпту.

5 главных анонсов Google IO 2024

Если вам интересно узнать, как Google удалось улучшить общее качество и сократить время создания видео, вот шаги:

5 главных анонсов Google IO 2024

Ознакомиться с примерами видеороликов и дополнительной информацией о Veo можно здесь.

4. Gemini в поиске Google

Я хотел обратить на это внимание, потому что за последние месяцы тысячи сайтов пострадали от изменений в SEO-алгоритме Google. Кроме того, Google внедрил в поиск генеративный ИИ, который еще больше оттеснил различные сайты в результатах поиска.

В новом поиске появились расширенные обзоры ИИ, более широкие возможности планирования и исследования, а также организованные ИИ результаты поиска. Когда вы ищете что-то на сайте google.com, вот что вы увидите в результатах поиска:

Изображение от Google
Изображение от Google

В скором времени она появится в Search Labs для англоязычных запросов в США.

Они удваивают интеграцию с Gemini. Несмотря на то, что это отличная новость для пользователей, она вызывает беспокойство у владельцев небольших сайтов.

Подробнее об этом читайте здесь.

5. Gemini в Google Фото

Этим летом Google запускает новую функцию под названием "Ask Photos", которая позволяет Gemini просматривать вашу библиотеку в Google Фото в ответ на ваши вопросы. Для тех, кто часто пользуется Google Photos и хранит в облаке тысячи изображений, это обновление особенно интересно.

Изображение от Google
Изображение от Google

Конечно, теперь вам будет проще искать конкретное воспоминание или вспоминать информацию, содержащуюся в вашей галерее, но как насчет конфиденциальности?

Вот что говорит Google:

Ваши личные данные в Google Фото никогда не используются для рекламы. Люди не будут просматривать ваши разговоры и личные данные в Ask Photos, за исключением редких случаев, когда речь идет о злоупотреблениях или нанесении вреда. Мы также не обучаем на этих личных данных никакие продукты генеративного ИИ за пределами Google Фото, включая другие модели и продукты Gemini. Как всегда, все ваши данные в Google Фото защищены с помощью наших лучших в отрасли мер безопасности.

Интересный факт: каждый день в Google Фото загружается более 6 миллиардов фотографий - это серьезная ответственность.

Помимо перечисленных, были анонсированы и другие продукты:

  • 2 миллиона токенов в Gemini 1.5. Как постоянный пользователь, я не представляю, как я смогу израсходовать эти 2 миллиона токенов. Поэтому я не в восторге от этого обновления.
  • Gemini 1.5 Flash. Эта новая мультимодальная модель такая же мощная, как и Gemini 1.5 Pro, но она оптимизирована для "узких, высокочастотных задач с низкой задержкой".
  • Music AI Sandbox. музыкальный ИИ-генератор Google в партнерстве с YouTube. Он помогает музыкантам быстро генерировать музыку и звуковые эффекты.
  • Gemini в Workspace. Подобно тому, как Microsoft добавляет Copilot в свои флагманские программные продукты, Google внедряет Gemini Pro в боковую панель для Docs, Sheets, Slides, Drive и Gmail.

А если вы подписаны на ИИ-чатбота Gemini Advanced от Google, то он уже работает на базе Gemini Pro 1.5.

5 главных анонсов Google IO 2024

Всего за 48 часов две крупнейшие технологические компании OpenAI и Google представили самые мощные AI продукты. Тем временем Apple, похоже, наблюдает за происходящим со стороны, безнадежно отставая. Заключат ли они сделку с Google? Или OpenAI?

Но вот в чем суть того, что было анонсировано Google сегодня. Ни одна из новинок не является общедоступной сразу. Функции закрыты за списками ожидания, географическими ограничениями или туманными перспективами выпуска. Будут ли записанные заранее демо-версии действительно работать так же, как в реальности?

Google печально известен своими неудачными анонсами продуктов и фальшивыми демонстрационными видео. Получится ли у них на этот раз? Как вы думаете?

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

Начать дискуссию