Google выпустила Gemini 1.5 с 1M контекстным окном

Google выпустила Gemini 1.5 с 1M контекстным окном

Команда Google по разработке искусственного интеллекта находится под сильным давлением, чтобы не отстать от инновационной языковой модели GPT-4 от OpenAI. Я опробовал недавно запущенную Gemini и даже перешел на тарифный план Gemini Advanced за 20 долларов в месяц, но пока что впечатления от нее довольно плохие.

Сегодня Google выпустила новую версию Gemini 1.5 - значительно улучшенную версию своей флагманской языковой модели.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Что нового в Gemini 1.5?

В Gemini 1.5 представлены значительные улучшения, призванные устранить недостатки первоначальной версии:

  1. Контекстное окно на 1 000 000 токенов: На данный момент это самое большое контекстное окно среди всех крупномасштабных базовых моделей. GPT-4 от OpenAI имеет контекстное окно размером 128000 токенов.
  2. Имеет более высокую скорость реакции: Google использует архитектуру Mixture of Experts MoE, которая, вероятно, лежит в основе GPT-4. Это позволит модели разбивать промпт на подзадачи и направлять их специализированным "экспертам", что значительно повысит эффективность и производительность.
  3. Быстрый поиск информации: Новая модель демонстрирует значительно улучшенную способность находить конкретные детали в огромном объеме текстовых, видео- или аудиоданных.
  4. Лучшее качество программирования: Большое контекстное окно позволяет проводить глубокий анализ всей кодовой базы, помогая модели Gemini улавливать сложные взаимосвязи, закономерности и понимание кода.

Контекстное окно размером 1 миллион токенов

Возможно, самым шокирующим является увеличение размера контекстного окна. В то время как большинство современных больших языковых моделей (LLM) работают максимум с 128 000 или около того токенов, экспериментальная сборка Gemini 1.5 Pro может обрабатывать 1 миллион токенов, что просто поразительно.

Google выпустила Gemini 1.5 с 1M контекстным окном

Если перевести в объемы информации, то это:

  • 1 час видео
  • 11 часов аудио
  • Более 30 тысяч строк кода
  • Более 700 000 слов

Это абсолютная революция - представьте себе, что вы передаете LLM сценарий полнометражного фильма, тысячи строк сложного кода или объемную книгу. Этого контекста достаточно, чтобы проанализировать нюансы взаимодействия, проследить развитие персонажа или найти ошибки в коде в огромных масштабах.

Google выпустила Gemini 1.5 с 1M контекстным окном

Подумайте об этом, как о разнице между просьбой к чатботу проанализировать 30-секундный разговор и изучением мотивов персонажей во всей трилогии "Властелин колец".

Разработчики, ликуйте!

Как для разработчика, самой впечатляющей функцией, вероятно, является возможность загружать целые репозитории кода и просить Gemini собирать целые модули за считанные минуты. Насколько это круто?

Помимо того, что Google предлагает новейшие модели, она также упрощает процесс разработки с помощью Gemini.

  • Простая настройка: Будет набор примеров, с помощью которых вы сможете настроить Gemini под свои нужды за считанные минуты, не выходя из Google AI Studio.
  • Новые платформы для разработчиков: Интегрируйте API Gemini для создания новых функций на базе ИИ уже сегодня с помощью новых расширений Firebase, рабочего пространства разработки в Project IDX или недавно выпущенного Google AI Dart SDK.
  • Дешевле Gemini 1.0 Pro: Стоимость сегодняшней стабильной версии на 50 % меньше для ввода текста и на 25 % меньше для вывода, чем было объявлено ранее. В ближайшее время появятся новые тарифные планы с оплатой по факту использования AI Studio.

Gemini 1.5 в действии

В техническом описании Google показаны впечатляющие реальные примеры использования Gemini 1.5:

В приведенном ниже примере они использовали 45-минутный фильм Бастера Китона "Шерлок-младший" (1924) (2 674 кадра при 1 кадр/с, 684 тыс. токенов). Gemini 1.5 Pro получает и извлекает текстовую информацию из конкретного кадра и предоставляет соответствующую временную метку.

Google выпустила Gemini 1.5 с 1M контекстным окном

Другой пример - когда в промпте был указан весь текст "Отверженных", Gemini 1.5 Pro определил и нашел знаменитую сцену по нарисованному от руки эскизу.

Google выпустила Gemini 1.5 с 1M контекстным окном

Google также продемонстрировала способность Gemini Pro 1.5 обрабатывать 100 000 строк кода и серию мультимодальных промптов.

Google выпустила Gemini 1.5 с 1M контекстным окном

Если им удалось воплотить это в жизнь, то это будет потрясающе!

Стоит ли обновлять Gemini?

Формально Gemini 1.5 определенно стоит обновить.

Однако недавний опыт Google по выпуску ИИ-продуктов вызывает обоснованные опасения.

  • Первый запуск Bard от Google был неудачным.
  • Видео "запуска" Gemini, которое по сути было маркетинговым монтажом, не показывало реального продукта и подверглось жесткой критике со стороны многих.
  • Gemini Ultra должен был быть действительно хорош, даже лучше, чем GPT-4, но мои первые тесты показали, что ему еще далеко до GPT-4.

Стоит ли радоваться амбициозным обновлениям, анонсированным спустя всего несколько недель после того, как предыдущие релизы потерпели фиаско? Можно задаться вопросом, свидетельствует ли такая картина о поспешных запусках или о внутренней борьбе за сохранение темпа.

Сейчас я не доверяю ничему, что выпускает Google, если это не мгновенно тестируемая форма ввода.

О чем следует помнить

  • Предполагается, что Gemini 1.5 Pro по производительности будет на одном уровне с Gemini Ultra.
  • Начиная с сегодняшнего дня разработчики и корпоративные клиенты могут получить доступ к ограниченной предварительной версии 1.5 Pro через AI Studio и Vertex AI.
  • Если вы, как и я, запутались в названии, вот краткое описание:
Google выпустила Gemini 1.5 с 1M контекстным окном

Google удивил меня. Размер контекстного окна - если оно действительно работает так, как заявлено, - просто потрясающий.

Несмотря на то, что реальные бенчмарки все еще необходимы, нельзя отрицать, что Google вернулся в игру. OpenAI предстоит снова поднять планку.

Пока не сообщается, когда Gemini Pro будет выпущен для потребителей. Gemini Ultra 1.5 уже находится в разработке, и, судя по всему, он будет обладать большими возможностями. 1.5 Pro уже очень, очень хороша.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

2929
40 комментариев

Мне кажется, в очередной раз лажанутся.

6
Ответить

Не думаю, второй раз не должны, деньги тратятся колоссальные.

1
Ответить

Посмотрим...

Ответить
Комментарий удалён модератором

лажа от сбера круче, пишешь ему пишешь в гигачат.. а он "кто злесь?"

3
Ответить

Время покажет...

1
Ответить

Вот сейчас целый хайп на нейросетях этих. А по факту - разве они заменили учителей, врачей, слесарей?

1
Ответить