Google выпустила Gemini 1.5 с 1M контекстным окном

Команда Google по разработке искусственного интеллекта находится под сильным давлением, чтобы не отстать от инновационной языковой модели GPT-4 от OpenAI. Я опробовал недавно запущенную Gemini и даже перешел на тарифный план Gemini Advanced за 20 долларов в месяц, но пока что впечатления от нее довольно плохие.

Сегодня Google выпустила новую версию Gemini 1.5 - значительно улучшенную версию своей флагманской языковой модели.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

В Gemini 1.5 представлены значительные улучшения, призванные устранить недостатки первоначальной версии:

Контекстное окно на 1 000 000 токенов: На данный момент это самое большое контекстное окно среди всех крупномасштабных базовых моделей. GPT-4 от OpenAI имеет контекстное окно размером 128000 токенов.
Имеет более высокую скорость реакции: Google использует архитектуру Mixture of Experts MoE, которая, вероятно, лежит в основе GPT-4. Это позволит модели разбивать промпт на подзадачи и направлять их специализированным "экспертам", что значительно повысит эффективность и производительность.
Быстрый поиск информации: Новая модель демонстрирует значительно улучшенную способность находить конкретные детали в огромном объеме текстовых, видео- или аудиоданных.
Лучшее качество программирования: Большое контекстное окно позволяет проводить глубокий анализ всей кодовой базы, помогая модели Gemini улавливать сложные взаимосвязи, закономерности и понимание кода.

Возможно, самым шокирующим является увеличение размера контекстного окна. В то время как большинство современных больших языковых моделей (LLM) работают максимум с 128 000 или около того токенов, экспериментальная сборка Gemini 1.5 Pro может обрабатывать 1 миллион токенов, что просто поразительно.

Если перевести в объемы информации, то это:

1 час видео
11 часов аудио
Более 30 тысяч строк кода
Более 700 000 слов

Это абсолютная революция - представьте себе, что вы передаете LLM сценарий полнометражного фильма, тысячи строк сложного кода или объемную книгу. Этого контекста достаточно, чтобы проанализировать нюансы взаимодействия, проследить развитие персонажа или найти ошибки в коде в огромных масштабах.

Подумайте об этом, как о разнице между просьбой к чатботу проанализировать 30-секундный разговор и изучением мотивов персонажей во всей трилогии "Властелин колец".

Как для разработчика, самой впечатляющей функцией, вероятно, является возможность загружать целые репозитории кода и просить Gemini собирать целые модули за считанные минуты. Насколько это круто?

Помимо того, что Google предлагает новейшие модели, она также упрощает процесс разработки с помощью Gemini.

Простая настройка: Будет набор примеров, с помощью которых вы сможете настроить Gemini под свои нужды за считанные минуты, не выходя из Google AI Studio.
Новые платформы для разработчиков: Интегрируйте API Gemini для создания новых функций на базе ИИ уже сегодня с помощью новых расширений Firebase, рабочего пространства разработки в Project IDX или недавно выпущенного Google AI Dart SDK.
Дешевле Gemini 1.0 Pro: Стоимость сегодняшней стабильной версии на 50 % меньше для ввода текста и на 25 % меньше для вывода, чем было объявлено ранее. В ближайшее время появятся новые тарифные планы с оплатой по факту использования AI Studio.

В техническом описании Google показаны впечатляющие реальные примеры использования Gemini 1.5:

В приведенном ниже примере они использовали 45-минутный фильм Бастера Китона "Шерлок-младший" (1924) (2 674 кадра при 1 кадр/с, 684 тыс. токенов). Gemini 1.5 Pro получает и извлекает текстовую информацию из конкретного кадра и предоставляет соответствующую временную метку.

Другой пример - когда в промпте был указан весь текст "Отверженных", Gemini 1.5 Pro определил и нашел знаменитую сцену по нарисованному от руки эскизу.

Google также продемонстрировала способность Gemini Pro 1.5 обрабатывать 100 000 строк кода и серию мультимодальных промптов.

Если им удалось воплотить это в жизнь, то это будет потрясающе!

Формально Gemini 1.5 определенно стоит обновить.

Однако недавний опыт Google по выпуску ИИ-продуктов вызывает обоснованные опасения.

Первый запуск Bard от Google был неудачным.
Видео "запуска" Gemini, которое по сути было маркетинговым монтажом, не показывало реального продукта и подверглось жесткой критике со стороны многих.
Gemini Ultra должен был быть действительно хорош, даже лучше, чем GPT-4, но мои первые тесты показали, что ему еще далеко до GPT-4.

Стоит ли радоваться амбициозным обновлениям, анонсированным спустя всего несколько недель после того, как предыдущие релизы потерпели фиаско? Можно задаться вопросом, свидетельствует ли такая картина о поспешных запусках или о внутренней борьбе за сохранение темпа.

Сейчас я не доверяю ничему, что выпускает Google, если это не мгновенно тестируемая форма ввода.

Предполагается, что Gemini 1.5 Pro по производительности будет на одном уровне с Gemini Ultra.
Начиная с сегодняшнего дня разработчики и корпоративные клиенты могут получить доступ к ограниченной предварительной версии 1.5 Pro через AI Studio и Vertex AI.
Если вы, как и я, запутались в названии, вот краткое описание:

Google удивил меня. Размер контекстного окна - если оно действительно работает так, как заявлено, - просто потрясающий.

Несмотря на то, что реальные бенчмарки все еще необходимы, нельзя отрицать, что Google вернулся в игру. OpenAI предстоит снова поднять планку.

Пока не сообщается, когда Gemini Pro будет выпущен для потребителей. Gemini Ultra 1.5 уже находится в разработке, и, судя по всему, он будет обладать большими возможностями. 1.5 Pro уже очень, очень хороша.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

#google #gemini

Источник статьи на английском - здесь.

Google выпустила Gemini 1.5 с 1M контекстным окном

Что нового в Gemini 1.5?

Контекстное окно размером 1 миллион токенов

Разработчики, ликуйте!

Gemini 1.5 в действии

Стоит ли обновлять Gemini?

О чем следует помнить