{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Google выпустила Gemini 1.5 с 1M контекстным окном

Команда Google по разработке искусственного интеллекта находится под сильным давлением, чтобы не отстать от инновационной языковой модели GPT-4 от OpenAI. Я опробовал недавно запущенную Gemini и даже перешел на тарифный план Gemini Advanced за 20 долларов в месяц, но пока что впечатления от нее довольно плохие.

Сегодня Google выпустила новую версию Gemini 1.5 - значительно улучшенную версию своей флагманской языковой модели.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Что нового в Gemini 1.5?

В Gemini 1.5 представлены значительные улучшения, призванные устранить недостатки первоначальной версии:

  1. Контекстное окно на 1 000 000 токенов: На данный момент это самое большое контекстное окно среди всех крупномасштабных базовых моделей. GPT-4 от OpenAI имеет контекстное окно размером 128000 токенов.
  2. Имеет более высокую скорость реакции: Google использует архитектуру Mixture of Experts MoE, которая, вероятно, лежит в основе GPT-4. Это позволит модели разбивать промпт на подзадачи и направлять их специализированным "экспертам", что значительно повысит эффективность и производительность.
  3. Быстрый поиск информации: Новая модель демонстрирует значительно улучшенную способность находить конкретные детали в огромном объеме текстовых, видео- или аудиоданных.
  4. Лучшее качество программирования: Большое контекстное окно позволяет проводить глубокий анализ всей кодовой базы, помогая модели Gemini улавливать сложные взаимосвязи, закономерности и понимание кода.

Контекстное окно размером 1 миллион токенов

Возможно, самым шокирующим является увеличение размера контекстного окна. В то время как большинство современных больших языковых моделей (LLM) работают максимум с 128 000 или около того токенов, экспериментальная сборка Gemini 1.5 Pro может обрабатывать 1 миллион токенов, что просто поразительно.

Если перевести в объемы информации, то это:

  • 1 час видео
  • 11 часов аудио
  • Более 30 тысяч строк кода
  • Более 700 000 слов

Это абсолютная революция - представьте себе, что вы передаете LLM сценарий полнометражного фильма, тысячи строк сложного кода или объемную книгу. Этого контекста достаточно, чтобы проанализировать нюансы взаимодействия, проследить развитие персонажа или найти ошибки в коде в огромных масштабах.

Подумайте об этом, как о разнице между просьбой к чатботу проанализировать 30-секундный разговор и изучением мотивов персонажей во всей трилогии "Властелин колец".

Разработчики, ликуйте!

Как для разработчика, самой впечатляющей функцией, вероятно, является возможность загружать целые репозитории кода и просить Gemini собирать целые модули за считанные минуты. Насколько это круто?

Помимо того, что Google предлагает новейшие модели, она также упрощает процесс разработки с помощью Gemini.

  • Простая настройка: Будет набор примеров, с помощью которых вы сможете настроить Gemini под свои нужды за считанные минуты, не выходя из Google AI Studio.
  • Новые платформы для разработчиков: Интегрируйте API Gemini для создания новых функций на базе ИИ уже сегодня с помощью новых расширений Firebase, рабочего пространства разработки в Project IDX или недавно выпущенного Google AI Dart SDK.
  • Дешевле Gemini 1.0 Pro: Стоимость сегодняшней стабильной версии на 50 % меньше для ввода текста и на 25 % меньше для вывода, чем было объявлено ранее. В ближайшее время появятся новые тарифные планы с оплатой по факту использования AI Studio.

Gemini 1.5 в действии

В техническом описании Google показаны впечатляющие реальные примеры использования Gemini 1.5:

В приведенном ниже примере они использовали 45-минутный фильм Бастера Китона "Шерлок-младший" (1924) (2 674 кадра при 1 кадр/с, 684 тыс. токенов). Gemini 1.5 Pro получает и извлекает текстовую информацию из конкретного кадра и предоставляет соответствующую временную метку.

Другой пример - когда в промпте был указан весь текст "Отверженных", Gemini 1.5 Pro определил и нашел знаменитую сцену по нарисованному от руки эскизу.

Google также продемонстрировала способность Gemini Pro 1.5 обрабатывать 100 000 строк кода и серию мультимодальных промптов.

Если им удалось воплотить это в жизнь, то это будет потрясающе!

Стоит ли обновлять Gemini?

Формально Gemini 1.5 определенно стоит обновить.

Однако недавний опыт Google по выпуску ИИ-продуктов вызывает обоснованные опасения.

  • Первый запуск Bard от Google был неудачным.
  • Видео "запуска" Gemini, которое по сути было маркетинговым монтажом, не показывало реального продукта и подверглось жесткой критике со стороны многих.
  • Gemini Ultra должен был быть действительно хорош, даже лучше, чем GPT-4, но мои первые тесты показали, что ему еще далеко до GPT-4.

Стоит ли радоваться амбициозным обновлениям, анонсированным спустя всего несколько недель после того, как предыдущие релизы потерпели фиаско? Можно задаться вопросом, свидетельствует ли такая картина о поспешных запусках или о внутренней борьбе за сохранение темпа.

Сейчас я не доверяю ничему, что выпускает Google, если это не мгновенно тестируемая форма ввода.

О чем следует помнить

  • Предполагается, что Gemini 1.5 Pro по производительности будет на одном уровне с Gemini Ultra.
  • Начиная с сегодняшнего дня разработчики и корпоративные клиенты могут получить доступ к ограниченной предварительной версии 1.5 Pro через AI Studio и Vertex AI.
  • Если вы, как и я, запутались в названии, вот краткое описание:

Google удивил меня. Размер контекстного окна - если оно действительно работает так, как заявлено, - просто потрясающий.

Несмотря на то, что реальные бенчмарки все еще необходимы, нельзя отрицать, что Google вернулся в игру. OpenAI предстоит снова поднять планку.

Пока не сообщается, когда Gemini Pro будет выпущен для потребителей. Gemini Ultra 1.5 уже находится в разработке, и, судя по всему, он будет обладать большими возможностями. 1.5 Pro уже очень, очень хороша.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

0
43 комментария
Написать комментарий...
Денис

Мне кажется, в очередной раз лажанутся.

Ответить
Развернуть ветку
Igor Malkov

Не думаю, второй раз не должны, деньги тратятся колоссальные.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Да мне кажется, для них эти деньги не особо и важны, и почему-то большие инвестиции не равно большой успех.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Посмотрим...

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Сергей Степанов

лажа от сбера круче, пишешь ему пишешь в гигачат.. а он "кто злесь?"

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

))) точно подметили

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Время покажет...

Ответить
Развернуть ветку
Denis2205

Вот сейчас целый хайп на нейросетях этих. А по факту - разве они заменили учителей, врачей, слесарей?

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Врачей и учителей нет, но некоторых других специалистов - уже заменили.

Ответить
Развернуть ветку
S.Z

Хайп год идёт. И уже много кому помогают, мне в том числе. В оффлайн естественно никакой замены в ближайшее время не будет

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Ну только если роботы под управлением нейросети.

Ответить
Развернуть ветку
Сергей Степанов

да

Ответить
Развернуть ветку
Артур Маслов

пока нет, но дело не хитрое. заменить учителей дело в принципе не особо хитрое, покрайней мере начальные какието вещи.
врачи уже в процессе, в МРТ давно нейросеть размечает снимки для врача, а скоро будет писать диагноз и лечение, а врач только визировать будет, чтобы было кому отвечать за косяки.
А половину слесарей давно ЧПУ заменил без всяких нейросеток

Ответить
Развернуть ветку
алекс с

ну они не будут заменять напрямую, а будут автоматизировать рутинную работу врачей, что в итоге приведет к сокращению ставок. Слесарей тут причем 😂, слесари самые защищенные от ИИ

Ответить
Развернуть ветку
Артём Пешков

А сейчас вообще как-то можно использовать нейронки гугла платно/бесплатно через api?

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Да, можно через api через ai studio. Загуглите.

Ответить
Развернуть ветку
Геннадий Карпенко

Через vpn. Бесплатно. https://bard.google.com/chat

Ответить
Развернуть ветку
Tom

Расписали гугловцы красиво, только составит ли модель конкуренцию GPT4, или это очередной пшик - вопрос.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Думаю, он к этому сильно стремятся.

Ответить
Развернуть ветку
павел борисов

У гугла столько бабок, что уже 100 раз могли бы сделать лучше, чем openai.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Согласен. Не понимаю, почему они стормозили в одно время.

Ответить
Развернуть ветку
Алексей Макаров

Контекстное окно - это хорошо, только насколько хорошо Gemini будет обрабатывать введенные данные и какие результаты будет выдавать.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Это да, не поспоришь. Надеюсь, что на этот раз у них хотя бы приблизиться в к Chatgpt получится.

Ответить
Развернуть ветку
Елена Завернина

Пока гугл догонит гпт4, openai выпустят гпт5

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Тоже может быть.

Ответить
Развернуть ветку
Сергей

Для разработчиков звучит заманчиво, только какой код он будет выдавать - хз, особенно если будет лениться как сатгпт.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Думаю, если довели модель до ума, то должен нормальный выдавать.

Ответить
Развернуть ветку
Михаил Желтухин

Я ща сравниваю gpt4 с бесплатным gemini. Gemini отвечает быстрее, но корявее.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Это да, есть такое дело. Лучше подождать и получить точный ответ.

Ответить
Развернуть ветку
Pivozavr

Я и с платным Gemini сравнивал.
Туфта. Он кусок кода на 120 строк скорректировать не может. Даже gpt 3.5 выдаёт полный код

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Если и в этот раз лажанут, рискуют растерять пользователей.

Ответить
Развернуть ветку
Геннадий Карпенко

Chat gpt - лучше сочиняет информацию (Сделал сказку раскраску при помощи него и встроенного Dalle).
А Gemini строже работает с информацией, лучше справился с составлением брифа. chat gpt за 20$ плохо справился с этой работой.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Nikita Voronin

И чем заменят чтение и фильмы? При помощи Вижн Про и ИИ?

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Мне кажется, слишком много пиара Вижн, но по факту просто прикольная игрушка. А чтение и фильмы можно заменить, но тогда человек лишится удовольствия от чтения и просмотра.

Ответить
Развернуть ветку
Ivan Smirnov

Как мне вообще эту всю фигню в жизни применить? Я не разработчик. Менеджер по продажам

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Геннадий Карпенко

Тут робот оптимус от тесла вам привет передает. Его планируют запустить в 2037 году кажется.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Captain

такие даты дают когда или ишак или падишах...

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Применить можно, и многие применяют. Но тут много вводных данных от вас нужно как бы..

Ответить
Развернуть ветку
Ivan Smirnov

Ничего непонятно с вашими умными интеллектами, но очень интересно

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Если есть желание - нужно изучать. Если нет, оно вам не надо ).

Ответить
Развернуть ветку
40 комментариев
Раскрывать всегда