Google выпустила Gemini 1.5 с 1M контекстным окном
Команда Google по разработке искусственного интеллекта находится под сильным давлением, чтобы не отстать от инновационной языковой модели GPT-4 от OpenAI. Я опробовал недавно запущенную Gemini и даже перешел на тарифный план Gemini Advanced за 20 долларов в месяц, но пока что впечатления от нее довольно плохие.
Сегодня Google выпустила новую версию Gemini 1.5 - значительно улучшенную версию своей флагманской языковой модели.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Что нового в Gemini 1.5?
В Gemini 1.5 представлены значительные улучшения, призванные устранить недостатки первоначальной версии:
- Контекстное окно на 1 000 000 токенов: На данный момент это самое большое контекстное окно среди всех крупномасштабных базовых моделей. GPT-4 от OpenAI имеет контекстное окно размером 128000 токенов.
- Имеет более высокую скорость реакции: Google использует архитектуру Mixture of Experts MoE, которая, вероятно, лежит в основе GPT-4. Это позволит модели разбивать промпт на подзадачи и направлять их специализированным "экспертам", что значительно повысит эффективность и производительность.
- Быстрый поиск информации: Новая модель демонстрирует значительно улучшенную способность находить конкретные детали в огромном объеме текстовых, видео- или аудиоданных.
- Лучшее качество программирования: Большое контекстное окно позволяет проводить глубокий анализ всей кодовой базы, помогая модели Gemini улавливать сложные взаимосвязи, закономерности и понимание кода.
Контекстное окно размером 1 миллион токенов
Возможно, самым шокирующим является увеличение размера контекстного окна. В то время как большинство современных больших языковых моделей (LLM) работают максимум с 128 000 или около того токенов, экспериментальная сборка Gemini 1.5 Pro может обрабатывать 1 миллион токенов, что просто поразительно.
Если перевести в объемы информации, то это:
- 1 час видео
- 11 часов аудио
- Более 30 тысяч строк кода
- Более 700 000 слов
Это абсолютная революция - представьте себе, что вы передаете LLM сценарий полнометражного фильма, тысячи строк сложного кода или объемную книгу. Этого контекста достаточно, чтобы проанализировать нюансы взаимодействия, проследить развитие персонажа или найти ошибки в коде в огромных масштабах.
Подумайте об этом, как о разнице между просьбой к чатботу проанализировать 30-секундный разговор и изучением мотивов персонажей во всей трилогии "Властелин колец".
Разработчики, ликуйте!
Как для разработчика, самой впечатляющей функцией, вероятно, является возможность загружать целые репозитории кода и просить Gemini собирать целые модули за считанные минуты. Насколько это круто?
Помимо того, что Google предлагает новейшие модели, она также упрощает процесс разработки с помощью Gemini.
- Простая настройка: Будет набор примеров, с помощью которых вы сможете настроить Gemini под свои нужды за считанные минуты, не выходя из Google AI Studio.
- Новые платформы для разработчиков: Интегрируйте API Gemini для создания новых функций на базе ИИ уже сегодня с помощью новых расширений Firebase, рабочего пространства разработки в Project IDX или недавно выпущенного Google AI Dart SDK.
- Дешевле Gemini 1.0 Pro: Стоимость сегодняшней стабильной версии на 50 % меньше для ввода текста и на 25 % меньше для вывода, чем было объявлено ранее. В ближайшее время появятся новые тарифные планы с оплатой по факту использования AI Studio.
Gemini 1.5 в действии
В техническом описании Google показаны впечатляющие реальные примеры использования Gemini 1.5:
В приведенном ниже примере они использовали 45-минутный фильм Бастера Китона "Шерлок-младший" (1924) (2 674 кадра при 1 кадр/с, 684 тыс. токенов). Gemini 1.5 Pro получает и извлекает текстовую информацию из конкретного кадра и предоставляет соответствующую временную метку.
Другой пример - когда в промпте был указан весь текст "Отверженных", Gemini 1.5 Pro определил и нашел знаменитую сцену по нарисованному от руки эскизу.
Google также продемонстрировала способность Gemini Pro 1.5 обрабатывать 100 000 строк кода и серию мультимодальных промптов.
Если им удалось воплотить это в жизнь, то это будет потрясающе!
Стоит ли обновлять Gemini?
Формально Gemini 1.5 определенно стоит обновить.
Однако недавний опыт Google по выпуску ИИ-продуктов вызывает обоснованные опасения.
- Первый запуск Bard от Google был неудачным.
- Видео "запуска" Gemini, которое по сути было маркетинговым монтажом, не показывало реального продукта и подверглось жесткой критике со стороны многих.
- Gemini Ultra должен был быть действительно хорош, даже лучше, чем GPT-4, но мои первые тесты показали, что ему еще далеко до GPT-4.
Стоит ли радоваться амбициозным обновлениям, анонсированным спустя всего несколько недель после того, как предыдущие релизы потерпели фиаско? Можно задаться вопросом, свидетельствует ли такая картина о поспешных запусках или о внутренней борьбе за сохранение темпа.
Сейчас я не доверяю ничему, что выпускает Google, если это не мгновенно тестируемая форма ввода.
О чем следует помнить
- Предполагается, что Gemini 1.5 Pro по производительности будет на одном уровне с Gemini Ultra.
- Начиная с сегодняшнего дня разработчики и корпоративные клиенты могут получить доступ к ограниченной предварительной версии 1.5 Pro через AI Studio и Vertex AI.
- Если вы, как и я, запутались в названии, вот краткое описание:
Google удивил меня. Размер контекстного окна - если оно действительно работает так, как заявлено, - просто потрясающий.
Несмотря на то, что реальные бенчмарки все еще необходимы, нельзя отрицать, что Google вернулся в игру. OpenAI предстоит снова поднять планку.
Пока не сообщается, когда Gemini Pro будет выпущен для потребителей. Gemini Ultra 1.5 уже находится в разработке, и, судя по всему, он будет обладать большими возможностями. 1.5 Pro уже очень, очень хороша.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Источник статьи на английском - здесь.
Мне кажется, в очередной раз лажанутся.
Не думаю, второй раз не должны, деньги тратятся колоссальные.
Да мне кажется, для них эти деньги не особо и важны, и почему-то большие инвестиции не равно большой успех.
Посмотрим...
Комментарий удален модератором
лажа от сбера круче, пишешь ему пишешь в гигачат.. а он "кто злесь?"
))) точно подметили
Время покажет...
Вот сейчас целый хайп на нейросетях этих. А по факту - разве они заменили учителей, врачей, слесарей?
Врачей и учителей нет, но некоторых других специалистов - уже заменили.
Хайп год идёт. И уже много кому помогают, мне в том числе. В оффлайн естественно никакой замены в ближайшее время не будет
Ну только если роботы под управлением нейросети.
да
пока нет, но дело не хитрое. заменить учителей дело в принципе не особо хитрое, покрайней мере начальные какието вещи.
врачи уже в процессе, в МРТ давно нейросеть размечает снимки для врача, а скоро будет писать диагноз и лечение, а врач только визировать будет, чтобы было кому отвечать за косяки.
А половину слесарей давно ЧПУ заменил без всяких нейросеток
ну они не будут заменять напрямую, а будут автоматизировать рутинную работу врачей, что в итоге приведет к сокращению ставок. Слесарей тут причем 😂, слесари самые защищенные от ИИ
А сейчас вообще как-то можно использовать нейронки гугла платно/бесплатно через api?
Да, можно через api через ai studio. Загуглите.
Через vpn. Бесплатно. https://bard.google.com/chat
Расписали гугловцы красиво, только составит ли модель конкуренцию GPT4, или это очередной пшик - вопрос.
Думаю, он к этому сильно стремятся.
У гугла столько бабок, что уже 100 раз могли бы сделать лучше, чем openai.
Согласен. Не понимаю, почему они стормозили в одно время.
Контекстное окно - это хорошо, только насколько хорошо Gemini будет обрабатывать введенные данные и какие результаты будет выдавать.
Это да, не поспоришь. Надеюсь, что на этот раз у них хотя бы приблизиться в к Chatgpt получится.
Пока гугл догонит гпт4, openai выпустят гпт5
Тоже может быть.
Для разработчиков звучит заманчиво, только какой код он будет выдавать - хз, особенно если будет лениться как сатгпт.
Думаю, если довели модель до ума, то должен нормальный выдавать.
Я ща сравниваю gpt4 с бесплатным gemini. Gemini отвечает быстрее, но корявее.
Это да, есть такое дело. Лучше подождать и получить точный ответ.
Я и с платным Gemini сравнивал.
Туфта. Он кусок кода на 120 строк скорректировать не может. Даже gpt 3.5 выдаёт полный код
Если и в этот раз лажанут, рискуют растерять пользователей.
Chat gpt - лучше сочиняет информацию (Сделал сказку раскраску при помощи него и встроенного Dalle).
А Gemini строже работает с информацией, лучше справился с составлением брифа. chat gpt за 20$ плохо справился с этой работой.
Комментарий удален модератором
И чем заменят чтение и фильмы? При помощи Вижн Про и ИИ?
Мне кажется, слишком много пиара Вижн, но по факту просто прикольная игрушка. А чтение и фильмы можно заменить, но тогда человек лишится удовольствия от чтения и просмотра.
Как мне вообще эту всю фигню в жизни применить? Я не разработчик. Менеджер по продажам
Комментарий недоступен
Комментарий недоступен
Тут робот оптимус от тесла вам привет передает. Его планируют запустить в 2037 году кажется.
Комментарий недоступен
такие даты дают когда или ишак или падишах...
Применить можно, и многие применяют. Но тут много вводных данных от вас нужно как бы..
Ничего непонятно с вашими умными интеллектами, но очень интересно
Если есть желание - нужно изучать. Если нет, оно вам не надо ).