Google представила Gemini Embedding 2 — Ринат Шакиров на vc.ru

Gemini Embedding 2 — первая полностью мультимодальная модель, которая сопоставляет текст, изображения, видео, аудио и документы в едином векторном пространстве.

Модель поддерживает более 100 языков, текстовые входы длиной до 8192 токенов, 6 изображений на запрос, 120-секундные видео, собственные аудиовложения и PDF-файлы объемом до 6 страниц, что упрощает работу с такими задачами, как RAG, семантический поиск, кластеризация и анализ тональности.

Благодаря технологии Matryoshka Representation Learning, позволяющей использовать векторы разных размеров, разработчики могут сбалансировать производительность и объем памяти, используя при этом современные методы мультимодального анализа.

Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT.