Google выпустили 116 новых моделей, "PaliGemma"!

Еще один ништячок от Google они выпустили- "PaliGemma"! 🚀

Семейство из 116 новых моделей, которые могут подписывать изображения, отвечать на вопросы, распознавать объекты, сегментировать изображения и многое другое!

Google выпустили  116 новых моделей, "PaliGemma"!

PaliGemma (Github) - это семейство моделей визуализации с архитектурой, состоящей из SIGLIP-So 400m в качестве кодера изображений и Gemma-2B в качестве декодера текста.

SigLIP - это современная модель, которая может распознавать как изображения, так и текст. Как и CLIP, он состоит из кодера изображений и текста. Как и в случае с PALI-3, комбинированная модель Paligemma работает на основе графических и текстовых данных, а затем может быть легко адаптирована для последующих задач, таких как создание субтитров.

Gemma - это модель для генерации текста, предназначенная только для декодера. Сочетание графического кодера Siglip и линейного адаптера Gemma позволяет использовать Paligemma в качестве мощной модели визуализации.

У себя в канале я опубликую ее обзор моделей и первые впечатления, а как появится api, добавлю в бота, чтобы любой мог поиграться с ним, заходите в гости)

Google выпустили  116 новых моделей, "PaliGemma"!
Начать дискуссию