PaliGemma 2 от Google: ИИ для распознавания объектов и эмоций на фото

Её можно использовать, например, для изучения спутниковых снимков и помощи незрячим.

Источник: Google
Источник: Google
  • PaliGemma 2 — это модель для анализа визуальных данных (Visual Language Model или VLM). Она распознаёт и описывает «действия, эмоции и общий сюжет сцены» на загруженных фотографиях, сообщила Google.
  • По словам компании, модель можно использовать для чтения текстов и диаграмм, создания субтитров, поиска объектов, например, на спутниковых снимках, а также для помощи слепым людям при использовании цифровых сервисов.
  • Скачать модель и код можно на Hugging Face и Kaggle и «интегрировать в свои проекты».
Описание от модели: «Коричневая лошадь стоит на грязной площадке, вокруг камни. На спине чёрное седло, а на груди нарисована белая звезда размером 448px2. На боку белым цветом нарисовано число 55». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fxiaohuazhai%2Fstatus%2F1864980031685992853%3Fs%3D52&postId=1694697" rel="nofollow noreferrer noopener" target="_blank">Xiaohua Zhai</a>
Описание от модели: «Коричневая лошадь стоит на грязной площадке, вокруг камни. На спине чёрное седло, а на груди нарисована белая звезда размером 448px2. На боку белым цветом нарисовано число 55». Источник: Xiaohua Zhai
Запрос: «Кто на картинке?» Ответ: «Дэвид Боуи». Источник: AK 
  • TechCrunch обращает внимание, что системы распознавания эмоций, как правило, ненадёжны. Исследования показали, что многие модели обучены в основном на изображениях улыбающихся лиц, а также чаще описывают эмоции людей с более тёмным цветом кожи как негативные.
  • Google заявила, что провела «тщательную оценку моделей PaliGemma 2 с точки зрения этики и безопасности, в том числе детей».
  • В феврале 2025 года в ЕС вступит в силу закон об искусственном интеллекте, который запрещает использовать технологии распознавания эмоций в компаниях и учебных заведениях.
2
2
1
1
8 комментариев