PaliGemma 2 от Google: ИИ для распознавания объектов и эмоций на фото
Её можно использовать, например, для изучения спутниковых снимков и помощи незрячим.
Источник: Google
- PaliGemma 2 — это модель для анализа визуальных данных (Visual Language Model или VLM). Она распознаёт и описывает «действия, эмоции и общий сюжет сцены» на загруженных фотографиях, сообщила Google.
- По словам компании, модель можно использовать для чтения текстов и диаграмм, создания субтитров, поиска объектов, например, на спутниковых снимках, а также для помощи слепым людям при использовании цифровых сервисов.
- Скачать модель и код можно на Hugging Face и Kaggle и «интегрировать в свои проекты».
Описание от модели: «Коричневая лошадь стоит на грязной площадке, вокруг камни. На спине чёрное седло, а на груди нарисована белая звезда размером 448px2. На боку белым цветом нарисовано число 55». Источник: Xiaohua Zhai
Запрос: «Кто на картинке?» Ответ: «Дэвид Боуи». Источник: AK
- TechCrunch обращает внимание, что системы распознавания эмоций, как правило, ненадёжны. Исследования показали, что многие модели обучены в основном на изображениях улыбающихся лиц, а также чаще описывают эмоции людей с более тёмным цветом кожи как негативные.
- Google заявила, что провела «тщательную оценку моделей PaliGemma 2 с точки зрения этики и безопасности, в том числе детей».
- В феврале 2025 года в ЕС вступит в силу закон об искусственном интеллекте, который запрещает использовать технологии распознавания эмоций в компаниях и учебных заведениях.
8 комментариев