Google представила модель PaliGemma 2 для распознавания объектов и эмоций людей на фотографиях

Её можно использовать, например, для изучения спутниковых снимков и помощи незрячим.

Источник: Google
Источник: Google
  • PaliGemma 2 — это модель для анализа визуальных данных (Visual Language Model или VLM). Она распознаёт и описывает «действия, эмоции и общий сюжет сцены» на загруженных фотографиях, сообщила Google.
  • По словам компании, модель можно использовать для чтения текстов и диаграмм, создания субтитров, поиска объектов, например, на спутниковых снимках, а также для помощи слепым людям при использовании цифровых сервисов.
  • Скачать модель и код можно на Hugging Face и Kaggle и «интегрировать в свои проекты».
Описание от модели: «Коричневая лошадь стоит на грязной площадке, вокруг камни. На спине чёрное седло, а на груди нарисована белая звезда размером 448px2. На боку белым цветом нарисовано число 55». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fxiaohuazhai%2Fstatus%2F1864980031685992853%3Fs%3D52&postId=1694697" rel="nofollow noreferrer noopener" target="_blank">Xiaohua Zhai</a>
Описание от модели: «Коричневая лошадь стоит на грязной площадке, вокруг камни. На спине чёрное седло, а на груди нарисована белая звезда размером 448px2. На боку белым цветом нарисовано число 55». Источник: Xiaohua Zhai
Запрос: «Кто на картинке?» Ответ: «Дэвид Боуи». Источник: AK 
  • TechCrunch обращает внимание, что системы распознавания эмоций, как правило, ненадёжны. Исследования показали, что многие модели обучены в основном на изображениях улыбающихся лиц, а также чаще описывают эмоции людей с более тёмным цветом кожи как негативные.
  • Google заявила, что провела «тщательную оценку моделей PaliGemma 2 с точки зрения этики и безопасности, в том числе детей».
  • В феврале 2025 года в ЕС вступит в силу закон об искусственном интеллекте, который запрещает использовать технологии распознавания эмоций в компаниях и учебных заведениях.
22
22
11
11
10 комментариев

"а также чаще описывают эмоции людей с более тёмным цветом кожи как негативные."

2

Ожидание "нейросетка расписывает картинку"

Реальность "подтвердите, что вы не робот. Опишите, что происходит на картинке. Еще 15 раз, сегодня дали рекламу, народу многа."

1

"а также чаще описывают эмоции людей с более тёмным цветом кожи как негативные."
мьсе да вы расист

Представляю, как теперь будет легко на семейных фотографиях определять, кто из нас действительно рад видеть родню

Когда в последний раз изучал вопрос, выражение лица при разных эмоциях оставалось недоказанной наукой. Пол Экман посвятил этому много книг, но по-настоящему научных исследований, доказывающих что эмоции можно считать так и не было. Насколько помню сошлись на том, что совсем базовые эмоции(радость, страх, гнев) еще можно определить, но что-то более тонкое уже невозможно, т.к. зависит от физиологических особенностей и аспектов культуры, в которой вырос человек.

В феврале 2025 года в ЕС вступит в силу закон об искусственном интеллекте, который запрещает использовать технологии распознавания эмоций в компаниях и учебных заведениях.
- А чего так? Зачем?
У человека есть разный вид интеллекта. Один из них , эмоциональный - способность распозновать эмоции настроения людей. Раз одни делают это лучше , а другие буквально эмоционально сенсорные инвалиды - не было бы лучше повсеместно внедрять такие считыватели эмоций?