{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Вопрос на засыпку мультимодалок: сколько людей на картинке

В процессе тестирования мультимодалки llava столкнулся с тем, что модель неправильно определила количество людей на картинке. Решил проверить, как обстоят дела у других MLLM моделей и слегка удивился их количеством.

Задавал вопрос: count how many people are in the picture, answer with few words.

Данный минитест доказывает в очередной раз, что модели крайне узколобы, что даже самые продвинутые Cloude 3 и GPT4 легко ошибаются. Из 18 вариантов моделей только 6 ответили правильно и это opensource модели.

⚡UPDATE: Есть мнение что на картинке 2 человека.

Сборка Третьего искусственного спутника. [1958 г.] Российский государственный архив научно-технической документации К244-01-028. Кадр кинохроники. 1 человек на картинке

llava:34b-v1.6-q8_0

✅1

llava:34b-v1.6-q4_K_M

✅1

llava:13b-v1.6-vicuna-q8_0

❌2

llava:13b-v1.5-q8_0

❌2

bakllava:7b-v1-q8_0

❌2

AIRI-Institute/OmniFusion

❌2

blip_vqa через LAVIS

❌2

Cloude 3 Opus

❌The image shows 5 people working on assembling or inspecting a large cylindrical apparatus, likely some kind of spacecraft or satellite, in what appears to be an industrial or laboratory setting.

Cloude 3 Sonnet

❌There appear to be two people visible in this historical black and white photograph showing what looks like a spacecraft or rocket under construction or testing in an industrial facility.

Cloude 3 Haiku

❌The image shows 3 people working on the spacecraft structure.

GPT4 Turbo через perplexity.ai

❌There are two people in the picture.ShareRewrite

copilot.microsoft.com

❌There are no people visible in the picture.

✅1

✅1

✅1

GLaMM ответил правильно в таком виде

Дополнение

⚡UPDATE: Есть мнение что на картинке 2 человека.

Вот что он написал gpt4- "In the image provided, there are two humans identifiable by their clothing and posture. One person is standing to the left of the spacecraft, wearing what appears to be a white lab coat or protective garment, indicative of a technician or engineer. The other individual is situated further back, to the right of the spacecraft, partially obscured by the equipment, but their human form is distinguishable. Both are attending to the spacecraft, suggesting a setting of technical work or inspection."

В интернете нашлась другая фотка, где очевидно два человека.

Остается спорным вопрос, что считать правильным?

Что почитать по мультимодалкам?

На гитхабе гигантская подборка публикаций и ссылок по MLLM.

На этом пока все, возможно дополню позже. Если нашли неточность в описании - буду рад поправкам. Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.

0
Комментарии
-3 комментариев
Раскрывать всегда