Интересное исследование помогает понять, как большие языковые модели (LLM) и мультимодальные модели (MLLM) воспринимают реальные вещи (объекты) по сравнению с человеком.
В эксперименте сравнивали, как люди, LLM (ChatGPT-3.5, Llama3.1) и MLLM (такие как Gemini Pro Vision 1.0, Qwen2_VL-7B) воспринимают 1854 объекта из базы THINGS. Всем (и моделям, и людям) показывали по три предмета и спрашивали – какой из них лишний?
Всего было собрано 4,7 миллиона таких ответов, на основе которых выстроили специальное «ментальное пространство», на самом деле embeddings (66 измерений), чтобы сравнить на сколько эти ответы отличаются.
- Корреляция между тем, как LLM и человек воспринимают сходство предметов - 0.71, у мультимодальных моделей - 0.85, между людьми - 0.9. Неплохо. Не идеально.
- Для объяснения 95% всех решений модели достаточно всего 3–8 скрытых признаков (измерений), человеку - 7–13. Восприятие моделей проще, значит более усреднённое.
- 60 из 66 этих скрытых измерений у LLM легко интерпретируются: животное/еда/температура/ценность и т.д. У людей таких — 62 из 66.
- Модель чуть хуже "замечает" визуальные нюансы (например, цвета), зато отлично улавливает смысловые и категориальные различия.
- Вложенные представления моделей сопоставили с данными fMRI (МРТ мозга людей), и оказалось: в ключевых областях мозга модели угадывают паттерны активности почти так же хорошо, как другой человек!
- В задаче определения категории объекта LLM достигли 83.4% точности, MLLM - 78.3%, а люди - 87.1%.
- Из 66 измерений 38 оказались одинаковыми для всех трех систем (LLM, MLLM и человека).
Если наши «ментальные карты» не совсем одинаковы, значит, есть смысл подстраивать промты под те самые оси, по которым LLM принимает решения.
Модели лучше воспринимают семантические категории, чем визуальные детали. Именно поэтому стоит формулировать запросы через призму категориальных признаков.
Как итог вот несколько советова:
- Кратко и по делу: В начале промта сразу формулируйте суть задачи и 3–5 главных понятий - этого достаточно, чтобы модель «поймала волну». Исследование показало, что LLM эффективно работают с небольшим числом ключевых измерений
- Семантика важнее деталей: Используйте смысловые категории («спорткар», «фрукт», «инструмент»), а не художественные описания. LLM и MLLM опираются больше на семантические измерения, тогда как люди лучше используют визуальную информацию. Например, у людей есть четкие измерения для цветов («белый», «красный», «черный»), которые менее выражены у моделей
- Уточняйте категории: Когда хотите получить структурированный ответ - просите модель объяснить через конкретные категории. Исследование выявило, что модели формируют интерпретируемые измерения, отражающие концептуальные (животное, еда, оружие, транспорт) и перцептуальные черты (твердость, ценность, температура, текстура)
- Убирайте «воду»: Меньше субъективных прилагательных, больше фактов. Для 95-99% производительности модели достаточно всего 3–8 измерений, поэтому лишние описательные элементы только размывают фокус
Кстати, в задаче "кто тут лишний" модели показали точность 56.7% (LLM) и 63.4% (MLLM), что близко к человеческому результату (64.1%) при случайном уровне 33.3%. Это говорит о том, что модели действительно "думают" о предметах примерно так же, как мы.
Пробуйте подход из исследования - пишите, замечаете ли вы, что ответы стали более «человечными» и точными.
Если есть свои лайфхаки по этому поводу - очень интересно.
Подписывайтесь на Telegram Сергей Булаев AI 🤖.