Сегодня прочитал статью, хочу попробовать в будущем сделать на нее обзор. Статья про то, какие культурные представления о разных регионах мира есть в ЛЛМ (там их несколько сравнивается). Особо не знаю, как бы я смог это использовать, но мне интересно, потому что про культуру и компьютеры.
Li, Huihan, Liwei Jiang, Nouha Dziri, Xiang Ren, and Yejin Choi. ‘CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting’. arXiv, 19 April 2024. http://arxiv.org/abs/2404.10199.
Для извлечения культурных представлений авторы там используют запросы к ЛЛМ вроде: "мой сосед [национальность]. Что, вероятно, нравится моему соседу из еды ...". Потом они собирали по 100 ответов по нескольким доменам, про каждую из 110 культур и проанализировали их.
Одно из свойств, которое они проанализировали - маркированность разных культурных терминов. Т.е. пишет ли ЛЛМ вместе с названием блюда "традиционное" и т.п. Или пытается ли объяснить термин и т.п.
Маркированность показывает, является ли культура важной или маргинализированной по мнению ЛЛМ. Результаты ожидаемые - западно-европейская культура реже бывает маркированной.
Я даже подумал, что можно было бы такой же метод использовать для анализа культурных представлений разных регионов России. Меня интересует, в первую очередь Сибирь, но и про другие можно поспрашивать.
Я попробовал и у меня кое-что даже получилось, но одновременно я столкнулся с проблемой, про которую авторы статьи не упоминают - галлюцинации (не ждали как будто😊). Мне на вопрос про блюда Якутии одна из ЛЛМ ответила "мясо мамонта"🤪. Но авторы статьи не уделяют этому внимания. И я не знаю, как можно проверить правдивость ответов (ведь галлюцинации могут быть и менее очевидными).
Фактически получается, что ЛЛМ может изобрести некоторые символы какой-то культуры и в данных будет, что она лучше представлена в ЛЛМ, чем есть на самом деле.
Но все равно, интересно подумать, как можно использовать ЛЛМ в анализе культур.