Проблемы качества саммаризации

Введение

Саммаризация текста, или создание краткого изложения длинного документа, является важной областью прикладной лингвистики и искусственного интеллекта. С развитием больших языковых моделей (LLM) стало возможным автоматизировать процесс создания саммари текстов, что значительно упростило работу в таких областях как журналистика, бизнес-аналитика и научные исследования. Однако оценка качества саммаризации остается сложной задачей из-за отсутствия единого стандарта и зависимости результата от контекста и целей пользователя.

Современные LLM, такие как GPT-4, демонстрируют высокие способности к генерации текста на основе большого контекста. Эти модели могут создавать сложные и точные саммаризации, что делает их незаменимыми в различных областях применения. Однако для оценки качества таких моделей требуется специфический подход, учитывающий особенности их работы и ограничения текущих метрик.

Одним из ключевых аспектов в оценке LLM является использование человеческой экспертизы. Исследование показало, что инструкционное обучение (instruction tuning) играет более важную роль в качестве саммаризации, чем размер модели. Это означает, что для достижения наилучших результатов необходимо тщательно подбирать и оптимизировать методы обучения моделей.

Кроме того, существуют специальные датасеты, такие как LCFO (Long Context and Long Form Output), которые разработаны специально для оценки LLM на задачах с длинным контекстом и большим объемом выходных данных. Эти датасеты включают пошаговые саммаризации, вопросы-ответы и оценки качества, выставленные человеком. Использование таких датасетов позволяет более точно измерять способности моделей к обработке сложных текстовых данных.

Для улучшения понимания и применения LLM в области саммаризации важно также рассмотреть различные метрики качества, такие как ROUGE, METEOR и BLEU. Эти метрики основаны на совпадении N-грамм между генерируемым текстом и эталонным. Однако они имеют ограничения в том, что не учитывают семантическое значение и контекст текста. Поэтому для более точной оценки качества саммаризации необходимо использовать комбинацию различных метрик и человеческой экспертизы.

Основы саммаризации текста

Саммаризация текста включает два основных подхода: абстрактную саммаризацию (абстракция) и извлечение ключевых фрагментов (извлечение). Абстрактная саммаризация создает новый текст на основе исходного, а извлечение ключевых фрагментов выделяет наиболее важные части оригинала. В контексте LLM эти подходы могут быть реализованы с использованием различных техник машинного обучения.

Абстрактная саммаризация (абстракция) позволяет создавать более краткий и понятный текст, который сохраняет основные идеи исходного документа. В отличие от извлечения ключевых фрагментов, абстрактная саммаризация не ограничивается только выделением существующих предложений или слов; она может создавать новые предложения и даже вносить изменения для улучшения читаемости и понимания текста. Абстрактная саммаризация лучше всего подходит для передачи глубокого понимания темы или контекста.

Извлечение ключевых фрагментов (извлечение) включает процесс выделения наиболее важных предложений и слов из исходного текста. Этот подход полезен для быстрого получения основной информации, особенно при работе с большими объемами данных. Извлекаемая саммаризация широко используется в различных областях, таких как право и журналистика.

Важно отметить, что оба подхода могут быть объединены для создания гибридной саммаризации. В этом методе модель сначала извлекает ключевые предложения из текста, а затем использует абстрактные техники для улучшения и перефразирования этих предложений в более связный и краткий обзор.

Для реализации этих подходов можно использовать различные инструменты и библиотеки. Например, библиотека spaCy с модулем pytextrank позволяет эффективно извлекать ключевые фрагменты текста.

Роль больших языковых моделей (LLM) в саммаризации

Большие языковые модели (LLM), такие как GPT-4, используют глубокую нейронную архитектуру для анализа текста и генерации саммаризованных версий. Эти модели способны учитывать сложные лингвистические структуры и контекст, что делает их эффективными инструментами для создания качественных саммаризаций.

Важно отметить, что LLM такие как GPT-4 обладают уникальной способностью глубоко понимать текстовые данные благодаря своей архитектуре и объему тренировочных данных. LLM могут генерировать текст, отвечать на запросы и делать переводы на любой язык, что демонстрирует их универсальность в различных задачах NLP. Это позволяет моделям LLM эффективно справляться с задачей саммаризации, поскольку они могут улавливать ключевые идеи и детали текста.

Кроме того, LLM способны решать амбивалентности в тексте на основе контекста. LLMs выделяются своей способностью понимать подтекст и контекстное значение, что особенно важно для задач саммаризации. Это означает, что модели могут генерировать саммаризованные версии текста, которые точно передают смысл оригинального документа без потери важной информации.

Также следует отметить, что LLM такие как GPT-4 демонстрируют значительные улучшения в качестве саммаризации после обучения на специфических инструкциях. Исследования показывают, что некоторые модели демонстрируют значительное улучшение результата посредством обучения на инструкциях. Это подчеркивает важность адаптации моделей к конкретным задачам и контекстам.

Наконец, LLM такие как GPT-4 могут быть использованы для создания саммаризаций в различных областях, таких как новостные статьи, научные публикации и юридические документы. Это указывает на необходимость дальнейших исследований для улучшения адаптации моделей к разнообразным типам текста и задачам.

Метрики оценки качества саммаризации

Оценка качества саммаризации включает использование различных метрик, таких как ROUGE(Recall-Oriented Understudy for Gisting Evaluation), BLEU (Bilingual Evaluation Understudy) и METEOR(Metric for Evaluation of Translation with Explicit ORdering). Эти метрики измеряют степень сходства между генерируемой саммаризацией и эталонной версией, но они имеют свои ограничения и не всегда отражают реальную ценность саммаризованных текстов.

ROUGE — это набор метрик, специально разработанный для оценки автоматической саммаризации. Он сравнивает сгенерированные сводки с эталонными версиями, используя различные подметрики (ROUGE-N, ROUGE-L и ROUGE-W). Как отмечается, ROUGE основывается на Recall, что делает его более подходящим для задач саммаризации, где важно захватить все ключевые моменты. Однако метрика ROUGE имеет свои ограничения: она не учитывает семантическое значение и контекст, а также может быть неточной при сравнении коротких текстов с длинными эталонными версиями.

BLEU, напротив, фокусируется на precision, измеряя количество совпадающих n-грамм между генерируемой и эталонной саммаризацией. Отмечается, что BLEU хорошо считает точность перевода, что делает его более подходящим для задач машинного перевода. Однако BLEU также имеет свои недостатки: он может недооценивать качество генерируемых текстов, особенно если они содержат уникальные или нестандартные выражения.

METEOR — это метрика, которая учитывает семантическое значение и синтаксическую структуру текста. Как отмечают источники, METEOR использует словари для оценки семантической близости между словами. Однако METEOR также имеет свои ограничения: она может быть неточной при сравнении текстов с разными структурами или жанрами.

Для более полной оценки качества саммаризации необходимо использовать комбинацию различных метрик, чтобы учесть как семантические аспекты, так и структурные характеристики генерируемых текстов. Например, можно использовать ROUGE для измерения recall, BLEU для precision и METEORдля оценки семантической близости.

Для улучшения качества саммаризации с использованием LLM (Large Language Models) важно разработать новые метрики, которые будут учитывать контекст и целевую аудиторию. Например, можно использовать методы машинного обучения для оценки качества текста на основе обратной связи от пользователей или экспертов в конкретных областях.

Для эффективной оценки качества саммаризации с использованием LLM важно учитывать как структурные характеристики текстов, так и их семантическое значение. Комбинация различных метрик (ROUGE, BLEU и METEOR) позволяет получить более полную картину качества генерируемых текстов.

Проблемы оценки качества LLM для саммаризации

Одним из основных вызовов при использовании Large Language Models (LLM) для саммаризации текста является то, что качество результата часто зависит от конкретного контекста и целей пользователя. Например, саммаризация научной статьи может требовать более формального стиля, чем саммаризация новостной заметки. Кроме того, метрики качества могут не учитывать такие аспекты как семантическая точность и контекстуальная релевантность.

Важно отметить, что оценка LLM для задач саммаризации включает множество сложных факторов. Исследователи отмечают что, LLM, такие как ChatGPT и GPT-4, превосходят существующие методы оценки фактической точности (FC), а LLM c открытым исходным кодом не могут конкурировать с GPT. Это подчеркивает необходимость разработки специализированных метрик для оценки качества саммаризации, которые учитывают уникальные характеристики LLM.

Одним из ключевых аспектов является то, что метрики качества, такие как BLEU и ROUGE, могут не полностью отражать семантическую точность и контекстную релевантность. А вот, например, метрика BERTScore учитывает синтаксическую и семантическую релевантность генерируемой саммаризации. Однако даже такие продвинутые метрики могут не учитывать все аспекты качества, особенно в контексте специфических задач пользователя.

Другим важным фактором является то, что оценка LLM для саммаризации часто зависит от субъективности человеческой оценки. Человеческая оценка — один из наиболее значительных методов оценки LLM, но она также привносит множество предвзятостей и интерпретаций. Это подчеркивает необходимость разработки объективных метрик для уменьшения субъективности в процессе оценки.

Для более полной оценки качества LLM можно использовать комбинированный подход, который сочетает в себе как автоматические метрики, так и человеческие оценки. Например, метрика F1-score может быть использована для измерения точности и полноты саммаризации, а метрика ExactMatch (EM) — для проверки точного соответствия генерируемой саммаризации референтной. Однако даже такой подход не гарантирует абсолютную объективность оценки.

Важно также отметить, что LLM могут генерировать "галлюцинации" или ложные утверждения, которые трудно обнаружить с помощью стандартных метрик. Как отмечают исследователи, "никакие методы оценки на основе LLM не могут эффективно выявлять противоречия в медицинских саммаризациях, созданных LLM. Это подчеркивает необходимость разработки специализированных инструментов для обнаружения и корректировки таких ошибок.

Для улучшения качества оценки можно использовать визуальные представления данных, такие как графики и диаграммы. Например, график может показать распределение метрик качества по различным типам текста или задачам пользователя. Диаграмма рассеяния может быть использована для анализа корреляции между автоматическими метриками и человеческими оценками.

Таким образом, оценка качества LLM для саммаризации требует комплексного подхода, который учитывает как субъективные аспекты человеческой оценки, так и объективные метрики. Важно продолжать разрабатывать новые методы и инструменты для более точной и надежной оценки качества саммаризации LLM.

Применение LLM в различных областях

В современных условиях широкое использование больших языковых моделей (LLM) наблюдается во многих сферах деятельности. Эти модели демонстрируют значительные способности к саммаризации текста, что делает их незаменимыми инструментами для обработки и анализа больших объемов информации. В журналистике LLM используются для создания кратких новостных статей, в бизнес-аналитике — для обобщения данных, а в научных исследованиях — для саммаризации длинных текстов.

В журналистике LLM позволяют быстро создавать краткие и точные новости на основе больших объемов информации. Например, модель может анализировать несколько источников новостей и синтезировать ключевые факты в одной короткой статье. Это особенно полезно для оперативного освещения событий и обеспечивает своевременное информирование читателей.

В бизнес-аналитике LLM используются для обобщения больших объемов данных, что позволяет компаниям принимать более взвешенные решения. Например, модель может проанализировать финансовые отчеты нескольких компаний и сформулировать ключевые выводы о состоянии рынка. Это помогает руководителям быстро ориентироваться в сложной бизнес-среде и принимать обоснованные решения.

В научных исследованиях LLM играют важную роль в саммаризации длинных текстов, таких как научные статьи или диссертации. Например, модель может проанализировать несколько исследовательских работ по одной тематике и сформулировать обобщенные выводы. Это упрощает процесс чтения и понимания сложных научных материалов для исследователей.

Каждая область имеет свои специфические требования к качеству саммаризации, что усложняет выбор оптимального подхода. Например, в журналистике важны точность фактов и своевременность информации, а в бизнес-аналитике — глубина анализа и обоснованность выводов. В научных исследованиях ключевыми являются точность и полнота саммаризации.

Для достижения наилучших результатов часто требуется адаптация общей модели к конкретной области. Например, модель, обученная на юридических документах, будет более эффективно саммировать тексты в этой сфере, чем общая модель. Это позволяет улучшить качество и релевантность результатов.

Таким образом, использование LLM в различных областях позволяет значительно улучшить процесс обработки информации и принимать более взвешенные решения. Однако для достижения наилучших результатов требуется тщательная адаптация моделей к специфическим требованиям каждой области.

Открытые вопросы и будущие направления исследований

Несмотря на значительные достижения в области LLM для саммаризации текста, остаются открытые вопросы по поводу надежности и точности этих моделей. В частности, необходимо разработать более совершенные метрики оценки качества, которые бы учитывали контекст и цели пользователя. Например, существующие метрики, такие как ROUGE, BLEU и METEOR, не всегда способны оценить качество саммаризации с учетом специфических требований пользователя.

Важно также учитывать, что LLM могут "галлюцинировать", то есть генерировать информацию, которая не соответствует исходному тексту. Это может привести к серьезным проблемам в областях, где точность и надежность особенно важны. Например, при использовании LLM для создания юридических документов или медицинских рекомендаций любые ошибки могут иметь серьезные последствия.

Например, 19 января 2025 года, компания Apple вынуждена была приостановить работу генеративных ИИ-моделей, которые создают сводки новостей в уведомлениях, после того как ряд издателей выразили обеспокоенность ошибками системы. Техногигант подтвердил приостановку функционала из-за серьёзных недочетов, вызвавших негативную реакцию со стороны медиаиндустрии. (https://www.msn.com/en-us/money/other/apple-pauses-ai-summaries-of-news-notifications-acknowledging-a-big-flaw-that-drew-backlash-from-publishers/ar-AA1xn2nQ)

Для улучшения качества саммаризации необходимо разработать адаптивные системы оценки. Такие системы могли бы учиться на основе обратной связи и корректировать свои метрики в зависимости от конкретных задач пользователя. Это позволит более точно оценивать качество саммаризации и улучшить ее соответствие потребностям различных пользователей.

Кроме того, стоит обратить внимание на создание адаптивных систем, способных автоматически корректировать стиль и формат саммаризации в зависимости от задачи. Например, для пользователей, которым требуется краткий обзор научной статьи, система могла бы генерировать более формальный и структурированный текст. Для пользователей, которые хотят получить общее представление о теме, система могла бы создавать более разговорный стиль саммаризации.

Таким образом, в дальнейшем необходимо сосредоточиться на разработке адаптивных метрик и систем оценки, которые бы учитывали контекст и цели пользователя. Это позволит повысить надежность и точность LLM для саммаризации текста в различных областях применения.

Заключение

Саммаризация текста с использованием LLM (Large Language Models) представляет собой мощный инструмент для обработки больших объемов информации. Однако оценка качества таких моделей остается сложной задачей, требующей дальнейшего исследования и разработки новых методов. Важно продолжать изучение различных подходов к саммаризации и метрик их оценки для обеспечения надежности и эффективности этих инструментов в разных областях применения.

Согласно недавнему исследованию, LLM такие как GPT-4o демонстрируют превосходные результаты по всем критериям оценки качества саммаризации: достоверность (faithfulness), полноте (completeness), лаконичности (conciseness), устойчивости к домену (domain stability) и абстрактности (abstractiveness). В частности, GPT-4o был признан лучшим общим саммаризатором среди всех протестированных моделей. Однако важно отметить, что не все LLM показывают одинаково высокие результаты: Claude2.1, например, отстает по показателям достоверности и устойчивости к домену.

Оценка качества саммаризации текста является одной из ключевых задач в области автоматической обработки естественного языка (NLP). Одним из наиболее распространенных метрик для оценки качества саммаризации является ROUGE Score, который измеряет степень перекрытия между сгенерированным саммари и исходным текстом. Однако этот подход имеет свои ограничения: он не всегда способен выявить фактические противоречия или ошибки в результате.

Для более глубокой оценки качества саммаризации недавно была разработана метрика G-Eval, которая использует мощь LLM для предоставления комплексной и узкоспециальной оценки текстовых задач. В частности, G-Eval считается одним из передовых методов оценки качества саммаризации на сегодняшний день. Однако важно отметить, что даже такие продвинутые метрики не могут полностью заменить человеческую экспертизу при оценке качества.

Важно продолжать изучение различных подходов к саммаризации текста. Например, методы экстрактивной и абстрактной саммаризации имеют свои специфические преимущества и недостатки. Экстрактивная саммаризация включает выбор важных предложений или фраз из исходного документа, что делает её быстрой и точной. Однако она может не уловить глубину понимания текста, которую способна передать абстрактная саммаризация.

Для обеспечения надежности и эффективности LLM в различных областях применения необходимо продолжать исследование новых подходов к оценке качества саммаризации. Например, важно учитывать такие аспекты качества, как: грамматическая правильность, плавность текста, покрытие ключевой информации и отсутствие фактических противоречий.

Таким образом, дальнейшее исследование и развитие методов оценки качества саммаризации текста с использованием LLM остается первостепенной задачей для обеспечения надежности и эффективности этих инструментов в различных областях применения.

Список источников:

1. "Requirements are All You Need: From Requirements to Code with LLMs"; Bingyang Wei; https://arxiv.org/pdf/2406.10101

2. "Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation"; Peng Shu∗1, Junhao Chen*1, Zhengliang Liu1, Hui Wang2, Zihao Wu1, Tianyang Zhong4, Yiwei Li1, Huaqin Zhao1, Hanqi Jiang1, Yi Pan1, Yifan Zhou1, Constance Owl3, Xiaoming Zhai5,6,7, Ninghao Liu1,5,6, Claudio Saunt3, and Tianming Liu†1,5,6; https://arxiv.org/pdf/2411.11295

3. "ER2SCORE: LLM-BASED EXPLAINABLE AND CUSTOMIZABLE METRIC FOR ASSESSING RADIOLOGY REPORTS WITH REWARD-CONTROL LOSS"; Yunyi Liu, Yingshu Li, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou; https://arxiv.org/pdf/2411.17301

4. "AI AND PERSONALIZED LEARNING: BRIDGING THE GAP WITH MODERN EDUCATIONAL GOALS"; Kristjan-Julius Laak, Jaan Aru; https://arxiv.org/pdf/2404.02798

5. "Towards Neural No-Resource Language Translation: A Comparative Evaluation of Approaches"; Madhavendra Thakur; https://arxiv.org/pdf/2412.20584

6. "Can large language models understand uncommon meanings of common words?"; Jinyang Wu, Feihu Che, Xinxin Zheng, Shuai Zhang, Ruihan Jin, Shuai Nie, Pengpeng Shao, Jianhua Tao; https://arxiv.org/pdf/2405.05741

7. "UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs"; Yuho Lee1,*, Taewon Yun1,∗, Jason Cai 2,† , Hang Su 2,†, Hwanjun Song 1‡; https://arxiv.org/pdf/2409.19898

8. "Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset"; Chongjian Yue2, *, Xinrun Xu 3, *, Xiaojun Ma 1, †, Lun Du 4, †, Zhiming Ding3, Shi Han 1, Dongmei Zhang 1, Qi Zhang 1; https://arxiv.org/pdf/2412.20072

9. "ImageMM: Joint multi-frame image restoration and super-resolution"; Yashil Sukurdeep, Tamás Budavári, Andrew J. Connolly, Fausto Navarro; https://arxiv.org/pdf/2501.03002

10. "Data Generation Using Large Language Models for Text Classification: An Empirical Case Study"; Yinheng Li, Rogerio Bonatti, Sara Abdali, Justin Wagle, Kazuhito Koishida; https://arxiv.org/pdf/2407.12813

11. "Fair Summarization: Bridging Quality and Diversity in Extractive Summaries"; Sina Bagheri Nezhad, Sayan Bandyapadhyay, Ameeta Agrawal; https://arxiv.org/pdf/2411.07521

12. "AutoSurvey: Large Language Models Can Automatically Write Surveys"; Yidong Wang1,2∗, Qi Guo2,3∗, Wenjin Yao2, Hongbo Zhang1, Xin Zhang4, Zhen Wu3, Meishan Zhang4, Xinyu Dai3, Min Zhang4, Qingsong Wen5, Wei Ye2†, Shikun Zhang2†, Yue Zhang1†; https://arxiv.org/pdf/2406.10252

13. "Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions"; Taojun Hu, Xiao-Hua Zhou; https://arxiv.org/pdf/2404.09135

14. "Large Language Models as Evaluators for Recommendation Explanations"; Xiaoyu Zhang, Yishan Li, Jiayin Wang, Bowen Sun, Weizhi Ma, Peijie Sun, Min Zhang; https://arxiv.org/pdf/2406.03248

15. "Large Language Model Based Multi-Agent System Augmented Complex Event Processing Pipeline for Internet of Multimedia Things"; Talha Zeeshan, Abhishek Kumar∗, Lauri Lovén, Susanna Pirttikangas, Sasu Tarkomia; https://arxiv.org/pdf/2501.00906

16. "Translating Legalese: Enhancing Public Understanding of Court Opinions with Legal Summarizers"; Elliott Ash1, Aniket Kesari2, Suresh Naidu3, Lena Song4, Dominik Stammbach1; https://arxiv.org/pdf/2311.06534v2

17. "ATSumm: Auxiliary information enhanced approach for abstractive disaster Tweet Summarization with sparse training data"; Piyush Kumar Garga, Roshni Chakraborty, Sourav Kumar Danda; https://arxiv.org/pdf/2405.06541

18. "Factual Consistency Evaluation of Summarisation in the Era of Large Language Models"; Zheheng Luo, Qianqian Xie, Sophia Ananiadou; https://arxiv.org/pdf/2402.13758

19. "OPEN-SOURCE LLMs FOR TEXT ANNOTATION: A PRACTICAL GUIDE FOR MODEL SETTING AND FINE-TUNING"; Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Mohammadmasiha Zahedivafa, Juan D. Bermeo, Maria Korobeynikova, Fabrizio Gilardi; https://arxiv.org/pdf/2307.02179v2

20. "Efficient course recommendations with T5-based ranking and summarization"; Thijmen Bijl1,2, Niels van Weeren 1 and Suzan Verberne 2; https://arxiv.org/pdf/2406.19018

21. "Personalized Summarization of Scientific Scholarly Texts"; Alka Khurana, Vasudha Bhatnagar, Vikas Kumar; https://arxiv.org/pdf/2306.09604v2

22. "A Survey of Imitation Learning Methods, Environments and Metrics"; NATHAN GAVENSKI, Felipe Meneguzzi, Michael Luck, Odinaldo Rodrigues; https://arxiv.org/pdf/2404.19456

23. "LCFO: Long Context and Long Form Output Dataset and Benchmarking"; Marta R. Costa-jussà, Pierre Andrews, Mariano Coria Meglioli, Joy Chen, Joe Chuang, David Dale, Christophe Ropers, Alexandre Mourachko, Eduardo Sánchez, Holger Schwenk, Tuan Tran, Arina Turkatenko, Carleigh Wood; https://arxiv.org/pdf/2412.08268

24. "Does spatio-temporal information benefit the video summarization task?"; 2RTL, Hilversum, the Netherlands; https://arxiv.org/pdf/2410.03323

25. "Source Code Summarization in the Era of Large Language Models"; Weisong Sun1,2, Yun Miao1, Yuekang Li3, Hongyu Zhang 4, Chunrong Fang 1, Yi Liu2, Gelei Deng 2, Yang Liu2, Zhenyu Chen 1; https://arxiv.org/pdf/2407.07959v1

26. "What makes a language easy to deep-learn? Deep neural networks and humans similarly benefit from compositional structure"; What makes a language easy to deep-learn? Deep neural networks and humans similarly benefit from compositional structure; https://arxiv.org/pdf/2302.12239v4

27. "Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts"; Wenyu Huang, Guancheng Zhou, Mirella Lapata, Pavlos Vougiouklis, Sebastien Montelle, Jeff Z. Pan; https://arxiv.org/pdf/2405.06524

28. "A Survey on Large Language Model-based Agents for Statistics and Data Science"; Maojun Suna, Ruijian Hana, Binyan Jianga, Houduo Qia,b, Defeng Sunb, Yancheng Yuana∗ and Jian Huanga,b∗; https://arxiv.org/pdf/2412.14222

29. "Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks"; Yang Yang, Hongpeng Pan, Qing-Yuan Jiang, Yi Xu, and Jinghui Tang; https://arxiv.org/pdf/2404.08347

30. "On the Limitations of Large Language Models (LLMs): False Attribution"; Tosin Adewumi, Nudrat Habib, Lama Alkhaled & Elisa Barney; https://arxiv.org/pdf/2404.04631v1

31. "G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o"; Tony Cheng Tong1*, Sirui He2*, Zhiwen Shao1,3†, Dit-Yan Yeung1†; https://arxiv.org/pdf/2412.13647

32. "AI-powered Code Review with LLMs: Early Results"; Zeeshan Rasheed1,*,†, Malik Abdul Sami 2,†, Muhammad Waseem 3,†, Kai-Kristian Kemell4,†, Xiaofeng Wang 5,†, Anh Nguyen 6,†, Kari Systä 7,† and Pekka Abrahamsson8,†; https://arxiv.org/pdf/2404.18496

33. "Search-Based LLMs for Code Optimization"; Shuzheng Gao1, Cuiyun Gao 2∗, Wenchao Gu1, Michael R. Lyu 1; https://arxiv.org/pdf/2408.12159

34. "FineSurE: Fine-grained Summarization Evaluation using LLMs"; Hwanjun Song1∗, Hang Su2,†, Igor Shalyminov2,†, Jason Cai2,†, Saab Mansour2,†; https://arxiv.org/pdf/2407.00908

1
Начать дискуссию