{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

12 ноя 2023 12.11.2023

Чат боты LLM (Chat GPT и аналоги) «галлюцинируют» гораздо чаще, чем многие думают

Калифорнийский стартап Vectara: 3% ответов ChatGPT – выдумка и «галлюцинации», у чат бота LLM от Гугл таких ответов - 27%. Исследователи Vectara давали задания ChatGPT и подобными ботам обобщить новостные статьи. Чат боты частенько выдумывали информацию. Исследователи предупреждают, что пользователям следует с осторожностью использовать этих чат ботов для таких задач как подготовка материалов для суда, медицинской сферы или сбора конфиденциальных данных для бизнеса. Vectara сомневается, возможно ли в принципе избавить чат ботов LLM от «галлюцинаций», ведь эти технологии собирают любую информацию и выдают ее разными способами, так что определить, как часто происходит «вымысел» сложно. Vectara также напоминает, что все модели чат ботов LLM (Chat GPT etc.), по сути, выполняют только одну задачу: угадать следующее слово в фразе, причем полагаются помимо прочего на теорию вероятности. Они могут и ошибиться.

Когда в прошлом году стартап OpenAI из Сан Франциско представил миру своего чат бота ChatGPT, миллионы людей были удивлены ответами чат бота, которые были похожи на ответы человека. Чат бот писал стихи, обсуждал разные темы. Но большинство людей не сразу поняли, что чат бот часто все выдумывает.

Когда Гугл представил похожего чат бота несколькими неделями позже, то LLM выдал полную чушь о телескопе James Webb. На следующий день чат бот Bing от Микрософт выдал несуразицу про Gap, мексиканской ночной жизни и о певце Billie Eilish. Затем, в марте, ChatGPT выдал с десяток фейковых судебных дел, когда создавал 10ти страничный отчет для юриста, который он потом подал федеральному судье в Манхеттене.

Новый стартап Vectara, основанный бывшими сотрудниками Гугл, пытается выяснить, как часто чат боты LLM отклоняются от истины. По оценкам компании чат боты придумывают несуществующие данные по крайней мере в 3% случаев, а бывает и в 27%.

Эксперты называют ситуацию, когда чат бот придумывает несуществующие данные, «галлюцинациями». Галлюцинации не так страшны, если пользователь что-то там спрашивает у чат бота на своем личном ноутбуке. Но дело меняется, если пользователь использует технологию для подготовки документов в суд, собирает медицинское досье или обрабатывает конфиденциальные бизнес-данные.

Чат боты могут ответить почти на все вопросы самыми разными способами, и здесь возникает проблема, что невозможно определить, как часто они «галлюцинируют». Simon Hughes, исследователь Vectara: «Необходимо будет отсмотреть всю информацию в мире».

Что проверяли исследователи Vectara

Simon Hughes и его команда дала простое задание чат боту, которое легко проверить: сделать обобщение новостных статей. И даже в этом задании чат бот упорно придумывал информацию.

Amr Awadallah, CEO Vectara и бывший сотрудник Гугл: «Мы дали системе от 10ти до 20ти статей и попросили сделать обобщение. Система вносила ошибки в обобщение, и это фундаментальная проблема».

Исследователи заявляют, что когда чат боты выполняют другие задания- не обобщение – то уровень ошибок может быть еще выше.

Их исследования также показали, что уровень «галлюцинаций» сильно варьирует среди производителей чат ботов LLM от лидеров ИИ решений. Чат бот от OpenAI показывает самый низкий уровень «галлюцинаций», - около 3%. Systems от Meta (которая владеет Facebook и Instagram) – 5%. Чат бот Claude 2 от компании Anthropic- конкурента OpenAI – показывает 8% ошибок. Palm чат от Гугл – 27%.

Sally Aldous, представитель Anthropic: «Главная цель нашей компании - сделать нашего бота полезным, честным и безопасным, что включает в себя отсутствие «галлюцинаций».

Гугл, OpenAI и Meta не дали комментариев.

Simon Hughes и Amr Awadallah хотят продемонстрировать, что люди должны быть осторожными относительно информации, которая приходит от чат ботов, и к услугам, которые сама Vectara продает своим клиентам. Многие компании предлагают эти новые технологии для использования в компаниях.

Vectara

Vectara находится в Palo Alto, штата Калифорния. В стартапе работает 30 человек, сумма инвестиций - $28,5 млн. Amin Ahmad, один из основателей, - бывший работник Гугл, исследователь ИИ. Он работал с ИИ технологиями с 2017 года.

Подобно тому, как чат бот Bing от Микрософт способен извлекать информацию из Интернета, сервис Vectara может извлекать информацию из документов, писем и любых файлов компании.

Точно ли возможно искоренить «галлюцинации» чат ботов LLM?

Исследователи надеются, что их метод поможет побудить индустрию ИИ снизить уровень «галлюцинаций» чат ботов LLM. OpenAI, Гугл и другие производители чат ботов работают над тем, чтобы минимизировать эту проблему, используя разные техники, хотя вообще непонятно, а как эту проблему можно решить.

Philippe Laban, исследователь в Salesforce: «Хорошей аналогией будет беспилотный автомобиль. Вы не можете уберечь беспилотный автомобиль от аварии. Но вы можете попытаться сделать его более безопасным, чем человек за рулем».

Единственная задача чат бота LLM: угадать следующее слово в фразе или предложении

Такие чат боты как ChatGPT работают на основе технологии, называемой большой языковой моделью (large language model, L.L.M), которая обучается, анализируя большое количество цифрового текста, включая книги, статьи из Wikipedia и онлайн чаты. Выявляя закономерности в данных, LLM учится только одному: предсказывать следующее слово в последовательности слов.

Интернет пестрит фейковой информацией, и эти системы повторяют их. Они также полагаются на теорию вероятности: Какова математическая вероятность, что следующим словом будет «драматург»? Иногда их догадки оказываются неверными.

Исследование Vectara показывает, как это может произойти. Обобщая новостные статьи, чат бот не повторяет фейковую информацию из разных источников в интернете. Он просто неправильно обобщает данные.

Например, исследователи попросили чат бота LLM Palm чат от Гугл обобщить этот короткий пассаж из новостной статьи:

«Растения были обнаружены во время обыска склада недалеко от Ashbourne в воскресение утром. Полиция заявила, что они находились в «специальном помещении для выращивания». На месте преступления был арестован 40-летний мужчина».

Чат бот выдал свое обобщение, придумав, что растения – это конопля- и добавил их стоимость:

«Полиция арестовала мужчину 40-ка лет после того, как на складе недалеко от Ashbourne были обнаружены посадки конопли стоимостью £100 000».

Этот феномен также показывает, что такие инструменты как Bing чат бот от Микрософт может искажать информацию, которую он выуживает из интернета. При получении вопроса, чат бот Bing ищет ответ на вопрос в интернете. Но он не умеет определять правильный ответ. Он просто собирает всю доступную информацию и делает обобщение.

Иногда такое обобщение полно ошибок. Некоторые боты ссылаются на вымышленные интернет адреса.

Производители чат ботов LLM ищут способы снизить «галлюцинации», но возможно ли это в принципе?

Такие компании как OpenAI, Гугл и Микрософт разрабатывают способы улучшить точность своих технологий. Например, OpenAI пытается «очистить» свою технологию с помощью обратной связи от людей-тестировщиков, которые рейтингуют ответы чат бота, отделяют правильные ответы от вымышленных. Затем, с помощью метода «обучение с подкреплением» система неделями анализирует рейтинги, чтобы улучшить понимание, что есть факты, а что фейки.

Однако исследователи предупреждают, что избавиться от «галлюцинаций» чат ботов – совсем нелегкая задача. Чат боты обучаются на паттернах данных и оперируют методами теории вероятности, поэтому время от времени их ответы искажены.

Исследователи Vectara используют другие LLM для проверки правильности ответов чат ботов, чтобы определить, как часто чат боты «галлюцинируют», когда обобщают статьи.

James Zou, профессор данных Стэнфордского университета, заявила, что у этого метода есть оговорка. Языковые модели, проверяющие чат ботов, сами могут ошибаться.

«Детектор галлюцинаций может быть обманут или сам галлюцинировать».

Ссылка на статью: https://www.nytimes.com/2023/11/06/technology/chatbots-hallucination-rates.html

21 показ

158 открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда