Мы не попугаи, а чат-бот – не человек. Лингвист Emily M. Bender: что будет, если мы забудем об этом

Elizabeth Weil, колумнист New York Magazine, изучила идеи Emily M. Bender, лингвиста из Университета Вашингтон со степенью доктора Стэнфордского университета. Emily известна своим критичным отношением к всеобщему хайпу и повсеместному использованию технологий ИИ. Emily - автор известного в узком кругу компьютерных лингвистов рассказа про осьминога и автор термина «стохастический попугай». Именно Emily написала известную работу On the Dangers of Stochastic Parrots с двумя со-авторами, которые после этого потеряли работу в Google. Один из ее со-авторов- известный инженер Google - Timnit Gebru. Emily побуждает задуматься о больших языковых моделях (LLMs), которые использует в том числе ChatGPT, с точки зрения смысла содержания продуцируемых этими моделями текстов. Она сравнивает попытки LLMs построить содержательный разговор с человеком с попытками осьминога притвориться человеком, так как он научился мимикрировать ответы на типичные фразы. По мысли Emily языковые модели не «задумываются над смыслом», вернее, он им не доступен, поэтому то, что они выдают, профессор Harry Frankfurt называет «чушью». Emily напоминает, что человеческий язык связан с реальным миром вещей, но тренируя модели на миллиардах слов, не получается создать смысл речи.

Разумеется, у Emily есть оппоненты. Профессор Christopher Manning, считает, что языку не нужно ни на что ссылаться за пределами языка. Поэтому нет связи языка с реальным миром, а обученные на миллиардах слов языковые модели производят контент, аналогичный человеку. Профессор Manning является основателем венчурной компании, вкладывающейся в ИИ стартапы. Вероятно поэтому на конференции Emily и Christopher так по-разному видят ответ на вопрос: кому должны служить технологии и какой вред они могут принести обществу? Вкладывая деньги в стартапы, профессор Manning, считает, что не стоит останавливать развитие NLP. Emily- за взвешенный подход: технология NLP должна помогать человеку взаимодействовать с ней, а не заменять и создавать искусственных людей, мимикрирующих под настоящих. Общество, где человек живет рядом с искусственными людьми, которых он не может отличить от настоящего человека, перестанет быть обществом. Elizabeth приводит суровые рекомендации философа Daniel Dennett: Создатели искусственных людей «должны нести ответственность. Искусственные люди угрожают стабильности и безопасности общества. К таким технологиям стоит относится также серьезно, как к созданию биологического или атомного оружия. Людям нужны умные машины, а не искусственные работники».

Emily знает, что она не стартапер, привлекающий триллион долларов на новую технологию LLMs. Она также знает, что LLMs – инструмент, созданный специфичной группой людей – тех, кто хочет аккумулировать огромные деньги и власть, тех, кто очарован идеей сингулярности. Проект «искусственного человека» угрожает нарушить баланс смысла того, что есть человек.

Никто не любит фразу «я же говорил». До того, как поисковик Bing от Microsoft стал выдавать жутковатые любовные письма, языковая модель Galactica от Meta стала выдавать расистские шутки, а ChatGPT начал писать безупречные эссе, и некоторые профессора заявили: «я просто не буду это оценивать», до того, как колумнисты по техно темам бросились опровергать, что будущее поиска - это ИИ, лингвист Emily M. Bender стала со-автором статьи про осьминога.

Emily M. Bender – компьютерный лингвист в Университете Вашингтон. Она опубликовала свою работу в 2020 году с коллегой Alexander Koller. Цель статьи – показать, что большие языковые модели или LLM (large language model)- именно их используют такие программы как ChatGPT – могут и чего им не дано.

Итак, какой кейс взяла Emily:

Предположим, что человек A и B оказались на необитаемом острове. Они оба свободно говорят по-английски. Вскоре они выясняют, что предыдущие гости острова оставили телеграф, и они могут общаться друг с другом по беспроводному кабелю. A и B начинают радостно печатать друг другу сообщения.

Осьминог О не может попасть на остров, но подключился к кабелю под водой и читает сообщения A и B. О ничего не знает про английский, но прекрасно определяет паттерны и статистические зависимости. Со временем О учится предсказывать с большой точностью, как В отвечает на сообщения от А.

Вскоре, осьминог вступает в разговор и выдает себя за B и отвечает на сообщения А. Какое-то время это работает, и А верит, что он общается с В. Однажды А пишет: «На меня напал разъярённый медведь. Как мне защитить себя? У меня есть несколько палок». Осьминог, выдающий себя за В, не может помочь А. Как он может помочь? Осьминог не имеет понятия, что такое медведь и что такое палки. Он не может дать правильные указания А, например: возьми несколько кокосов, палку и сделай катапульту. А – в беде и чувствует себя одураченным. Осьминог разоблачен, он -мошенник, выдающий себя за человека В.

Работа Emily называется «Пытаясь разобраться в НЛП: смысл, форма, понимание в эпоху данных» (“Climbing Towards NLU: On Meaning, Form, and Understanding in the Age of Data.”). НЛП – это понимание естественного языка. Как мы должны понимать слова, похожие на то, что их сказал/написал человек, но автор их - LLM? Языковая модель базируется на статистике. Модель ищет паттерны в огромных объемах текста и пытается предсказать, какое следующее слово в ряде слов будет адекватным. Языковые модели умеют потрясающе мимикрировать и совсем неспособны оперировать фактами. Почему так? LLMs, как и осьминог, не имеет доступа к реальной жизни, к настоящим источникам информации. Это делает LLMs заманчивыми, и даже аморальными. Они становятся этаким платоновским идеальным «рупором чуши», как их определил философ Harry Frankfurt, автор On Bullshit. Как считает Harry, «рупоры чуши» еще хуже, чем просто вруны. Им вообще все равно, является ли то, что они выдают правдой или ложью. Они волнуются только о риторической силе – удалось им убедить слушателя или нет.

Emily M. Bender – 49 лет, она неприхотлива, стилистически практичный человек. За последние несколько лет она начала преподавать на программе магистров по компьютерной лингвистике в Университете Вашингтона. Emily – именно тот человек, который говорил: нет, использовать LLM для редактирования отчета Мюллера, LLM не может давать показания в Сенате; нет, чатбот не может «понимать другого человека достаточно точно, как человек».

Emily закончила UC Berkeley, и в 2020 году она получила Ph.D. по лингвистике в Stanford.

Техно специалисты, считающие, что реальный мир аналогичен миру в их голове, создают много сложных ситуаций.

Считается, что данные, на которых тренировалась ChatGPT, включают в себя все страницы Wikipedia, страницы Reddit и миллиарды слов из интернета. Однако этого просто не может быть, так как, например, электронные книги из библиотеки Stanford защищены от копирования законом об авторских правах. Многие технические специалисты, написавшие ChatGPT, - в основном белые люди, мужчины, богатые. Они не являются репрезентативной выборкой. Плюс, стоит вспомнить, что интернет наполнен радикальными идеями: расизм, сексизм, гомофобия, исламофобия и неонацизм.

Техно компании прилагают усилия «почистить» свои модели, часто просто фильтруя тексты на слова из таких списков как «список самых непристойных слов». Этот список создан разработчиками стока Shutterstock и загружен в GitHub. Далее список был получен после фильтровки гиг-работниками из Кении (получающими $2 в час). Они отвечали на вопрос: «Что это может означать?». Отвечали они согласно своим представлениям, что такое педофилия, зоофилия и другие ужасные вещи. Любая фильтрация приводит к некоторым нюансам. Если вы удаляете весь контент со словом «секс», то вы теряете весь смысл того, о чем говорят в группе.

Многие эксперты в техно индустрии не хотят говорить об этом, чтобы не рисковать работой. Один из уволенных сотрудников Google рассказал, что успех в техно отрасли зависит от того, насколько ты «умеешь держать язык за зубами относительно того, что тебя волнует». Иначе ты становишься проблемой.

Emily не боится, у нее есть чувство моральной ответственности.

Осьминог - не самое известное мифическое животное в резюме Emily. Главная роль принадлежит стохастическому попугаю.

Стохастический имеет несколько значений: 1) случайный, 2) вероятностный, определенный случайно. Стохастический попугай (выдумка Emily) – это сущность, «предназначенная для бессистемного связывания между собой последовательных лингвистических выражений….на основе вероятности, что они между собой связаны, но без привязки к смыслу».

В марте 2021 года Emily опубликовала работу с тремя со-авторами, озаглавленную «Об опасностях стохастического попугая: могут ли лингвистические модели быть слишком большими?» («On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?»). После публикации книги два ее со-автора- женщины, сразу потеряли работу. Они работали в команде этического ИИ в Google. Полемика вокруг стохастического попугая прибавила Emily репутации противника широкого распространения ИИ.

“On the Dangers of Stochastic Parrots” – это не исследование. Это синтез критики LLM, причем не только от Emily, но и других экспертов: ошибка предубеждения в моделях; невозможность изучить данные, на которых было произведено обучение, принимая во внимание тот факт, что данные могут содержать миллиарды слов; влияние на окружающую среду; проблемы с использованием языковых выражений, которые корректны только в конкретный момент времени, и отсутствие обновления языковых выражений. Google изначально согласовал эту работу, разрешив публикацию от имени сотрудников.

Потом компания потребовала от сотрудников Google убрать их имена. Timnit Gebru отказалась. Ее коллега и бывшая студентка Emily - Margaret Mitchell- изменила имя на обложке на Shmargaret Shmitchell. Timnit Gebru потеряла работу в декабре 2020 года, Margaret – в феврале 2021г. Обе бывшие сотрудницы посчитали это местью Google и опубликовали свою историю в СМИ. Работа про стохастического попугая стала вирусной, по крайней мере в академических кругах. Фраза «стохастический попугай» вошла в технологический лексикон.

Однако стохастический попугай стал использоваться не совсем так, как задумала Emily. Лидеры техно отрасли полюбили этот термин. Sam Altman, CEO OpenAI, поклонник сингулярности, верит, что в будущем исчезнет граница между человеком и машиной. В 2017 году Sam Altman писал: «Это произойдет раньше, чем многие думают. Количество умных людей, работающих над ИИ, увеличивается в геометрической прогрессии».

4 декабря, четыре дня спустя после представления ChatGPT , Sam Altman сделал твит: «я - стохастический попугай, и ты тоже».

Миллионы людей оформили эккаунт, чтобы тестировать ChatGPT, в первые пять дней. Писать больше не нужно! И получать знания тоже!

Sam Altman был обеспокоен «случайным злоупотреблением программы, и это не совсем тот страх, что ИИ проснется и станет злым».

Emily, собственно, не обрадовалась твиту Altman про стохастического попугая. Мы не попугаи. Мы не просто выплевываем слова. Emily: «Забавно слушать, когда очень часто высказываются в таком стиле. Люди говорят: «мы, люди, просто стохастические попугаи». Люди так хотят верить, что эти лингвистические модели действительно интеллектуальны, что готовы обесценить все, что может сделать языковая модель».

Некоторые считают, что можно сопоставить технологии, которые мы знаем на данный момент, с основами лингвистики – и готово. Идеологический противник Emily - компьютерный лингвист Christopher Manning, считает, что языку не нужно ни на что ссылаться за пределами языка. Christopher Manning, – профессор по машинному обучению, лингвистике и компьютерным наукам в Stanford. Он преподает на курсе НЛП, который посещают 650 студентов за семестр. Он -директор Лаборатории ИИ в Stanford и партнер венчурной компании AIX Ventures.

Основные разногласия между Emily и Christopher в том, как создается смысл. Это из работы Emily про осьминога. Философы и лингвисты согласны с Emily: референсы, конкретные вещи и идеи в реальном мире, например, кокос и разбитое сердце, нужны для создания смысла. Christopher считает такой подход устаревшим.

Christopher Manning: «Я не хочу сказать, что это совершенно ложная идея в семантике». Он ратует за «широкое понимание смысла». В своей последней работе он предложил термин «дистрибутивная семантика». «Смысл слов – это просто описание контекста, в котором слово появляется».

С точки зрения дистрибутивной семантики LLMs -не осьминоги. Стохастический попугай - не просто повторяет бездумно слова. Дистрибутивная семантика не требует сопоставлять слова с внешним миром. LLM обрабатывает миллиарды слов. Технология возвещает то, что назвали «фазовым сдвигом». Christopher Manning: «Люди придумали обработку металла. Это было потрясающе. Потом придумали, как использовать силу пара. Такая же история с языком. LLMs достаточно революционны, чтобы изменить наше представление о языке. LLMs -это манифест».

В июле 2022 года Emily и Christopher были приглашены на конференцию по языковым моделям. Сначала они спорили про семантику, но в конце был совсем другой спор. Они отвечали на вопросы: зачем мы создаем эти машины? Кому они должны служить? Christopher инвестирует в проект LLMs с помощью своего венчурного фонда. У Emily нет финансового интереса. Ей легче взвешенно и осторожно подходить к запуску таких моделей. Легче задавать вопросы, как эта технология будет влиять на людей, и в каких случаях влияние будет негативным. Emily: «Я вижу, что очень много усилий уходит на создание автономных машин. Хотя стоит пытаться создавать машины, которые станут эффективным инструментом для человека».

Christopher не считает правильным сдерживать развитие языковых моделей. Он предпочитает любимый аргумент альтруистов ИИ: если этого не сделаем мы, то это сделает кто-то другой, и сделает это плохо, так как «другие игроки не связаны моральными обязательствами».

Тем не менее Christopher не особо верит, что техно компании будут сами себя регулировать и придерживаться принципов этического ИИ. Он считает, что Китай сделал больше для контроля ИИ, чем США.

На конференции в Торонто Emily делала доклад с названием «Сопротивляясь дегуманизации в эпоху ИИ». Она называет дегуманизацией «когнитивное состояние, когда кто-то неспособен воспринимать человека как человека и опыт, когда тот – другой, не понимает твоих человеческих переживаний».

Многие считают, что человек как вид, не есть что-то особенное. Человек нуждается в смирении. Деревья, минералы, вода, животные атомы -тоже имеют значение.

Однако путь от языковой модели до экзистенционального кризиса довольно короток. Joseph Weizenbaum создал ELIZA в 1966 году, и он сожалел о своем изобретении до конца своей жизни. Joseph писал: «Технология поднимает вопрос о месте человека во Вселенной. Неудивительно, что человек, который каждый день живет бок о бок с машинами, которых он считает рабами, начинает думать, что люди - машины».

Daniel Dennett, философ: мы не можем жить с теми, кого считаем «фейковыми» людьми. «Фальшивые деньги наносят урон обществу с того момента, как появились деньги. Наказание за них включало даже смертную казнь. Фейковые люди - это тоже серьезная проблема».

Искусственные люди всегда будут иметь меньшую ценность, чем настоящий человек. Причем причина - физическая, ведь искусственный человек -бессмертен.

Daniel Dennett: необходимо ввести строгую ответственность за создание технологии. Создатели искусственных людей «должны нести ответственность. На них стоит подать в суд. Они должны публично заявить, если они произведут что-то для создания искусственных людей, то им грозит ответственность. Это на грани. Искусственные люди угрожают стабильности и безопасности общества. К таким технологиям стоит относится также серьезно, как к созданию биологического или атомного оружия. Людям нужны умные машины, а не искусственные работники».

Человек теряет тех, кого любит. Он страдает и горюет. Его тело порой отказывается ему служить. Мы хотим настоящих вещей, настоящих людей, и мы не можем контролировать.

Emily знает, что она не стартапер, привлекший триллион долларов. Она и не стремится им быть. Другие пытаются стать им. LLMs – инструмент, созданный специфичной группой людей – тех, кто хочет аккумулировать огромные деньги и власть, тех, кто очарован идеей сингулярности. Проект угрожает нарушить баланс смысла того, что есть человек. И дело тут не в смирении человека как вида. И дело даже не в нас всех. Речь идет о том, что некоторые из нас хотят стать надвидом (superspecies). Это дорога туда, где мы потеряем идею, что все люди равны.

Judith Butler, управляющий директор в UC Berkeley: «В мечте об искусственном интеллекте проявляется нарциссизм. Создатели ИИ собираются доказать, что все то, чего достиг человек, не так уж значимо, и машины сделают это лучше. Или что человеческий потенциал лучше реализуется с ИИ, чем без него».

Мечта об ИИ «управляется теориями совершенства, оторванного от тела. «Некоторые могут сказать: Здорово! Это круто! Давайте развенчаем романтические и антропоцентрические идеи. Но фишка в том, что живет в нашем языке, живет и в наших эмоциях, любви».

Elizabeth Conrad, аспирант NLP, ученица Emily: «Мы хотим создать инструмент с применением естественного языка, с которым человеку легко взаимодействовать, а не инструмент, который будет мимикрировать под человека».

Размытие границ опасно. Общество с фейковыми людьми, которых мы не сможем отличить от настоящего человека, перестанет быть обществом. Мы не можем допустить, чтобы лидеры техно отрасли называли себя «стохастическим попугаем». Это не здорово принимать идеи, что надо отделить «человека как биологическую категорию от человека как личности или сущности, достойной уважения». Иначе у нас появится мир, в котором взрослые люди будут считать вас не человеком.

Ссылка на статью: https://nymag.com/intelligencer/article/ai-artificial-intelligence-chatbots-emily-m-bender.html