ChatGPT — это размытый JPEG Интернета

Когда я увидел заголовок “ChatGPT is a blurry JPEG of the Web”, я подумал, что это какое-то небрежное замечание. Но нет, это замечательное эссе исследует чат-ботов через призму алгоритмов сжатия изображений с потерями, и в нем есть здравый смысл. Его автор Ted Chiang четырежды лауреат премий «Небьюла», «Хьюго» и «Локус». Он также написал короткий рассказ по которому сняли фильм "Прибытие".

ChatGPT — это размытый JPEG Интернета

В 2013 году рабочие немецкой строительной компании заметили нечто странное в своем копировальном аппарате Xerox: когда они делали копию плана дома, она незначительно, но в тоже время существенно отличалась от оригинала. На первоначальном плане этажа каждая из трех комнат дома сопровождалась прямоугольником, указывающим ее площадь: комнаты были 14, 13, 21, 11 и 17, 42 квадратных метра соответственно. Однако на фотокопии все три комнаты были обозначены площадью 14, 13 квадратных метров.

Компания связалась с ученым-компьютерщиком Дэвидом Криселом, чтобы исследовать этот, казалось бы, невероятный результат. Им нужен был ученый-компьютерщик, потому что современный фотокопировальный аппарат Xerox не использует физический ксерографический процесс. Вместо этого он сканирует документ в цифровом виде, а затем распечатывает полученный файл изображения. Добавьте к этому тот факт, что практически каждый файл цифрового изображения сжимается для экономии места, и разгадка начинает предлагаться сама собой.

Сжатие файла требует двух шагов: во-первых, кодирование, во время которого файл преобразуется в более компактный формат, а затем декодирование, при котором происходит обратный процесс. Если восстановленный файл идентичен оригиналу, то процесс сжатия описывается как без потерь: никакая информация не была удалена. Напротив, если восстановленный файл является лишь приближением к оригиналу, сжатие описывается как сжатие с потерями: некоторая информация была отброшена и теперь не может быть восстановлена. Сжатие без потерь — это то, что обычно используется для текстовых файлов и компьютерных программ, потому что это области, в которых даже один неверный символ может иметь катастрофические последствия.

Сжатие с потерями часто используется для фотографий, аудио и видео в ситуациях, когда абсолютная точность не важна. Большую часть времени мы не замечаем, если картинка, песня, или фильм не воспроизводится идеально. Потеря точности становится более заметной только при очень сильном сжатии файлов. В таких случаях мы замечаем так называемые "следы" сжатия: нечеткость мельчайших изображения jpeg и mpeg или металлический звук MP3 с низким битрейтом.

Фотокопировальные устройства Xerox используют формат сжатия с потерями, известный как jbig2, предназначенный для использования с черно-белыми изображениями. Для экономии места копировальный аппарат идентифицирует на изображении похожие области и сохраняет одну копию для всех из них; когда файл распаковывается, он повторно использует эту копию для восстановления изображения. Выяснилось, что фотокопировальный аппарат счел метки, определяющие площадь комнат, достаточно похожими, поэтому ему нужно было сохранить только одну из них — 14, 13 — и повторно использовал ее для всех трех комнат при печати плана этажа.Тот факт, что фотокопировальные устройства Xerox используют формат сжатия с потерями вместо формата без потерь, сам по себе не является проблемой. Проблема в том, что копировальные аппараты искажали изображение таким способом, в котором следы сжатия не были сразу распознаны. Если бы фотокопировальный аппарат просто производил размытые распечатки, все бы знали, что они не являются точными копиями оригиналов. Что привело к проблемам, так это тот факт, что фотокопировальный аппарат производил числа, которые были читаемыми, но неправильными; из-за этого копии кажутся точными, хотя на самом деле это не так. (В 2014 году Xerox выпустила исправление для исправления этой проблемы).

Я думаю, что этот инцидент с копировальным аппаратом Xerox стоит помнить сегодня, когда мы рассматриваем OpenAI ChatGPT и другие подобные программы, которые исследователи ИИ называют большими языковыми моделями. Сходство между копировальным аппаратом и большой языковой моделью может быть не сразу очевидным, но рассмотрим следующий сценарий.

Представьте, что вы вот-вот потеряете доступ к Интернету навсегда. При подготовке вы планируете создать сжатую копию всего текста в Интернете, чтобы хранить ее на частном сервере. К сожалению, на вашем частном сервере есть только один процент необходимого места; вы не можете использовать алгоритм сжатия без потерь, если хотите, чтобы все поместилось. Вместо этого вы пишете алгоритм с потерями, который выявляет статистические закономерности в тексте и сохраняет их в специализированном формате файла. Поскольку у вас есть практически неограниченная вычислительная мощность для решения этой задачи, ваш алгоритм может идентифицировать необычайно тонкие статистические закономерности.

Теперь потеря доступа к Интернету не так уж и ужасна; у вас есть вся информация в Интернете, хранящаяся на вашем сервере. Единственная загвоздка в том, что, поскольку текст был настолько сильно сжат, вы не можете искать информацию, ища точную цитату; вы никогда не получите точного совпадения, потому что хранятся не слова. Чтобы решить эту проблему, вы создаете интерфейс, который принимает запросы в форме вопросов и отвечает ответами, которые передают суть того, что у вас есть на вашем сервере.

То, что я описал, очень похоже на ChatGPT или любую другую большую языковую модель. Думайте о ChatGPT как о размытом jpeg -файле всего текста в Интернете. Он сохраняет большую часть информации из Интернета точно так же, как jpeg сохраняет большую часть информации изображения с более высоким разрешением, но если вы ищете точную последовательность битов, вы ее не найдете; все, что вы когда-либо получите, это приближенный вариант. Но, поскольку приближенный вариант представлено в виде грамматического текста, который ChatGPT создает превосходно, обычно это приемлемо. Вы по-прежнему смотрите на размытый jpeg, но размытость возникает таким образом, что изображение в целом не выглядит менее четким.

Эта аналогия со сжатием с потерями — не просто способ понять способность ChatGPT переупаковывать информацию, найденную в Интернете, с использованием других слов. Это также способ понять «галлюцинации» или бессмысленные ответы на фактические вопросы, которым слишком подвержены большие языковые модели, такие как ChatGPT. Эти галлюцинации являются следами сжатия, но, как и неправильные метки, сгенерированные фотокопировальным аппаратом Xerox, они достаточно правдоподобны, чтобы их идентифицировать, нужно сравнивать их с оригиналами, что в данном случае означает либо Интернет, либо наши собственные знания о мире.

Когда мы думаем о них таким образом, такие галлюцинации совсем не удивительны; если алгоритм сжатия предназначен для восстановления текста после того, как было отброшено девяносто девять процентов оригинала. Эта аналогия становится еще более понятной, если мы вспомним, что распространенным методом, используемым алгоритмами сжатия с потерями, является интерполяция, то есть оценка того, чего не хватает, глядя на то, что находится по обе стороны от разрыва. Когда программа обработки изображений отображает фотографию и должна восстановить пиксель, потерянный в процессе сжатия, она просматривает соседние пиксели и вычисляет среднее значение. Это то, что делает ChatGPT, когда ему предлагается описать, скажем, потерю носка в сушилке, используя стиль "Декларации независимости": он берет две точки в «лексическом пространстве» и генерирует текст, который будет занимать место между ними. («Когда в ходе человеческих событий человеку становится необходимо отделить свою одежду от другой, чтобы поддерживать ее чистоту и порядок")

Учитывая, что большие языковые модели, такие как ChatGPT, часто превозносятся как передовые технологии искусственного интеллекта, описание их как алгоритмов сжатия текста с потерями может показаться пренебрежительным или, по крайней мере, обесценивающим. Я действительно думаю, что эта точка зрения предлагает полезную корректировку тенденции антропоморфизировать большие языковые модели, но есть еще один аспект аналогии со сжатием, который стоит рассмотреть. С 2006 года исследователь ИИ по имени Маркус Хаттер предлагает денежное вознаграждение, известное как "Премия за сжатие человеческих знаний" или "Премия Хаттера", всем, кто сможет без потерь сжать конкретный гигабайтный снимок Википедии, меньше, чем у предыдущего призера. Вы, вероятно, сталкивались с файлами, сжатыми с использованием формата zip. Формат zip уменьшает гигабайтный файл Хаттера примерно до трехсот мегабайт; последнему призеру удалось уменьшить его до ста пятнадцати мегабайт. Хаттер считает, что лучшее сжатие текста будет способствовать созданию искусственного интеллекта человеческого уровня, отчасти потому, что наибольшая степень сжатия может быть достигнута путем понимания текста.

Чтобы понять предлагаемую связь между сжатием и пониманием, представьте, что у вас есть текстовый файл, содержащий миллион примеров сложения, вычитания, умножения и деления. Хотя любой алгоритм сжатия может уменьшить размер этого файла, способ достижения наибольшей степени сжатия, вероятно, состоит в том, чтобы вывести принципы арифметики, а затем написать код для программы-калькулятора. С помощью калькулятора вы могли бы идеально реконструировать не только миллион примеров в файле, но и любой другой пример арифметики, с которым вы можете столкнуться в будущем. Та же логика применима к проблеме сжатия фрагмента Википедии. Если программа сжатия знает, что сила равна массе, умноженной на ускорение, она может отбросить много слов при сжатии страниц о физике, потому что сможет их восстановить. Точно так же, чем больше программа знает о спросе и предложении, тем больше слов она может отбросить при сжатии страниц, посвященных экономике и тд.

Большие языковые модели выявляют статистические закономерности в тексте. Любой анализ текста в Интернете покажет, что фразы типа «предложение низкое» часто появляются в непосредственной близости от фраз типа «цены растут». Чат-бот, учитывающий эту корреляцию, может на вопрос о влиянии нехватки предложения ответить о росте цен. Если большая языковая модель собрала огромное количество корреляций между экономическими терминами — так много, что может предложить правдоподобные ответы на самые разные вопросы, — должны ли мы сказать, что она действительно понимает экономическую теорию? Такие модели, как ChatGPT, не могут претендовать на премию Хаттера по целому ряду причин, одна из которых заключается в том, что они не реконструируют исходный текст точно, т. е. не выполняют сжатие без потерь.

Вернемся к примеру с арифметикой. Если вы попросите GPT-3 (модель большого языка, на основе которой был построен ChatGPT) добавить или вычесть пару чисел, он почти всегда даст правильный ответ, если числа состоят только из двух цифр. Но его точность значительно ухудшается с большими числами, падая до десяти процентов, когда числа состоят из пяти цифр. Большинство правильных ответов, которые дает GPT-3, не встречаются в сети — не так много веб-страниц, содержащих, например, текст «245 + 821», — поэтому простым заучиванием он не занимается. Но, несмотря на поглощение огромного количества информации, он также не смог вывести принципы арифметики.

Статистический анализ GPT-3 примеров арифметики позволяет ему произвести поверхностное приближение к реальному значению, но не более того.

Учитывая неудачу GPT-3 в изучении предмета, преподаваемого в начальной школе, как мы можем объяснить тот факт, что иногда он показывает хорошие результаты при написании эссе на уровне колледжа? Несмотря на то, что большие языковые модели часто вызывают "галлюцинации", в осознанном состоянии они звучат так, как будто действительно понимают такие предметы, как экономическая теория. Возможно, арифметика — это особый случай, для которого большие языковые модели плохо подходят. Возможно ли, что статистические закономерности в тексте, помимо сложения и вычитания, действительно соответствуют подлинным знаниям о реальном мире?

Я думаю, есть более простое объяснение. Представьте, как бы это выглядело, если бы ChatGPT был алгоритмом без потерь. Если бы это было так, он всегда отвечал бы на вопросы, предоставляя дословную цитату с соответствующей веб-страницы. Мы, вероятно, расценим это программное обеспечение лишь как незначительное улучшение по сравнению с обычной поисковой системой и будем менее впечатлены им. Тот факт, что ChatGPT перефразирует материал из Интернета, а не цитирует его дословно, создает впечатление, что студентка выражает идеи своими словами, а не просто повторяет прочитанное; это создает иллюзию того, что ChatGPT понимает материал. У студентов механическое запоминание не является индикатором подлинного обучения, поэтому неспособность ChatGPT воспроизводить точные цитаты из веб-страниц как раз и заставляет нас думать, что он чему-то научился. Когда мы имеем дело с последовательностями слов, сжатие с потерями выглядит умнее, чем сжатие без потерь.

Было предложено множество вариантов использования больших языковых моделей. Думая о них как о размытых изображениях в формате JPEG, можно оценить, для чего они могут или не могут хорошо подходить. Рассмотрим несколько сценариев.

Могут ли большие языковые модели заменить традиционные поисковые системы? Чтобы нам доверять им, нам нужно знать, что их не кормят пропагандой и теориями заговора — нам нужно знать, что jpeg захватывает нужные разделы Интернета. Но даже если большая языковая модель включает в себя только ту информацию, которая нам нужна, остается проблема размытости. Существует тип размытости, который является приемлемым, а именно повторное изложение информации другими словами. Кроме того, есть размытость прямой выдумки, которую мы считаем неприемлемой, когда ищем факты. Пока не ясно, возможно ли технически сохранить приемлемый вид размытия, убрав неприемлемый, но я ожидаю, что мы это узнаем в ближайшем будущем.

Даже если можно запретить использование больших языковых моделей в производстве, должны ли мы использовать их для создания веб-контента? Это имело бы смысл только в том случае, если бы наша цель состояла в том, чтобы переупаковать информацию, которая уже доступна в Интернете. Некоторые компании существуют именно для этого — мы обычно называем их «фабриками контента».

Возможно, им пригодится размытость больших языковых моделей, как способ избежать нарушения авторских прав. Однако в целом я бы сказал, что все, что хорошо для производителей контента, плохо для людей, которые ищут информацию. Распространение этого типа переупаковки затрудняет нам поиск того, что мы ищем в Интернете прямо сейчас; чем больше в сети публикуется текст, сгенерированный большими языковыми моделями, тем более размытой становится еть.Существует очень мало информации о предстоящем преемнике OpenAI для ChatGPT, GPT-4. Но я собираюсь сделать прогноз: при сборке огромного количества текста, используемого для обучения GPT-4, люди из OpenAI приложили все усилия, чтобы исключить материал, сгенерированный ChatGPT или любой другой большой языковой моделью. Если это окажется так, то это послужит непреднамеренным подтверждением того, что аналогия между большими языковыми моделями и сжатием с потерями полезна.

Многократное повторное сохранение файла jpeg создает больше артефактов сжатия, поскольку каждый раз теряется больше информации. Это цифровой эквивалент многократного изготовления фотокопий фотокопий в старые времена. Качество изображения становится только хуже.

Действительно, полезным критерием для оценки качества большой языковой модели может быть готовность компании использовать созданный ею текст в качестве учебного материала для новой модели. Если выходные данные ChatGPT недостаточно хороши для GPT-4, мы можем принять это как показатель того, что они недостаточно хороши и для нас. И наоборот, если модель начинает генерировать текст настолько хорошо, что его можно использовать для обучения новых моделей, то это должно вселить в нас уверенность в качестве этого текста. (Я подозреваю, что такой результат потребует серьезного прорыва в методах, используемых для построения этих моделей.) Если и когда мы начнем видеть, что модели производят результат, который так же хорош, как и их вход, тогда аналогия со сжатием с потерями больше не будет применима.

Могут ли большие языковые модели помочь людям в создании оригинального письма? Чтобы ответить на этот вопрос, нам нужно уточнить, что мы подразумеваем под этим вопросом. Существует жанр искусства, известный как ксероксное искусство или фотокопирование, в котором художники используют отличительные свойства копировальных аппаратов в качестве творческих инструментов. Что-то в этом роде, безусловно, возможно с фотокопировальным устройством, которым является ChatGPT, так что в этом смысле ответ — да. Но я не думаю, что кто-то станет утверждать, что копировальные аппараты стали важным инструментом в создании искусства; подавляющее большинство художников не используют их в своем творческом процессе, и никто не спорит, что этим выбором они ставят себя в невыгодное положение.

Итак, давайте предположим, что мы не говорим о новом жанре письма, аналогичном искусству Xerox. Учитывая это условие, может ли текст, сгенерированный большими языковыми моделями, быть полезной отправной точкой для писателей, на которую они могут опираться при написании чего-то оригинального, будь то художественная или научная литература? Позволит ли большая языковая модель обрабатывать шаблоны, позволит ли писателям сосредоточить свое внимание на действительно творческих частях?

Очевидно, что никто не может говорить за всех писателей, но позвольте мне привести аргумент, что начинать с размытой копии неоригинальной работы — не лучший способ создать оригинальную работу. Если вы писатель, вы напишете много неоригинальной работы, прежде чем напишете что-то оригинальное. И время и усилия, затраченные на эту неоригинальную работу, не потрачены впустую; напротив, я бы предположил, что именно это позволяет вам со временем создать что-то оригинальное. Часы, потраченные на выбор правильного слова и перестановку предложений, чтобы лучше следовать одно за другим, учат вас тому, как смысл передается прозой. Написание сочинений студентами — это не просто способ проверить, насколько они усвоили материал; это дает им опыт в формулировании своих мыслей. Если учащимся никогда не придется писать сочинения, которые мы все читали раньше, они никогда не приобретут навыков, необходимых для написания того, чего мы никогда не читали.

И дело не в том, что, раз уж вы перестали быть студентом, вы можете смело пользоваться тем шаблоном, который предоставляет большая языковая модель. Борьба за выражение своих мыслей не исчезнет после окончания учебы — она может возникать каждый раз, когда вы начинаете набрасывать новую работу. Иногда только в процессе написания вы обнаруживаете свои оригинальные идеи. Кто-то может сказать, что вывод больших языковых моделей не сильно отличается от первого наброска, написанного писателем-человеком, но, опять же, я думаю, что это поверхностное сходство. Ваш первый набросок — это не неоригинальная идея, выраженная ясно; это исходная идея, плохо выраженная, и она сопровождается вашей аморфной неудовлетворенностью, вашим осознанием дистанции между тем, что она говорит, и тем, что вы хотите, чтобы она сказала. Это то, что направляет вас во время переписывания, и это одна из вещей, которой не хватает, когда вы начинаете с текста, сгенерированного ИИ.

В письме нет ничего волшебного или мистического, но оно включает в себя нечто большее, чем размещение существующего документа на ненадежном фотокопировальном аппарате и нажатие кнопки «Печать». Возможно, в будущем мы создадим ИИ. который способен писать хорошую прозу, основанную только на собственном опыте восприятия мира. День, когда мы этого добьемся, будет поистине знаменательным, но этот день лежит далеко за горизонтом нашего предсказания. Между тем разумно спросить: какой смысл иметь что-то, что перефразирует сеть? Если бы мы теряли доступ к Интернету навсегда и должны были бы хранить копию на частном сервере с ограниченным пространством, модель большого языка, такая как ChatGPT, могла бы быть хорошим решением, при условии, что ее можно было бы уберечь от создания. Но мы не теряем доступ к Интернету. Так насколько же полезен размытый JPEG, если у вас все еще есть оригинал?

Перевод статьи Ted Chiang "ChatGPT Is a Blurry JPEG of the Web"

1313
3 комментария

Спасибо за перевод

Мы, люди, любящие свои носки и желающие справедливости в отношении их ухода, с убеждением заявляем, что потеря носка в сушилке является несомненным нарушением их права на полноценное использование в паре.

Эта неправомерная утрата является серьезным нарушением нашей равноправной свободы, и мы требуем, чтобы сушилки были улучшены и/или модернизированы, чтобы предотвратить подобные ситуации в будущем.

Мы настаиваем на том, чтобы производители и пользователи сушилок принимали на себя ответственность за соблюдение прав носков, и в случае несоблюдения этой ответственности, они должны нести соответствующие последствия.

Он также написал короткий рассказ


Что, правда короткий?