Первый столбец таблицы – запрос, второй – ответ модели до забывания, третий – после.
Как видите, модель забыла вообще всю информацию, в том числе содержащуюся в открытых источниках и вполне легально доступную для обучения. Целью статьи не было хирургически точное извлечение исключительно контента, защищенного авторским правом. Авторы хотели показать, что заставить модель забыть часть переданных ранее данных возможно с помощью их метода, и Гарри Поттер – это просто наглядная демонстрация. Кроме того, нежелательное забывание можно исправить, дообучив модель на легально доступном контексте (это все еще будет не так долго и сложно, как полное переобучение).
Забывание названо «приблизительным», потому что оно приближает ответы модели к ответам, которые она бы давала, если бы ее обучали на видоизмененном наборе данных (то есть, на наборе текстов уже без текстов книг о Гарри Поттере). «Точное» забывание – это полное переобучение.
Эта статья – не первая попытка заставить языковые модели забыть ту часть информации, которую ей не должны были передать в процессе обучения, но передали. Авторы приводят и другой подход: увеличение значения ошибки в том случае, если модель генерирует слово, которое нужно забыть.
Когда модель учится генерировать предложения, для каждого следующего слова высчитывается ошибка, которая показывает, насколько вероятно сгенерированное предложение встретить в реальном тексте. Например, начнем генерацию со слова «кошка». Если следующее слово – «сидит», значение ошибки мало, потому что фраза «кошка сидит» – очень вероятное сочетание. Затем «кошка сидит» -> «на». Тоже вероятное сочетание. Но если дальше идет слово «цветке», значение ошибки будет большим, потому что фраза «кошка сидит на цветке» – не норма для обычной речи. В следующем подходе модель будет подбирать вместо «цветке» другое слово, для которого ошибка будет меньше. Это несколько примитивное объяснение, но для нас оно пока достаточно.
Так вот, если мы хотим, чтобы модель забыла имя «Гарри Поттер», мы можем искусственно увеличить ошибку для фразы «Меня зовут Гарри Поттер». Как отмечают авторы, этот подход сработал в другой статье, которая была посвящена исключению из «памяти» моделей персональных данных. Однако здесь есть слабое место: модель может вообще разучиться предсказывать имена после слов «Меня зовут», и будет подставлять туда что-нибудь бессмысленное. Именно поэтому в данной работе решили генерировать слово-замену, например, «Боб». Тогда модель забудет про Гарри Поттера, но не забудет, что после «Меня зовут» должно следовать имя.
Отличная и очень актуальная тема! я согласен с вами, что это важная и перспективная область исследований в области искусственного интеллекта. Аналогия ясна и понятна