Аблитерацию можно применять во время вывода, вычитая проекцию выхода на направление отказа. Другой вариант – изменить веса модели напрямую, чтобы она не могла представлять это направление (ортогонализация весов). Лебонн приводит практическую реализацию метода аблитерации – на примере модели Llama 3*, с использованием библиотек TransformerLens и Hugging Face. Результат – аблитерация успешно разцензуривает модель, но несколько снижает ее общую производительность. Для восстановления качества автор применяет дополнительное обучение с использованием метода DPO (Direct Preference Optimization).
Как «разцензурить» модель - за это спасибо, попробуем
оказывается все таки можно цензуру в ИИ обойти, мне очень интересно было бы на это посмотреть