Мысль изреченная есть ложь, или почему нельзя оценивать качество перевода по одному предложению

Иногда возникает ощущение, что аналитики данных верят в то, что существует некий ИИ-джинн, и всё, что вам нужно, это написать правильный промпт, и вуаля – у вас в руках реалистичная оценка качества перевода на уровне предложения.

Не хотелось бы кого-то расстраивать, но джинна с «правильными ответами» не существует. И не только потому, что у текущей версии джинна нет никакого интеллекта, но и потому, что существует гораздо более фундаментальная проблема: в предложении просто не содержится достаточно информации для подобной оценки.

Многие аналитики данных считают, что текст это и есть информация.

Это НЕ так.

Текст – это НЕ зашифрованное сообщение. Текст даже нельзя назвать понятной единицей информации. Считаете, что это не так? Вот вам пример из недавней практики. На встрече с лингвистом, представляющим клиента, выяснилось, что он пометил перевод как содержащий ошибку, потому что «автор хотел сказать другое». Переводчик со стороны исполнителя утверждала, что она поняла фразу по-другому. Ни та, ни другая сторона не могла предоставить никаких доказательств своих слов, так как и то, и другое заявление были не более, чем мнением.

Как бы тщательно мы ни подошли к записи своих мыслей, всегда найдется кто-то, кто интерпретирует их иначе. Это не баг, а фундаментальная фича самого языка, и факт в том, что в тексте нет самой оригинальной мысли. И даже если есть, то не в полной мере.

Любой текст, который мы читаем, – лишь выражение того, что хотел сказать его автор. Оно может быть довольно точным – или не очень, но даже при самом оптимистичном сценарии всего мы не узнаем. Текст – это осязаемое выражение чего-то, что лежит полностью вне его пределов. Это что-то было сформировано в уме автора, но оно никогда не «попадает» в текст до конца.

Настоящую причину разногласий лингвистов о том, что является «правильным» переводом, можно найти в этом самом предположении о том, что автор хотел сказать что-то конкретное – а не что-то другое.

Но любой текст неоднозначен по своей природе. Он регулярно несет в себе двойной или даже тройной смысл, который может меняться в зависимости от обстоятельств, времени и личности тех, кто его интерпретирует.

Каким бы понятным ни был текст, вы не можете быть до конца уверены, что это является точной интерпретацией смысла, который вложил его автор.

Двести лет назад Федор Тютчев написал поэму «Silentium!» и уже тогда указал, что «мысль изреченная есть ложь». Эти слова как нельзя лучше выражают тщетность любой попытки доверить языку наши мысли и идеи.

Язык – это мощный инструмент, однако у нас нет никакого способа быть на 100% уверенными в любом вложенном в него смысле. Это делает каждое конкретное предложение открытым для толкований и мнений о том, что же именно имел в виду автор. Более широкий контекст крупной выборки делает подобное толкование более надежным, и именно поэтому оценка качества перевода может и должна проводиться на выборках достаточного размера. И наоборот, сама неопределенность обнаружения ошибок и аннотации на выборке размером с одно предложение лишает подобную оценку любого смысла, если мы только не говорим об ошибках правописания. Однако даже правописание может быть функцией стиля или диалекта, и если мы оцениваем перевод без необходимого контекста, мы рискуем поставить низкую оценку и списать со счетов работу, которая на самом деле была сделана хорошо.

У чисел своя магия. Когда мы видим число, нам кажется, что под ногами у нас появилась твердая почва. Это исключительно психологический феномен, который объясняет следующий диалог между менеджером по качеству и аналитиком данных, который недавно произошел в одной очень крупной организации:

— Вы знаете, что ваши показатели качества для сегментов не соответствуют оценкам профессиональных лингвистов?

— Да, мы знаем, но нам все равно кажется, что это полезно.

— Каким образом это полезно, вы можете объяснить?

— Ну, объяснить мы не можем, но нужна же какая-то цифра для начала.

— Но эта цифра бессмысленна.

— Да, мы понимаем это, но мы все равно думаем, что какое-нибудь число это полезно. (Занавес.)

Но ведь аналитики данных должны знать, что в математике есть такой раздел как статистика? И в статистике у каждого измерения есть доверительный интервал и уровень доверия, которые особенно важны для выборок маленького размера. Некоторое время назад мы опубликовали научную работу под названием «Измерение неопределенности в оценке качества перевода», в которой продемонстрировали, что, если мы хотим, чтобы у измерения качества был приемлемый доверительный интервал, размер выборки должен составлять не менее ста предложений. Если уменьшить размер выборки, доверительный интервал возрастает экспоненциально, а для одного предложения вообще оказывается неприемлемо высоким.

Именно поэтому к выборкам малого размера применяется совершенного другой (и очень сложный) математический аппарат, известный как «статистический контроль качества». Он применяется к малым выборкам и предсказывает не их качество, а риски, которые они несут для производителя и потребителя.

Повторимся: ни с математической/статистической, ни с философской точки зрения фундаментально невозможно вынести надежное суждение о «показателе качества» перевода одного предложения. Нельзя даже сказать, что именно несет ответственность за неспособность волшебного джинна создать показатель качества перевода одного предложения: сама природа познания или статистика. Что бы то ни было, вывод не меняется: пожалуйста, не просите джинна о невозможном.

Самое большее, что сможет сделать для вас умный джинн, если он когда-нибудь все же появится из лампы, это предложить еще одно мнение в хоре всех остальных возможных мнений о предполагаемом смысле предложения и присоединиться к спору об ошибках, их классах, серьезности и тому подобном.

Вот поэтому странно слышать, что какая-то большая языковая модель или ИИ смогли измерить качество перевода предложения. Чтобы это сделать, требуется сначала понять предложение – и мы все знаем, что джинн так не работает. И даже если каким-то чудом мы достигнем этапа, когда вышеупомянутый джинн сможет понять предложение – что ж, добро пожаловать в клуб, где его оценка станет лишь еще одним мнением (одним из многих) относительно предполагаемого смысла текста.

Ссылки:

[1] Измерение неопределенности в оценке качества перевода. https://arxiv.org/abs/2111.07699