BLEU – общепризнанный стандарт для тестирования качества перевода. По умолчанию будем использовать версию SacreBleu. Эта версия используется в конференции по машинному переводу WMT и различных международных соревнованиях. В этой метрике сравнение перевода идет по количеству n-gram (комбинаций слов), которые идут друг за другом. Цель метрики в том, чтобы найти максимально совпадающие комбинации между переводом, сделанным человеком и машиной. Сравнение начинается с комбинаций в четыре слова. Если таковых не обнаруживается, но идет поиск трех n-gram. При дальнейшем отсутствии совпадений можно дойти до одного n-gram. Очки начисляются за каждые последовательности слов (токенов), которые нашла программа. Минус метрики в том, что она не учитывает синонимы и если в переводе мысль передана верно, но другими словами, то она покажет 0.
Вы рассматриваете стоимость GPT-4, если пользоваться им через API. Но через официальный UI (20$/мес) при плотном использовании получается примерно в 30 раз дешевле. Конечно, о полной автоматизации там речь не идёт, взаимодействие предполагается в форме диалога, но человек-переводчик там работать может, и вполне комфортно.
Через официальный UI вы (20$/мес) не сможете перевести большой объем текста.
По качеству перевода... GPT-4 работает со смыслами, и очень глубоко понимает их. В этом его преимущество. Но сам русский он знает не идеально, и не брезгует англицизмами. В этом минус GPT-4 по сравнению с переводчиками типа Гугла и DeepL, которые специально заточены именно под перевод, - у них получается более литературно, хоть и менее точно. Так что в целом все эти инструменты имеют свои сильные стороны, и их можно комбинировать.