Сталкивались ли вы с тем, что иностранный язык, присутствующий в данных, отображается некорректно? Это называется моджибаке. Моджибаке - это термин, используемый для описания искажённого или скремблированного текста, который возникает в результате проблем с кодированием или декодированием. Обычно это происходит, когда текст, который был написан в одной кодировке символов, неправильно декодируется с использованием другой кодировки. Библиотека ftfy поможет вам исправить моджибаке, что очень полезно в случаях использования NLP.