PyMuPDF получает текст только с текстовых pdf. Это меняет дело. Сам несколько дней с этим вожусь.

Что делать если вы столкнулись с некачественным сканом?

OCR или же Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.