OCR или же Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.
PyMuPDF получает текст только с текстовых pdf. Это меняет дело. Сам несколько дней с этим вожусь.