В заключении, можно сказать, что если в вашей задаче качественные экземпляры сканов, то не стоит сразу пытаться усложнять и использовать компьютерное зрение, а стоит попробовать модули и библиотеки предназначенные для распознавания PDF. Если же вы столкнулись с некачественным сканом, можно использовать компьютерное зрение и пробовать менять различные параметры.
PyMuPDF получает текст только с текстовых pdf. Это меняет дело. Сам несколько дней с этим вожусь.
Может кто знает, чем можно таблички из PDF вынуть более-менее корректно? Хотя бы разбивку по столбцам?