Camelot дает возможность настроить извлечение таблиц в том случае, если невозможно получить желаемый результат с настройками библиотеки по умолчанию. Каждая извлекаемая таблица представляет собой pandas DataFrame, который легко интегрируется в ETL и рабочие процессы анализа данных. Использование Camelot позволяет экспортировать извлекаемую таблицу в форматы csv, JSON, Excel и HTML.
"с текстовыми PDF-файлами". я понимаю, что изобретать велосипеды круто, но еще круче, когда они ездят ) текстовую пдфку любой может и так скопипастить и перерисовать в иксельке. быстрее будет, и специальных навыков не нужно )) было бы отлично, если был бы инструмент, который работает с изображениями (и он, наверняка, есть. но не в этом топике).
Есть. OCR и нейросетевое распознавание текста называется.