Как создать бота-конвертер PDF в TXT на Python в VS Code
В этой статье мы разберем, как написать простого бота (или утилиту) на Python, который будет извлекать текст из PDF-файлов и сохранять его в TXT. Для этого воспользуемся библиотекой pytesseract и средой разработки VS Code.
🔧 Установка окружения
1. Установите Python и VS Code
Скачайте и установите Python с официального сайта (если его у вас еще нет). Затем установите VS Code.
ЗЫ: Если необходимо локализовать проект, то создайте окружение внутри проекта.(можно загуглить "environment python")
2. Установите необходимые библиотеки
Открываем VS Code, создаем новый проект и устанавливаем библиотеки
3. Установите Tesseract OCR
Чтобы pytesseract мог распознавать текст, установите движок Tesseract:
- macOS:bashCopyEdit
- Ubuntu/Debian:
- Windows: Скачайте и установите Tesseract. После установки пропишите путь к tesseract.exe в коде.
📝 Код бота-конвертера
(внимание на заметки(там будет понятно, куда вставить ПУТЬ ДО PDF))Создадим файл pdf_to_txt.py и напишем код:
🚀 Как запустить
- Поместите PDF-файл в папку со скриптом.
- Запустите код в терминале:
bashCopyEditpython pdf_to_txt.py
- Готово! Текст сохранится в output.txt.
🔗 Репозиторий
Исходный код доступен на мой GitHub:👉 The-program-is-a-converter-from-pdf-to-txt-Cyrillic