Как создать бота-конвертер PDF в TXT на Python в VS Code

В этой статье мы разберем, как написать простого бота (или утилиту) на Python, который будет извлекать текст из PDF-файлов и сохранять его в TXT. Для этого воспользуемся библиотекой pytesseract и средой разработки VS Code.

🔧 Установка окружения

1. Установите Python и VS Code

Скачайте и установите Python с официального сайта (если его у вас еще нет). Затем установите VS Code.

ЗЫ
: Если необходимо локализовать проект, то создайте окружение внутри проекта.(можно загуглить "environment python")

2. Установите необходимые библиотеки

Открываем VS Code, создаем новый проект и устанавливаем библиотеки

pip install pytesseract pdf2image

3. Установите Tesseract OCR

Чтобы pytesseract мог распознавать текст, установите движок Tesseract:

  • macOS:bashCopyEdit
brew install tesseract
  • Ubuntu/Debian:
sudo apt install tesseract-ocr

📝 Код бота-конвертера

(внимание на заметки(там будет понятно, куда вставить ПУТЬ ДО PDF))Создадим файл pdf_to_txt.py и напишем код:

pythonCopyEditimport pytesseract from pdf2image import convert_from_path # Укажите путь к PDF pdf_path = "example.pdf"# Конвертация PDF в изображения images = convert_from_path(pdf_path) # Распознавание текста text = ""for img in images: text += pytesseract.image_to_string(img, lang="rus+eng") + "\n"# Сохранение в файлwithopen("output.txt", "w", encoding="utf-8") as f: f.write(text) print("Текст сохранен в output.txt")

🚀 Как запустить

  • Поместите PDF-файл в папку со скриптом.
  • Запустите код в терминале:

bashCopyEditpython pdf_to_txt.py

  • Готово! Текст сохранится в output.txt.

🔗 Репозиторий

Исходный код доступен на мой GitHub:👉 The-program-is-a-converter-from-pdf-to-txt-Cyrillic

1
Начать дискуссию