Как создать бота-конвертер PDF в TXT на Python в VS Code

В этой статье мы разберем, как написать простого бота (или утилиту) на Python, который будет извлекать текст из PDF-файлов и сохранять его в TXT. Для этого воспользуемся библиотекой pytesseract и средой разработки VS Code.

Скачайте и установите Python с официального сайта (если его у вас еще нет). Затем установите VS Code.

ЗЫ: Если необходимо локализовать проект, то создайте окружение внутри проекта.(можно загуглить "environment python")

Открываем VS Code, создаем новый проект и устанавливаем библиотеки

pip install pytesseract pdf2image

Чтобы pytesseract мог распознавать текст, установите движок Tesseract:

macOS:bashCopyEdit

brew install tesseract

Ubuntu/Debian:

sudo apt install tesseract-ocr

Windows: Скачайте и установите Tesseract. После установки пропишите путь к tesseract.exe в коде.

(внимание на заметки(там будет понятно, куда вставить ПУТЬ ДО PDF))Создадим файл pdf_to_txt.py и напишем код:

pythonCopyEditimport pytesseract from pdf2image import convert_from_path # Укажите путь к PDF pdf_path = "example.pdf"# Конвертация PDF в изображения images = convert_from_path(pdf_path) # Распознавание текста text = ""for img in images: text += pytesseract.image_to_string(img, lang="rus+eng") + "\n"# Сохранение в файлwithopen("output.txt", "w", encoding="utf-8") as f: f.write(text) print("Текст сохранен в output.txt")

Поместите PDF-файл в папку со скриптом.
Запустите код в терминале:

bashCopyEditpython pdf_to_txt.py

Готово! Текст сохранится в output.txt.

Исходный код доступен на мой GitHub:👉 The-program-is-a-converter-from-pdf-to-txt-Cyrillic

Как создать бота-конвертер PDF в TXT на Python в VS Code

🔧 Установка окружения

1. Установите Python и VS Code

2. Установите необходимые библиотеки

3. Установите Tesseract OCR

📝 Код бота-конвертера

🚀 Как запустить

🔗 Репозиторий