PDF OCR: распознавание текста ПДФ

PDF — удобный способ сохранить структуру документа, но что делать, если нужно преобразовать PDF в текстовый формат или отредактировать документ, состоящий из отсканированных изображений?

Как перевести PDF в WORD для редактирования?
Как перевести PDF в WORD для редактирования?

В своей работе я часто сталкиваюсь с книгами и PDF документами без текстового слоя (все страницы состоят из изображений) и внушительного размера от 100 МБ и более. Многие популярные онлайн сервисы с этой задачей не справляются, как правило из-за большого размера файла или же при распознавании текста сильно нарушается структура документа.

Я решил создать онлайн сервис для распознавания PDF. С помощью сервиса можно перевести отсканированный изображения в текстовую версию PDF или в редактируемый документ Word (DOCX) при этом структура документа сохраняется очень близко к оригиналу.

Пример 1: отсканированная книга из PDF в DOCX

Отсканированная книга на немецком языке переведена из PDF в DOCX.
Отсканированная книга на немецком языке переведена из PDF в DOCX.

Также можно сохранить очень сложную структуру документа близкой к оригиналу.

Пример 2: сохранение сложной структуры PDF и перевод текста

Максимальное сохранение структуры PDF с переводом текста
Максимальное сохранение структуры PDF с переводом текста

Попробовать сервис можно вот тут.

1313
11
Начать дискуссию