Опрос. Кто часто сталкивается с файлами PDF?

Коллеги добрый вечер, я программист, который хочет сделать масштабный проект, нужна ваша критика и обратная связь.

Идея. Возникла идея сделать сервис по распознаванию pdf документов и агрегирования информации в табличный вид Эксель.

Проблема. Проблема заключается в том, что у всех документов PDF своя разметка, которые нельзя сделать универсальной.

Реализация. Если пользователь научит нейронную сеть распознавать документы так, как ему нужно, у него (у пользователя) будет "свой универсальный распознавательOCR"

Обратная связь. Прошу дать критику или же написать сферу применения данного алгоритма.

Всех благ.

2 комментария

Он не оптимизирует рарзметку на вашем PDF, он просто делает excel таблицу