Ранее я говорил о том, как скачивали файлы из базы и распознавать их, здесь я расскажу о том, как вытаскивать информацию (для анализа данных для спринта), по ключевым словам, или фразам из документов разных форматов (.rtf,. doc,. docx,. xls,. xlsx,. pdf). Вообще эту тему можно отнести к text mining, data mining. Text Mining — это если простыми словами, то добыча информации из текстов. Data Mining – это примерно то же самое что и ™ только не в тексте, а большом наборе данных для последующего анализа.
Не могу найти ссылку на статью где писали про разрозненнее pdf?