Есть программа, которая осуществляет преобразование текстовой части документов в просто текстовый формат. Поддерживаемые на данный момент форматы: .pdf, .odt, .docx
Что нужно сделать: добавить еще несколько форматов документов - doc. xls. xlsx. txt.
Как работает программа:
На вход подается папка содержащая файлы разных форматов (текстовый не картинка). В одном файле может быть несколько документов.
На выходе получается файл содержащий таблицу:
- файл
- название вида документа (пример "Протокол..."
- номер, дата
Вытаскивание номеров через регулярные выражения.