Нужно разработать скрипт (парсер), который будет автоматически извлекать данные из различных типов документов (PDF, Word, Excel) и вносить их в Google Диск (Google Sheets) или Excel в нужном формате.
Функциональные требования:
✅ Парсинг данных из документов следующих форматов:
PDF (сканированные и текстовые)
Word (.doc, .docx)
Excel (.xls, .xlsx)
✅ Извлечение данных согласно заданной структуре:
ФИО
Должность
Дата рождения
Контактные данные
Опыт работы (суда, даты, должность, DWT, мощность двигателя и др.)
Сертификаты (название, дата выдачи, дата истечения, номер)
✅ Запись обработанных данных в:
Google Sheets (API-интеграция)
Excel (сохранение в CSV / xlsx)
✅ Поддержка разных шаблонов анкет (может быть разный порядок данных в документах).
✅ Автоматическая обработка нескольких файлов сразу (bulk processing).
✅ Логирование ошибок (если файл не удалось обработать).
Технические требования:
📌 Язык программирования: Python
📌 Используемые библиотеки:
PyMuPDF / pdfminer (для PDF)
python-docx (для Word)
openpyxl / pandas (для Excel)
Tesseract OCR (если потребуется распознавание текста из изображений)
📌 Интеграция с Google Sheets API (если выбираем хранение в Google Диск).
Дополнительные пожелания:
Гибкость к будущим доработкам (например, интеграция с email / мессенджерами).
Возможность запускать скрипт вручную или автоматизированно (например, по расписанию).
Сроки:
📅 Нужен готовый работающий продукт в течение 10-14 дней