Разработка парсера для извлечения данных из PDF, Word и Excel в Google Диск / Excel (для всех)

Нужно разработать скрипт (парсер), который будет автоматически извлекать данные из различных типов документов (PDF, Word, Excel) и вносить их в Google Диск (Google Sheets) или Excel в нужном формате. Функциональные требования: ✅ Парсинг данных из документов следующих форматов: PDF (сканированные и текстовые) Word (.doc, .docx) Excel (.xls, .xlsx) ✅ Извлечение данных согласно заданной структуре: ФИО Должность Дата рождения Контактные данные Опыт работы (суда, даты, должность, DWT, мощность двигателя и др.) Сертификаты (название, дата выдачи, дата истечения, номер) ✅ Запись обработанных данных в: Google Sheets (API-интеграция) Excel (сохранение в CSV / xlsx) ✅ Поддержка разных шаблонов анкет (может быть разный порядок данных в документах). ✅ Автоматическая обработка нескольких файлов сразу (bulk processing). ✅ Логирование ошибок (если файл не удалось обработать). Технические требования: 📌 Язык программирования: Python 📌 Используемые библиотеки: PyMuPDF / pdfminer (для PDF) python-docx (для Word) openpyxl / pandas (для Excel) Tesseract OCR (если потребуется распознавание текста из изображений) 📌 Интеграция с Google Sheets API (если выбираем хранение в Google Диск). Дополнительные пожелания: Гибкость к будущим доработкам (например, интеграция с email / мессенджерами). Возможность запускать скрипт вручную или автоматизированно (например, по расписанию). Сроки: 📅 Нужен готовый работающий продукт в течение 10-14 дней

19.02.2025 в 12:45

Перейти к оригиналу