На главную

Скрапинг документов С САЙТА

[:1f4cc] задача: Автоматически собрать и скачать все постановления, приказы, шаблоны документов, относящиеся к регистрации медицинских изделий, с сайта Росздравнадзора: [:1f517] Источник: https://www.roszdravnadzor.gov.ru/medproducts/registration [:1f4c2] Структурировать их по папкам в зависимости от типа документа. 2. структура сохранения данных [:1f4c2] Главная папка: Регистрация_МедИзделий/ Внутри файлы должны быть распределены по категориям: [:1f4c1] 1_Постановления_Правительства – все постановления (PDF, DOCX). [:1f4c1] 2_Приказы_Минздрава – все приказы (PDF, DOCX). [:1f4c1] 3_Шаблоны_Документов – все формы заявлений и образцы документов. [:1f4c1] 4_Методические_Рекомендации – инструкции и разъяснения по регистрации. [:1f4c1] 5_Прочие_Документы – прочие документы, связанные с темой. Переименовывать файлы по принципу: [:1f4c4] Постановление_1416_от_27.12.2012.pdf [:1f4c4] Приказ_Минздрава_№885н_от_30.08.2021.pdf [:1f4c4] Шаблон_Заявление_Регистрация_МедИзделий.docx 4. СРОКИ выполнения [:23f3] Ожидаемый срок выполнения: 2–5 дней. [:1f4e4] Финальный результат: архив со структурированными файлами. 5. ЧТО получаем НА выходе [:1f4c1] ZIP-архив, содержащий файлы, структурированные по категориям. [:1f4dd] Лог-файл с отчетом: Какие документы скачаны. Какие файлы не удалось скачать (если есть). Дата и время завершения скрипта.

Парсинг документов в сканах, PDF и Word

Добрый день, Периодически появляются договоры в не распознанных и в распознанных сканах, в формате PDF. Договоры нельзя выгружать в сторонние ИИ-сервисы....