Web Scraper для отслеживания информации на сайте

Web Scraper для отслеживания добавления обновленных документов и их скачивания Цель: Создать сервис, который автоматически мониторит сайты и уведомляет о появлении новых документов. Минимальная задача: - Отслеживать изменения на заданных страницах. - Если появился новый документ – отправлять уведомление (Telegram, email, веб-интерфейс). Дополнительная задача (если несложно и недорого): - Скачивать новый документ и загружать его в систему автоматически. Технологии (возможно есть альтернатива): - Парсинг сайтов: Scrapy / BeautifulSoup / Selenium (если сайт динамический) - Запросы: requests / playwright (если API) - База данных (если нужно хранить историю документов): PostgreSQL / SQLite - Уведомления: Telegram API / Email / Webhook - Фоновый мониторинг: Celery / APScheduler - Развёртывание: Python + Docker Что должен сделать программист: 1. Реализовать мониторинг заданных сайтов (список страниц предоставляется: пример на конкретный раздел сайта https://minsport.gov.ru/activity/government-regulation/edinyj-kalendarnyj-plan/). 2. Отправлять уведомления при появлении новых документов. 3. Дополнительно (если несложно): скачивать найденные документы и передавать их в систему. Важно: - Главная цель – уведомления. - Скачивание документов – только если это не сильно увеличивает стоимость и сроки. - Использовать готовые библиотеки (не писать с нуля). - Предложить решение для обхода ограничений (если сайты блокируют парсинг).

31.01.2025 в 08:30

Перейти к оригиналу