Техническое задание на доработку парсера материалов с сайта
На сайте на WordPress реализован парсер материалов с портала, который переносит новости/ текст и фото на другой аналогичный сайт. В текущей реализации наблюдаются ошибки, требующие ручной корректировки. Необходимо устранить выявленные проблемы и доработать функционал автоматизации.
Основные задачи:
1. Добавление подписей и описаний к загружаемым изображениям
- При парсинге фото с РП Медиа необходимо сохранять подпись (title) и описание (description).
- Эти данные должны автоматически записываться в соответствующие поля при загрузке изображения в медиабанк сайта.
- Это упростит дальнейший поиск и фильтрацию изображений в админке.
2. Дублирования изображений
- Реализовать проверку: если изображение с таким же URL или хэшем уже есть в медиабанке — не загружать его повторно.
- При совпадении использовать существующее изображение, привязывая его к новой записи.
3. Фильтрация новостей по метке
- На данный момент парсер переносит все новости с сайта.
- Требуется модифицировать парсер так, чтобы он переносил только те материалы, которые помечены как «Реальные новости» и заливаются в определенный раздел.
Дополнительные требования:
- Все изменения должны быть реализованы без потери существующих данных.
- Обеспечить логирование работы парсера для диагностики ошибок и контроля выполнения задач.