Есть скрипт сбора цен с сайтов.<br><br>Файлы скрипта лежат в Google Cloud по ссылке - <a href="https://console.cloud.google.com/storage/browser/retail-prices-parser?pageState=(">https://console.cloud.google.com/storage/browser/r...</a><br><br>Внимание! Изменять какие-либо файлы в папках запрещено!<br><br>У скрипта есть боевая и тестовая версии. Боевая лежит в основной папке - retail-prices-parser, тестовая в подпапке debug. Файл конфигурации - parser.config, его стоит использовать в качестве примера/эталона.<br><br>Задача: создать новый config файл, который будет наполнен xpath путями и настройками по 30 новым сайтам. Протестировать работоспособность на нескольких примерах ссылок с сайта. Исключить ошибки.<br>Список сайтов - <a href="https://docs.google.com/spreadsheets/d/16vU7gGpUGjyY-4k9jhaqekVYYo9W_v6MXyFlqzzvQ9I/edit?gid=557553365#gid=557553365">https://docs.google.com/spreadsheets/d/16vU7gGpUGj...</a><br>Вам нужно обработать 1 кластер (пронумерованы в столбце Batch#), в кластере 30 сайтов. Точный кластер обсудим с вами в чате, зафиксирую имя/ник в таблице, т.к. задачу делим по нескольким подрядчикам.<br><br>Скрипт проверяет/берет (параметры, которые нужны в config файле):<br>• открывается ли указанная страница, нет ли там ошибки - new_notFound<br>• price и currency всех товаров (их лотов), в зависимости от того, что доступно на сайте и что есть в БД, возможные значения 1 bottle, 2, 3, 6, 12, 24 bottles. Изменения фиксирует в new_price и new_currency.<br>• outOfStock. Если находит, что товар помечен, как отсутствующий, то ставит new_outOfStock=true.<br>• inStock - Если у какого-либо E-shop специально помечено, что товар есть в наличии (в случаях, когда нет пометки, что товара нет в наличии)<br>• excludesTax / includesTax - пометку, является ли взятая цена ценой с налогом или без налога<br>• new_image - берет изображение товара<br><br>Для отладки развернута страница в Google Colab для запуска отладки скрипта по ссылке - <a href="https://colab.research.google.com/drive/1puooGD3JUEf8acoHsEerH82OAZc2-Wc_#scrollTo=YU6En-e0IS1z">https://colab.research.google.com/drive/1puooGD3JU...</a> <br><br>(!) Работать нужно только с папкой debug. Результат работ - новый config файл, нужно создать его и добавить в папку debug, назвать "parser_ваше_имя_дата.config".<br><br>Внимание! Сам файл parser.config трогать нельзя! Задача в том, чтобы создать такой же файл (но с другим названием) с результатом вашей работы.<br><br>Дополнительная информация:<br><br>Скрипт запускается ежедневно в 8.00 UTC, работает примерно сутки.<br><br>Доп комментарии, примечания:<br>• пакет, который использован для работы с xpath, для обращения к атрибутам использует img/@src<br>• изображения иногда не вытаскиваются, если xpath указан туда, где загрузка изображения lazy. Там, где url присутствует в месте без lazy лучше брать оттуда<br>• в parser.config файле есть мэпинг валют. Если в мэпинге нет того, что извлеклось с сайта, то в результе будет просто то, что извлеклось. Поэтому записи типа GBP -> GBP добавлять не надо.<br>• в config файле есть поле replace. В основном используется для корректного отображения цены, когда где-то используется запятая для отделения тысяч, или есть лишний пробел, что приводит к ошибке Price is not a number.<br>