На главную

Парсер с эмуляцией (bas, phyton, content downloader?)

Сервис по парсингу, автоматизированный, парсить по запросу json файл с урл источника. Наша система отправляет запрос - парсер парсит и возвращает данные (обсуждается как данные передать в нашу систему). Нужна эмуляция браузера, не запросами!, чтобы более стабильно работало и с перспективой на будущее. Многопоточность. Сейчас система работает на впс линукс на php на curl запросах и все это не стабильно, там где защита от парсинга. Источник парсинга показался простой, но может ошибаюсь: открываю урл, нетворк fetch и вижу файл json с данными, все (на одном источнике данные только в памяти, сам файл не открывается). Источников (сайтов) пока два. Основной загвоздкой мне показалось совмещение с нашей системой, разработка коннектора, чтобы парсило по запросу онлайн. На чем: bas, phyton, content downloader, я не знаю, хотел бы услышать мнения. Основное это бОльшая стабильность и % успеха даже в ущерб скорости + задел на будущее (эмуляция). Сейчас прикидывал около 600 запросов в сутки, но могу ошибаться, и это 90% в рабочее время суток, ночью минимум. В пики сезона думаю 1000,2000 запросов и больше может быть. - эмуляция браузера; - стабильность, держать потоки и нагрузки; - многопоточность; - источников пока два, подключение новых; - управление нашей системой онлайн; - json обработка обсуждается, на месте или у нас; - лог, информирование; Вопрос цены обсуждается, готов выслушать предложения и советы на чем это сделать. Подробнее в файле, тут ограничение по тексту.