На главную

Универсальный парсер ( удалённый API браузер )

Приветствую. было - работало - стало хуже- надо новое [:1f603] В общем есть уже куча решений и все кривые...)) Нужно делать с нуля! И с новыми людьми))) Задача следующая: Парсим много разных сайтов. С простыми проблем нет, а вот с крупными и умными всё становится сложнее... Вопрос не столько в парсинге(разбитии html по "полочкам"), сколько в чтении самого html-кода различных страниц. Грубо говоря, нужен Универсальный "человекоподобный" браузер, расположенный на удалённом сервере и управляемый по API. То есть: 1) ваша "программа" развёрнута на удалённом VDS и имеет API 2) по этому API я сообщаю вашей программе URL интересующей меня страницы и прочие параметры(proxy, useragent, .... ) 3) ваша программа прикидывается простым браузером и открывает эту страницу (включая работу JS!) 4) В ответ, API возвращает html-код интересующего URL и заголовки ответа удалённого сервера (!!!) В 1500 символов не влез. Ещё пара строк в прикреплённом файле....