Доработать парсер, который будет автоматизировать процесс поиска предприятий-производителей определенного товара, извлечения их реквизитов и анализа доли выручки от продажи исследуемого товара.
Что уже разработано:
Модуль поиска и сбора данных
• методология формирования поисковых запросов для различных категорий товаров
• автоматизированный поиск по ключевым словам в поисковой системе Google/Яндекс
• модуль сбора результата с первых 10 страниц поисковой выдачи
• сохранение в БД только уникальные сайты/домены
Модуль обработки данных о компаниях
• Парсинг найденных сайтов и извлечение следующие данные:
• Название компании
• ИНН
• ОГРН
• Сохранение полученные данные в БД
Что необходимо доделать:
Модуль анализа ассортимента
• Парсить каталог продукции на каждом сайте (частично сделано, подобраны селекторы для вытягивания категорий)
• Определять перечень производимых товаров и распределить по найденным категориям
• Сохранять информацию о продуктах в БД
Модуль финансового анализа
• Автоматизированный сбор данных о выручке компаний через сервис Руспрофайл
• Расчет доли выручки от количества продукта на основе процентного соотношения по категории товара