На главную

Python-проект по парсингу

Цель Разработать Python-проект, который: автоматизирует скачивание CSV-файлов с сайта (данные по внешней торговле: регион, код ТН ВЭД, месяц, импорт/экспорт); выполняет очистку, стандартизацию и загрузку данных в локальную реляционную базу данных (PostgreSQL); реализует возможность автоматического обновления при появлении новых данных. [:1f527] Обязательные компоненты: 1. Скрипт парсинга (download.py) Получение CSV-файлов с сайта (парсинг ссылок или URL-генерация); Поддержка загрузки всех исторических файлов; Опционально: авторизация или обход JS/капчи (если потребуется); Сохранение файлов в raw_data/ + логирование загрузок. 2. Очистка и нормализация (clean_transform.py) Удаление пустых/лишних строк; Приведение числовых значений (замена запятых, удаление пробелов); Унификация значений (месяцы, регионы, направления); Приведение к финальной структуре: 3. Создание и наполнение БД (load_to_db.py) База данных: SQLite (по умолчанию) или PostgreSQL; Скрипт должен: автоматически создавать таблицы; загружать очищенные данные; проверять на дубли (желательно). 4. Автообновление (update_check.py) Проверка сайта на появление новых файлов; При обнаружении нового файла: Скачивание → очистка → загрузка в БД; Возможность запуска по расписанию (cron или встроенный schedule). Срок исполнения: до 14 дней (обсуждается)

Python поправить парсинг

Парсим таблицу ЛК. 1. Парсинг работает, но не стабильно. Если таблица до 20 страниц, то все ок. Большие таблицы 20+ страниц...