Цель
Разработать Python-проект, который:
автоматизирует скачивание CSV-файлов с сайта (данные по внешней торговле: регион, код ТН ВЭД, месяц, импорт/экспорт);
выполняет очистку, стандартизацию и загрузку данных в локальную реляционную базу данных (PostgreSQL);
реализует возможность автоматического обновления при появлении новых данных.
[:1f527] Обязательные компоненты:
1. Скрипт парсинга (download.py)
Получение CSV-файлов с сайта (парсинг ссылок или URL-генерация);
Поддержка загрузки всех исторических файлов;
Опционально: авторизация или обход JS/капчи (если потребуется);
Сохранение файлов в raw_data/ + логирование загрузок.
2. Очистка и нормализация (clean_transform.py)
Удаление пустых/лишних строк;
Приведение числовых значений (замена запятых, удаление пробелов);
Унификация значений (месяцы, регионы, направления);
Приведение к финальной структуре:
3. Создание и наполнение БД (load_to_db.py)
База данных: SQLite (по умолчанию) или PostgreSQL;
Скрипт должен:
автоматически создавать таблицы;
загружать очищенные данные;
проверять на дубли (желательно).
4. Автообновление (update_check.py)
Проверка сайта на появление новых файлов;
При обнаружении нового файла:
Скачивание → очистка → загрузка в БД;
Возможность запуска по расписанию (cron или встроенный schedule).
Срок исполнения: до 14 дней (обсуждается)