На главную

Создать DAG в Apache Airflow, который будет по расписанию запускать

Необходимо создать DAG в Apache Airflow, который будет по расписанию запускать расчёт витрины активности клиентов по сумме и количеству их транзакций.<br><br>Нужно наладить следующий ETL-процесс:<br><br><ol><li><strong>Extract.</strong> Необходимые данные хранятся в таблице <code>profit_table.csv</code>. Это таблица, в которой для каждого клиента по 10-ти продуктам собраны суммы и количества транзакций за каждый месяц.<br><br>Что в названиях столбцов:<br><br><ul><li><code>id</code> — уникальный идентификатор клиента;</li><li>продукты обозначены буквами от a до j латинского алфавита;</li><li>сумма транзакций по соответствующим продуктам начинается с <code>sum_…</code>;</li><li>количество транзакций по соответствующим продуктам начинается с <code>count_…</code>.</li></ul>Для примера в таблице содержатся данные с октября 2023 года по март 2024.<br></li><li><strong>Transform</strong>. Суть витрины, которую необходимо собрать, таблица с флагами активностей клиентов по продуктам. Методика расчёта следующая: клиент считается активным по продукту за дату X, если в предыдущие 3 месяца (X, X-1 и X-2) у него были ненулевая сумма и количество транзакций по нему.<br><br>Но это за нас уже реализовали дата-саентисты. Их код для сбора итоговой витрины находится в функции <code>transform</code> в файле <code>transform_script.py</code>, его необходимо встроить в процесс.<br></li><li><strong>Load</strong>. Итоговые результаты необходимо сохранять в csv-файл <code>flags_activity.csv</code> в той же директории, не перезатирая при этом данные старых расчётов в нём (обратите внимание, последнее не реализовано в примере кода от дата-саентиста, подумайте, какой параметр добавить при сохранении, чтобы всё прошло корректно).<br></li></ol>Особенности дага: он должен запускаться по расписанию каждый месяц 5-го числа. Предполагается, что данные <code>profit_table</code> хранятся в общедоступной директории и пополняются ежемесячно новыми данными - поэтому при чтении таблицы всё должно выполниться без ошибок при наличии данных.<br><br>Какой ожидаем увидеть результат:<br>Необходимо реализовать DAG в Apache Airflow по указанной выше инструкции. В качестве ответа на задание приложите код создания дага и налаженного etl-процесса; а также скрин графа в Airflow и его успешного запуска на главной странице.<br><br><ul><li><code>profit_table.csv</code> — таблица с данными по транзакциям;</li><li><code>transform_script.py</code> — скрипт от дата-саентиста;</li><li><code>flags_activity.csv</code> — пример рассчитанного результата за 2024-03-01.</li></ul>

Доработка 3D анимации в spline.design

Необходимо добавить в существующую анимацию объемные иконки валют, которые будут пролетать "за линиями" в анимации, подробное ТЗ в файле: https://docs.google.com/document/d/1__7TVKdLKPVOkm0kQHSms4Zxn7kBZKqe/edit Текущая...

Монтаж видеоролика с анимацией

Нужно смонтировать ролик из готовых материалов (есть видео, отрисованные персонажи, полный сценарий, музыка, текст в кадре) + дорисовать анимацию (возможно анимировать...

Аудит + составление PR стратегии и плана (Бюджет: 15000 ₽, для всех)

Задача 1. Консультация с анализом текущей ситуации и целей 2. Разработка PR-стратегии и точный план действий для ребрендинга лично меня (переход...