Есть Managed PostgreSQL кластер и ClickHouse кластер в Yandex Cloud. Данные реплицируются из PostgreSQL в ClickHouse с помощью Yandex Data Transfer в таблицы ReplacingMergeTree.
Возникла потребность в создании денормализованных таблиц для аналитики, сейчас это все работает на refreshable materialized view в ClickHouse, то есть таблички периодически полностью очищаются и обновляются с помощью SQL запросов.
Проблема в том, что при таком подходе слишком большая нагрузка на вычислительные мощности ClickHouse кластера, и большое количество ресурсов уходит на полный пересчет таблиц, из-за этого скорость запросов на чтение существенно снижается.
Хочу перенести логику трансформации данных на другой слой и использовать вычислительные ресурсы ClickHouse только для чтения, а не для трансформации данных, как пример, можно использовать Apache Spark в том же Yandex Cloud, либо что-то другое, что Вы посчитаете более подходящим для данной задачи.
Необходима консультация по данной проблеме, а так же показать как на базовом уровне работать с Apache Spark в Python и подключаться к нему через DataGrip.