Domain suspended or not configured

If you are the administrator and believe this is an error on our side, please check your BunnyCDN account configuration or contact customer support.

Настройка трансформации и поставки данных | fseek.ru

Fseek

Войти через:

Продолжая, вы принимаете наши условия

На главную

Настройка трансформации и поставки данных

Есть Managed PostgreSQL кластер и ClickHouse кластер в Yandex Cloud. Данные реплицируются из PostgreSQL в ClickHouse с помощью Yandex Data Transfer в таблицы ReplacingMergeTree. Возникла потребность в создании денормализованных таблиц для аналитики, сейчас это все работает на refreshable materialized view в ClickHouse, то есть таблички периодически полностью очищаются и обновляются с помощью SQL запросов. Проблема в том, что при таком подходе слишком большая нагрузка на вычислительные мощности ClickHouse кластера, и большое количество ресурсов уходит на полный пересчет таблиц, из-за этого скорость запросов на чтение существенно снижается. Хочу перенести логику трансформации данных на другой слой и использовать вычислительные ресурсы ClickHouse только для чтения, а не для трансформации данных, как пример, можно использовать Apache Spark в том же Yandex Cloud, либо что-то другое, что Вы посчитаете более подходящим для данной задачи. Необходима консультация по данной проблеме, а так же показать как на базовом уровне работать с Apache Spark в Python и подключаться к нему через DataGrip.

19.12.2024 в 10:14

Перейти к оригиналу