На главную

Настройка трансформации и поставки данных

Есть Managed PostgreSQL кластер и ClickHouse кластер в Yandex Cloud. Данные реплицируются из PostgreSQL в ClickHouse с помощью Yandex Data Transfer в таблицы ReplacingMergeTree. Возникла потребность в создании денормализованных таблиц для аналитики, сейчас это все работает на refreshable materialized view в ClickHouse, то есть таблички периодически полностью очищаются и обновляются с помощью SQL запросов. Проблема в том, что при таком подходе слишком большая нагрузка на вычислительные мощности ClickHouse кластера, и большое количество ресурсов уходит на полный пересчет таблиц, из-за этого скорость запросов на чтение существенно снижается. Хочу перенести логику трансформации данных на другой слой и использовать вычислительные ресурсы ClickHouse только для чтения, а не для трансформации данных, как пример, можно использовать Apache Spark в том же Yandex Cloud, либо что-то другое, что Вы посчитаете более подходящим для данной задачи. Необходима консультация по данной проблеме, а так же показать как на базовом уровне работать с Apache Spark в Python и подключаться к нему через DataGrip.

Сделать 5 слайдов для презентации

Сделать 5 слайдов для презентации. работа во вложении, тех задание по презентации тоже. нужно сегодня. до 16.00 по Москве. цена договорная...

Нужен старый инстаграм аккаунт

Нужен старый инстаграм аккаунт для рекламы. У кого есть, аккаунт, который не жалко использовать в рекламных целях и, если что, потерять.

Дизайн листовки для кафе (Бюджет: 8000 ₽)

требуется дизайн флаера, краткое тз есть, пишите