На главную

Настройка трансформации и поставки данных

Есть Managed PostgreSQL кластер и ClickHouse кластер в Yandex Cloud. Данные реплицируются из PostgreSQL в ClickHouse с помощью Yandex Data Transfer в таблицы ReplacingMergeTree. Возникла потребность в создании денормализованных таблиц для аналитики, сейчас это все работает на refreshable materialized view в ClickHouse, то есть таблички периодически полностью очищаются и обновляются с помощью SQL запросов. Проблема в том, что при таком подходе слишком большая нагрузка на вычислительные мощности ClickHouse кластера, и большое количество ресурсов уходит на полный пересчет таблиц, из-за этого скорость запросов на чтение существенно снижается. Хочу перенести логику трансформации данных на другой слой и использовать вычислительные ресурсы ClickHouse только для чтения, а не для трансформации данных, как пример, можно использовать Apache Spark в том же Yandex Cloud, либо что-то другое, что Вы посчитаете более подходящим для данной задачи. Необходима консультация по данной проблеме, а так же показать как на базовом уровне работать с Apache Spark в Python и подключаться к нему через DataGrip.

Верстка и натяжка дизайна на сайт написанный на php

Верстка и натяжка нового дизайна для сайта на php шаблоне. Верстка+натяжка + правки. Детали в тз, если не автоответ, пишите 2903,...

Сделать субтитры к видео (1 минута)

Нужно сделать красивые анимированные субтитры, сохранив 4к разрешение. Белые буквы, синяя плашка под активное слово + выделение ключевых слов желтым (пришлите...

Дизайн для флаера (вкладыша) по ТЗ

У нас есть айдентика, которая акцентирует внимание на идее "Love Myself" – это философия любви к себе. В дизайне мы делаем...