Через тернии к Визам
588 subscribers
99 photos
18 videos
41 links
Про DWH, CH, BI и автоматизации рядом
Канал это место для дискуссий =D То есть не стесняемся задавать вопросы, уточнять и говорить свое фи.

Канал ведёт Юра, который любит данные, оптимизации в БД и визуализацию

Большие посты тут
https://датавиз.рф
Download Telegram
Radar Chart не только в спорт аналитике, но и у ребёнка на карточках Naruto. 😂
🔥11
CH 25.6
Вчера выложили запись нового релиза CH, отсмотрел, рассказываю, что показалось интересным с точки зрения BI или Data поставок

1) Консистентность SELECT с подзапросами, если в таблицу постоянно что-то льется, snapshot теперь один на все подзапросы одной и той же таблицы.

2) Запись в Merge движок! ооо, прям интересно, как это может быть использовано, всегда воспринимал Merge только как SELECT-вьюху. Типа можно в какой-то момент стопнуть одну таблицу и начать заливать в следующую

Merge(db,'table_\d+$',auto)
-- будет лить в последнюю табличку по порядку


3) Performance 1. Для Distributed табличек - поменяли место сериализации данных на машинах - стали параллелить сериализацию -40% к времени выполнения!

4) Performance 2. Добавили управление количеством запросов в настройках WORKLOAD, то есть можно еще лучше потюнить запросы, которые идут к DWH источникам, например и к Аналитическим, в зависимости от важности

5) Performance 3. Проверка и использование нескольких проекций, а не одной. Не тестировал еще на своем кейсе, но у меня была проблема в разных проекциях: group by 1, group by 1,2 group by 1,2,3 и в случае выбора 1 и/или 2 бралась все равно проекция 1,2,3 и это прям было больно

6) Performance 4. ch dig - офигенская тула по мониторингу CH, там есть раздел Slow Queries 😈 и Flame Graph для того, чтобы понять, где именно в Query самый медленный кусок!

7) Nice. Новая Веб мордочка к серверу приятная, монитор, WebSQL UI, Дока, Удобно быстро что-то без SQL Manager пописать и посмотреть состояние сервера в целом =)
👍3🙏2
Привет! Вот тут буду рассказывать, как и где оптимизировать ClickHouse и DataLens, чтобы дэшики открывались быстрее. Будет много информации и полезный чек-лист в итоге, присоединяйтесь. 😈😂

https://yandex.cloud/ru/events/1285
🔥153
This media is not supported in your browser
VIEW IN TELEGRAM
Friday Joke
- Юр, а DataLens умеет рисовать 3D-чарты?
- ** ****** ***?
-
А если очень надо?
- AI, нарисуй мне 3D-чарт Lego в виде чарта Editor

Пожалуйста, не делайте 3D-чарты для задач, где они не нужны =) То есть практически никогда =)
😁173
SundAI joke.
Сестра подарила шутку =) Ну, во-первых, ребята молодцы, ловят волну хайпа =)
А вообще, сюрные мысли в голову полезли. Кофе, который обжаривают на перегретых Nvidia H200, но его стоимость определять задачками, которыми были заняты видюхи, пока жарили кофе. Если очередной hello, world писали - обычный прайс, а если решали задачи Давида Гильберта - 20х к стоимости и ожидаемое тонкое послевкусие =)
😁11👍1
That's life!
Даша - 'Дашбордец' лет пять назад мне провела ликбез, что такое симулякры и как могут быть симулякры от симулякров =)

Такое может случиться, но в реалиях AI и ответа от помощников и даже без галлюцинаций =)

1) Я описал свое видение фичи DataLens в wiki, но прям с примерами, как будто оно уже есть
2) AI прочел и запомнил мою Wiki
3) сегодня он же на голубом глазу сказал, да, такое можно сделать в DataLens, вот пример и вот ссылка на доку =)

Кажется, следующий виток развития - это проверка каждого своего довода и кода через MCP или чего еще придумают. А пока этим будут заниматься кожаные мешки =)
🤔4🌚3😁2🤯2
На выходных было слишком жарко [36 в Подмосковье]...
Чтобы еще кидать душную и полезную статью, было бы как в фильме "Пекло" (оч советую, кстати)

Решил подождать до понедельника =)
Полезный набор скриптов, чтобы хранить в ClickHouse поменьше, сортировать получше, убирать лишние фильтры и так далее =)

Вот тут еще подумал, кажется, на базе этих скриптов надо бы собрать демо-дэшик в галерею DataLens, чтобы развернул - и сразу понятно, где дропнуть что в ClickHouse.
⚡️ - если звучит полезно.
🔥16151
Прошедший вебинар про ускорение ClickHouse около BI, рефлексия
- В студии, с большой камерой и вокруг темнотой - надо привыкать =) очень необычно
- 400 человек это прям хорошо, уверен, что донёс много полезного в разные компании =)
- Порадовали вопросы из "зала", спасибо!
- Когда проводишь вебинар обычный и можешь получить фидбек в течение 10 минут - "сложно, давай остановимся и разжуем" - проще, понятно, что тебя слушают =)
- уже не терпится рассказать про более сложные кейсы =)

Кто не смог подключиться из-за занятости, должен был получить ссылку с записью на почту, вот она на всякий случай
и там же чеклист по оптимизации
15🔥5👍1
Friday Joke
Не забываем, что в ClickHouse надо максимально избегать Nullable поля, они, по сути, включают в себя 2 колонки - одну с данными, а другую, является ли значение null или нет. Это дорого.
👍20😁6
History of Big Data #1
Пример, который хочу вспомнить, поражает меня постоянно. Когда в следующий раз будете прокидывать еще один атрибут в воронку и жаловаться, что DWH делает всё медленно - вспомните эту историю =)


Врач, который не использует термометр в своей работе, походит на слепого, который пытается определить цвет с помощью осязания


Проект длиной в 15 ЛЕТ
Карл Вундерлих - врач, который первый в мире систематизировал знания о температуре человека и в 1868 году опубликовал результат своего исследования - оценку средней температуры здорового человека.

Каждый день, утром и вечером, заставлял пациентов держать градусник и вместе с помощниками собрал информацию о 25 000 пациентах.
Не смог найти подтверждений о громкой цифре в 1 млн замеров в некоторых статьях, но 100 тыс замеров были сделаны, записаны на бумаге и по ним посчитаны основные статистики.

Благодаря его титанической работе у врачей появилась в арсенале одна из метрик состояния пациента, а на любом градуснике - контекст, говорящий, а со мной все в порядке?

Про источники данных
Градусник располагался во рту, это позволяет сделать измерение быстрее и точнее, температура при этом 37°. А в Советской школе медицины использовали подмышечное измерение, это было безопаснее, хотя погрешность больше и температура 36.6°.
Как мы видим, от источника данных зависит результат =)

Про трансформацию данных
Еще одна потенциальная причина расхождений 36.6° и 37° - это погрешность перевода из системы Фаренгейта в Цельсии.

Про метрику, которая изменяется
А вообще, хотя мы все привыкли к метрике 36.6, последние исследования говорят, что мы потихоньку охлаждаемся, ученые связывают это с развитием медицины и в целом повышением уровня здоровья, а так же, как ни странно, кондиционерами и батареями =)

Всем хорошего теплого дня, не болейте, собирайте полезные данные =)
🔥17
Приоткрывая завесу тайны…
Пару месяцев чувствовал себя как тот мальчик, которому рассказали секрет, но он не мог им поделиться.
Now its officially, так сказать =)

Уже около месяца в DataLens внутри Яндекса для всех сотрудников доступен Нейроаналитик - AI-помощник в формате чата.
Он отлично справляется с суммаризацией чартов (при этом часть промта задаёт владелец дэша — это очень удобно), а также обучен работе с Editor. Благодаря этому можно быстро создавать различные JS-визуализации (это 🔥).

Первая версия инструмента для Yandex Cloud станет доступна внешним компаниям в сентябре 2025 года. Уже сейчас можно записаться в лист ожидания!
18🔥5👍1
Friday Joke.
Ну ClickHouse не очень любит JOINs, а мы все любим пятницу и объединяться с близкими по духу людьми =)

Всем хороших выходных.
😁10🍾3
Не всегда нужно DWH
- Юр, классно, конечно, широкие таблицы, BIG Data, но вот что, если у меня просто в S3 JSON логи льются и я хочу папочку с логами покрутить быстро - тоже весь путь проделывать?
- Не, если надо быстро покрутить Ad-hoc - хватит и вот такого решения над самой простой инсталляцией ClickHouse. Всю папку по маске можно прочесть из S3 и сразу все поля из JSON ClickHouse за тебя распарсит.
- Вроде то, что нужно, а скинь скрипт селекта?


SELECT * from s3(
'https://storage.yandexcloud.net/YOUR_PATH/log_{001..999}.csv',
'JSONEachRow')
🔥6
Media is too big
VIEW IN TELEGRAM
How to. Make Chat in DataLens
Немного шутливый пост, что внутри DataLens можно сделать чатик =)
ага, как в в конце девяностых в браузерах =)

На самом деле полезная штука для определенных задач. Это интеграция через API с Базой данных и запись / чтение из нее информации. Это может быть write-back, триггер обновления данных или смена статуса заказа (привет, CRM)
🔥9🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
AI - BI #1.
Вот еще один простой пример, как использовать API Connector, на этот раз с пользой =)

JS ChartAPIAPI AI

По естественному запросу заполняются поля с фильтрами, которые применимы именно к этому датасету.
Самая сложная штука была в написании промпта, чтобы ответ был идемподентен и не придумывал лишнего.

🤖 Возможно, общение с AI это в том числе новый SQL, но с нагретым от GPU воздухом =)


💡 Из интересного
- Сетка тут не из ТОПовых, а результат отличный
- Потребовалось профилирование полей, чтобы AI не придумывала мастер-данные

- Реализация заняла меньше дня суммарно
🔥84🤯2
How to. Filter for YoY* efficiently
Если нужно сравнить какой-то интервал с таким же интервалом предыдущего года - мы используем AGO, LAG. Но если данных в табличке ОООЧЕНЬ много - это неэффективно, дорого и даже мощная железка ClickHouse может сказать НЕТ

Чтобы этого избежать - фильтруйте сразу нужные интервалы дат заранее, для самого интервала и соответствующего YoY, так вы сильно меньше прочитаете данных, не будет JOINs и ваш пользователь будет счастлив =)

*Year-over-Year сравнение

[
filter_date] BETWEEN
Date(SUBSTR([date_interval],12,10))
AND
Date(SUBSTR([date_interval],37,10))
OR
[filter_date] BETWEEN
DATEADD(Date(SUBSTR([date_interval],12,10)),'day',-364)
and
DATEADD(Date(SUBSTR([date_interval],37,10)),'day',-364)
🔥4
Friday Jeeza
На самом деле, правильный prompt - это важная часть работы с сетками.
Вот эту картинку собирал в PowerPoint, потому что не умею в картиночные промпты =)
Коллега Антон вот умеет в музыкальные сетки и прикольно получается - а для меня это вообще темный лес как и создание музыки =)

А ты чем пользуешься и для каких задач?
В моём детстве у меня была энциклопедия Профессора Фортрана и это было нереально круто. Считаю, что после нее с алгоритмами сильно проще в начальной школе было.PDF

А вот ребенку лет 5 назад купил на Авито книгу французских авторов, которая была выпущена намного раньше ЭПФ и в ней очень интересно и про распознавание образов и про роботов-пылесосов рассказано с алгоритмами. PDF

UPD. когда увидел ее на Авито вспомнил сразу Филипа К. Дика =)
13