Через тернии к Визам
588 subscribers
98 photos
18 videos
41 links
Про DWH, CH, BI и автоматизации рядом
Канал это место для дискуссий =D То есть не стесняемся задавать вопросы, уточнять и говорить свое фи.

Канал ведёт Юра, который любит данные, оптимизации в БД и визуализацию

Большие посты тут
https://датавиз.рф
Download Telegram
Привет! Вот тут буду рассказывать, как и где оптимизировать ClickHouse и DataLens, чтобы дэшики открывались быстрее. Будет много информации и полезный чек-лист в итоге, присоединяйтесь. 😈😂

https://yandex.cloud/ru/events/1285
🔥153
This media is not supported in your browser
VIEW IN TELEGRAM
Friday Joke
- Юр, а DataLens умеет рисовать 3D-чарты?
- ** ****** ***?
-
А если очень надо?
- AI, нарисуй мне 3D-чарт Lego в виде чарта Editor

Пожалуйста, не делайте 3D-чарты для задач, где они не нужны =) То есть практически никогда =)
😁173
SundAI joke.
Сестра подарила шутку =) Ну, во-первых, ребята молодцы, ловят волну хайпа =)
А вообще, сюрные мысли в голову полезли. Кофе, который обжаривают на перегретых Nvidia H200, но его стоимость определять задачками, которыми были заняты видюхи, пока жарили кофе. Если очередной hello, world писали - обычный прайс, а если решали задачи Давида Гильберта - 20х к стоимости и ожидаемое тонкое послевкусие =)
😁11👍1
That's life!
Даша - 'Дашбордец' лет пять назад мне провела ликбез, что такое симулякры и как могут быть симулякры от симулякров =)

Такое может случиться, но в реалиях AI и ответа от помощников и даже без галлюцинаций =)

1) Я описал свое видение фичи DataLens в wiki, но прям с примерами, как будто оно уже есть
2) AI прочел и запомнил мою Wiki
3) сегодня он же на голубом глазу сказал, да, такое можно сделать в DataLens, вот пример и вот ссылка на доку =)

Кажется, следующий виток развития - это проверка каждого своего довода и кода через MCP или чего еще придумают. А пока этим будут заниматься кожаные мешки =)
🤔4🌚3😁2🤯2
На выходных было слишком жарко [36 в Подмосковье]...
Чтобы еще кидать душную и полезную статью, было бы как в фильме "Пекло" (оч советую, кстати)

Решил подождать до понедельника =)
Полезный набор скриптов, чтобы хранить в ClickHouse поменьше, сортировать получше, убирать лишние фильтры и так далее =)

Вот тут еще подумал, кажется, на базе этих скриптов надо бы собрать демо-дэшик в галерею DataLens, чтобы развернул - и сразу понятно, где дропнуть что в ClickHouse.
⚡️ - если звучит полезно.
🔥16151
Прошедший вебинар про ускорение ClickHouse около BI, рефлексия
- В студии, с большой камерой и вокруг темнотой - надо привыкать =) очень необычно
- 400 человек это прям хорошо, уверен, что донёс много полезного в разные компании =)
- Порадовали вопросы из "зала", спасибо!
- Когда проводишь вебинар обычный и можешь получить фидбек в течение 10 минут - "сложно, давай остановимся и разжуем" - проще, понятно, что тебя слушают =)
- уже не терпится рассказать про более сложные кейсы =)

Кто не смог подключиться из-за занятости, должен был получить ссылку с записью на почту, вот она на всякий случай
и там же чеклист по оптимизации
15🔥5👍1
Friday Joke
Не забываем, что в ClickHouse надо максимально избегать Nullable поля, они, по сути, включают в себя 2 колонки - одну с данными, а другую, является ли значение null или нет. Это дорого.
👍20😁6
History of Big Data #1
Пример, который хочу вспомнить, поражает меня постоянно. Когда в следующий раз будете прокидывать еще один атрибут в воронку и жаловаться, что DWH делает всё медленно - вспомните эту историю =)


Врач, который не использует термометр в своей работе, походит на слепого, который пытается определить цвет с помощью осязания


Проект длиной в 15 ЛЕТ
Карл Вундерлих - врач, который первый в мире систематизировал знания о температуре человека и в 1868 году опубликовал результат своего исследования - оценку средней температуры здорового человека.

Каждый день, утром и вечером, заставлял пациентов держать градусник и вместе с помощниками собрал информацию о 25 000 пациентах.
Не смог найти подтверждений о громкой цифре в 1 млн замеров в некоторых статьях, но 100 тыс замеров были сделаны, записаны на бумаге и по ним посчитаны основные статистики.

Благодаря его титанической работе у врачей появилась в арсенале одна из метрик состояния пациента, а на любом градуснике - контекст, говорящий, а со мной все в порядке?

Про источники данных
Градусник располагался во рту, это позволяет сделать измерение быстрее и точнее, температура при этом 37°. А в Советской школе медицины использовали подмышечное измерение, это было безопаснее, хотя погрешность больше и температура 36.6°.
Как мы видим, от источника данных зависит результат =)

Про трансформацию данных
Еще одна потенциальная причина расхождений 36.6° и 37° - это погрешность перевода из системы Фаренгейта в Цельсии.

Про метрику, которая изменяется
А вообще, хотя мы все привыкли к метрике 36.6, последние исследования говорят, что мы потихоньку охлаждаемся, ученые связывают это с развитием медицины и в целом повышением уровня здоровья, а так же, как ни странно, кондиционерами и батареями =)

Всем хорошего теплого дня, не болейте, собирайте полезные данные =)
🔥17
Приоткрывая завесу тайны…
Пару месяцев чувствовал себя как тот мальчик, которому рассказали секрет, но он не мог им поделиться.
Now its officially, так сказать =)

Уже около месяца в DataLens внутри Яндекса для всех сотрудников доступен Нейроаналитик - AI-помощник в формате чата.
Он отлично справляется с суммаризацией чартов (при этом часть промта задаёт владелец дэша — это очень удобно), а также обучен работе с Editor. Благодаря этому можно быстро создавать различные JS-визуализации (это 🔥).

Первая версия инструмента для Yandex Cloud станет доступна внешним компаниям в сентябре 2025 года. Уже сейчас можно записаться в лист ожидания!
18🔥5👍1
Friday Joke.
Ну ClickHouse не очень любит JOINs, а мы все любим пятницу и объединяться с близкими по духу людьми =)

Всем хороших выходных.
😁10🍾3
Не всегда нужно DWH
- Юр, классно, конечно, широкие таблицы, BIG Data, но вот что, если у меня просто в S3 JSON логи льются и я хочу папочку с логами покрутить быстро - тоже весь путь проделывать?
- Не, если надо быстро покрутить Ad-hoc - хватит и вот такого решения над самой простой инсталляцией ClickHouse. Всю папку по маске можно прочесть из S3 и сразу все поля из JSON ClickHouse за тебя распарсит.
- Вроде то, что нужно, а скинь скрипт селекта?


SELECT * from s3(
'https://storage.yandexcloud.net/YOUR_PATH/log_{001..999}.csv',
'JSONEachRow')
🔥6
Media is too big
VIEW IN TELEGRAM
How to. Make Chat in DataLens
Немного шутливый пост, что внутри DataLens можно сделать чатик =)
ага, как в в конце девяностых в браузерах =)

На самом деле полезная штука для определенных задач. Это интеграция через API с Базой данных и запись / чтение из нее информации. Это может быть write-back, триггер обновления данных или смена статуса заказа (привет, CRM)
🔥9🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
AI - BI #1.
Вот еще один простой пример, как использовать API Connector, на этот раз с пользой =)

JS ChartAPIAPI AI

По естественному запросу заполняются поля с фильтрами, которые применимы именно к этому датасету.
Самая сложная штука была в написании промпта, чтобы ответ был идемподентен и не придумывал лишнего.

🤖 Возможно, общение с AI это в том числе новый SQL, но с нагретым от GPU воздухом =)


💡 Из интересного
- Сетка тут не из ТОПовых, а результат отличный
- Потребовалось профилирование полей, чтобы AI не придумывала мастер-данные

- Реализация заняла меньше дня суммарно
🔥84🤯2
How to. Filter for YoY* efficiently
Если нужно сравнить какой-то интервал с таким же интервалом предыдущего года - мы используем AGO, LAG. Но если данных в табличке ОООЧЕНЬ много - это неэффективно, дорого и даже мощная железка ClickHouse может сказать НЕТ

Чтобы этого избежать - фильтруйте сразу нужные интервалы дат заранее, для самого интервала и соответствующего YoY, так вы сильно меньше прочитаете данных, не будет JOINs и ваш пользователь будет счастлив =)

*Year-over-Year сравнение

[
filter_date] BETWEEN
Date(SUBSTR([date_interval],12,10))
AND
Date(SUBSTR([date_interval],37,10))
OR
[filter_date] BETWEEN
DATEADD(Date(SUBSTR([date_interval],12,10)),'day',-364)
and
DATEADD(Date(SUBSTR([date_interval],37,10)),'day',-364)
🔥4
Friday Jeeza
На самом деле, правильный prompt - это важная часть работы с сетками.
Вот эту картинку собирал в PowerPoint, потому что не умею в картиночные промпты =)
Коллега Антон вот умеет в музыкальные сетки и прикольно получается - а для меня это вообще темный лес как и создание музыки =)

А ты чем пользуешься и для каких задач?
В моём детстве у меня была энциклопедия Профессора Фортрана и это было нереально круто. Считаю, что после нее с алгоритмами сильно проще в начальной школе было.PDF

А вот ребенку лет 5 назад купил на Авито книгу французских авторов, которая была выпущена намного раньше ЭПФ и в ней очень интересно и про распознавание образов и про роботов-пылесосов рассказано с алгоритмами. PDF

UPD. когда увидел ее на Авито вспомнил сразу Филипа К. Дика =)
13
Фича, которую очень ждали многие (и мы внутри Яндекс тоже), вот теперь можно разгуляться 😃
Forwarded from Yandex DataLens
Media is too big
VIEW IN TELEGRAM
⚡️ Параметризация источника в датасете

Встречайте функциональность, выводящую работу с вашими датасетами на новый уровень!

Параметризация позволит:
- Подменять таблицу в запросах
- Передавать в SQL, определяющий датасет, параметр как часть запроса

Смотрите видео и читайте подробности в документации!
11🔥10