How to. make Business LODs and Windows
В документациях к BI-инструментам есть примеры, как использовать LOD-формулы, но они не всегда хорошо транслируются на реальные бизнес-кейсы, надо еще переводить с языка примера на логику того, что же тебе требуется.
Решил попробовать собрать бизнес-кейсы различных LODов с которыми приходят для реализации, кажется, так будет нагляднее.
Буду дополнять на этой страничке
Если принесете свои use cases - будет классно =)
- сколько было клиентов с > чем 1 заказом
- сколько sku товаров было и в плане и в факте
- как посчитать среднюю без выбросов > 90 персентиля
- средний % плохого стока за последнюю неделю
В документациях к BI-инструментам есть примеры, как использовать LOD-формулы, но они не всегда хорошо транслируются на реальные бизнес-кейсы, надо еще переводить с языка примера на логику того, что же тебе требуется.
Решил попробовать собрать бизнес-кейсы различных LODов с которыми приходят для реализации, кажется, так будет нагляднее.
Буду дополнять на этой страничке
Если принесете свои use cases - будет классно =)
- сколько было клиентов с > чем 1 заказом
- сколько sku товаров было и в плане и в факте
- как посчитать среднюю без выбросов > 90 персентиля
- средний % плохого стока за последнюю неделю
🔥7❤1
ClickHouse what's new
Дошли руки отсмотреть видео по последним версиям ClickHouse, в том числе 25.8 LTS, то есть после тестов ее можно в прод.
Полезное
25.8
1. Колонка _table, можно управлять фильтром и значениями в merge как slice колонкой
2. Векторный индекс, production-ready.
3. Движок YTSaurus, возможность подключить в качестве внешнего источника очень крутой Яндексовый инструмент, когда у вас ну очень много данных =)
Скорость
25.8
1. Теперь индексы в табличке будут перед применением отсортированы по размеру на диске. то есть, у нас 10 000 партов, первый легкий индекс сначала быстро применится - останется 1300 партов, а только за ним более тяжелый и уже только на 1300 заголовков будет применяться.
25.9
2. Звучит как мега-огонь, в CH появился JOIN Reordering, надо тестить.
Дошли руки отсмотреть видео по последним версиям ClickHouse, в том числе 25.8 LTS, то есть после тестов ее можно в прод.
Полезное
25.8
1. Колонка _table, можно управлять фильтром и значениями в merge как slice колонкой
2. Векторный индекс, production-ready.
3. Движок YTSaurus, возможность подключить в качестве внешнего источника очень крутой Яндексовый инструмент, когда у вас ну очень много данных =)
Скорость
25.8
1. Теперь индексы в табличке будут перед применением отсортированы по размеру на диске. то есть, у нас 10 000 партов, первый легкий индекс сначала быстро применится - останется 1300 партов, а только за ним более тяжелый и уже только на 1300 заголовков будет применяться.
25.9
2. Звучит как мега-огонь, в CH появился JOIN Reordering, надо тестить.
SET query_plan_optimize_join_order_limit = 10;
SET allow_statistics_optimize = 1;
👍4
How to. Find Root Causes
Сходил тут в осенний трекинг с Пашей и принес хороший пример неполноты данных из источников.
Приложение к часам понятно визуализирует данные: длина, подъем, спуск, геокарта, пульс. И вроде всё ок. Но почему так медленно? Если переносить на язык бизнеса, эффективность операций ужасна, даже если брать YoY на эти же даты - мы как будто шли очень плохо.
Разгадка на фотке в первом комментарии:погода в этом году очень необычная, на 2/3 маршрута выпало 30-50 см снега.
То есть, если бы мы строили какую-то важную аналитику на этих данных, нам надо было бы
• отметить на маршруте смену покрытия и температуру
• дополнить датасетом по осадкам за последнюю неделю
• если аналитический инструмент позволяет, добавить текстовые комментарии на отрезок времени, объясняющий причину отклонения скорости. К сожалению, в приложении к часам этой информации нет.
Старайтесь давать бизнесу весь требуемый контекст, который поможет находить действительную причину событий.
Сходил тут в осенний трекинг с Пашей и принес хороший пример неполноты данных из источников.
Приложение к часам понятно визуализирует данные: длина, подъем, спуск, геокарта, пульс. И вроде всё ок. Но почему так медленно? Если переносить на язык бизнеса, эффективность операций ужасна, даже если брать YoY на эти же даты - мы как будто шли очень плохо.
Разгадка на фотке в первом комментарии:
То есть, если бы мы строили какую-то важную аналитику на этих данных, нам надо было бы
• отметить на маршруте смену покрытия и температуру
• дополнить датасетом по осадкам за последнюю неделю
• если аналитический инструмент позволяет, добавить текстовые комментарии на отрезок времени, объясняющий причину отклонения скорости. К сожалению, в приложении к часам этой информации нет.
Старайтесь давать бизнесу весь требуемый контекст, который поможет находить действительную причину событий.
❤5👍5
Некоторых вещей ждешь долго, но знаешь, на сколько они важны и полезны для BI-Аналитика, который понимает, что цвета должны везде означать одно и то же, что больше 3х цифр в числах нашему мозгу смотреть неудобно. И когда выходит фича, экономящая часы кликов лишних - ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🙏2
Forwarded from Yandex DataLens
В датасетах появляется новая колонка для настройки полей:
- настройка форматирования (для чисел)
- выбор цветов (для измерений)
Настройка доступна в зависимости от типа поля (строка/число и тп) и наличия агрегации (показатель/измерение).
Настройки применяются при использовании этих полей в чартах, построенных по этому датасету.
Новая функциональность сократит время создания качественной аналитики, убрав необходимость настройки на уровне чартов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👍3🙏1
How to. Рассказать подробнее о метрике, если она какая-то нетривиальная. Проблема всех текстовых элементов на дэше - они нужны 1-2 раза, после этого нейронки в головах запоминают логику и больше на текст не хочется смотреть, а место уже занято. Очень хорошо, когда можно убирать всю доп информацию в подсказки, которые не занимают место, но всегда к ним можно обратиться без лишних кликов. В прошлом году внутри Яндекса i-ки и вопросики как реализованная фича заняли первое место при оценке полезности среди BI-команд, во как =)
👍6🙏1
Интересный доклад от Вовы про то, на сколько важен внутри Яндекса rich-заголовок дэша (про который рассказывал тут) со всем сопутствующим
❤2
Forwarded from Yandex for Analytics
BI-аналитику мало собрать идеальную панель. Нужно ещё сделать так, чтобы дашборд оставался живым и актуальным, даже если автор уже давно пересел за новые проекты. А ещё нужно обеспечить понятные и простые механизмы фидбэка для новых пользователей.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
How to. Make MultiSources SQL with Trino
Потестировал тут намедни Trino в DataLens, хочу тут пока зафиксировать, что получилось, что нет и зачем оно вообще в BI?
💚
- Можно делать датасеты в BI с табличками из разных источников и оно работает!
- При этом, для улучшения производительности, берутся статистики по таблицам и если возможно и нужно, результат из одного источника пуш даунится в другой и вообще или дропается JOIN и заменяется на WHERE IN или передается как CTEшка
- Хорошо масштабируется
- Очень крутой Explain, если его лениво самому читать - теперь ж есть AI, когда в первый раз не понял, куда Трина пошла - попросил распарсить всё Алису - подтвердила гипотезу правильной работы с фильтрами. После КХ тут конечно очень вкусный Explain =)
- Есть кеширование запросов в БД, то есть, если у вас слева табличка и по ней ничего не меняется никогда - Трино прочитает раз ее и будет какое-то время брать из кэша ее
- Можно легко попробовать развернуть в Докере
- очень быстро добавлять каталоги (подключения) - в целом за 6 часов проверил все гипотезы с нуля, когда вообще не трогал зверя
💔
- Вроде можно делать кросс-датасетные вещи, но самая база-база: твоя БД + csv[excel] на S3 - нет такого. то есть в любом случае эксельки надо во что-то другое положить или hive/ch как прослойку ну такое
- Какой-то сюр с добавлением пользователей, через downtime системы. Это прям странное для меня в 2025, настроечный файл + ребут
- Для больших JOIN не сможет перекинуть весь контекст в соседнюю систему, то есть JOIN по номеру заказа (например, база с продажами и логистическая) - без фильтрации предварительной не сможет, иногда может стать блокером
- Не бесплатное, если поиграться в облаке, то есть не по цене чашки кофе, как КХ =)
Потестировал тут намедни Trino в DataLens, хочу тут пока зафиксировать, что получилось, что нет и зачем оно вообще в BI?
- Можно делать датасеты в BI с табличками из разных источников и оно работает!
- При этом, для улучшения производительности, берутся статистики по таблицам и если возможно и нужно, результат из одного источника пуш даунится в другой и вообще или дропается JOIN и заменяется на WHERE IN или передается как CTEшка
- Хорошо масштабируется
- Очень крутой Explain, если его лениво самому читать - теперь ж есть AI, когда в первый раз не понял, куда Трина пошла - попросил распарсить всё Алису - подтвердила гипотезу правильной работы с фильтрами. После КХ тут конечно очень вкусный Explain =)
- Есть кеширование запросов в БД, то есть, если у вас слева табличка и по ней ничего не меняется никогда - Трино прочитает раз ее и будет какое-то время брать из кэша ее
- Можно легко попробовать развернуть в Докере
- очень быстро добавлять каталоги (подключения) - в целом за 6 часов проверил все гипотезы с нуля, когда вообще не трогал зверя
- Вроде можно делать кросс-датасетные вещи, но самая база-база: твоя БД + csv[excel] на S3 - нет такого. то есть в любом случае эксельки надо во что-то другое положить или hive/ch как прослойку ну такое
- Какой-то сюр с добавлением пользователей, через downtime системы. Это прям странное для меня в 2025, настроечный файл + ребут
- Для больших JOIN не сможет перекинуть весь контекст в соседнюю систему, то есть JOIN по номеру заказа (например, база с продажами и логистическая) - без фильтрации предварительной не сможет, иногда может стать блокером
- Не бесплатное, если поиграться в облаке, то есть не по цене чашки кофе, как КХ =)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤯2🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Weekend Chart
Чем бы заняться в отпуске, когда ветра нет? посмотреть, где он есть =)
Конечно, AI в BI сильно уменьшает время от идеи до реализации. Представляю вам колдун-чарт =D
Минутка душноты =)
Ветроуказатель (Колдун) - нужен там, где важно направление ветра и его скорость (аэродромы, дропзоны, кайт-споты, любые парусные виды спорта).
Полосатый он не просто так:
- полоски нужны для примерной оценки скорости
- полосатый указатель сильно лучше видно
Сам себе набрасываю:
У меня тут "плохая" картинка в части визуализации: полоски не несут никакой нагрузки + в целом я вывожу топ-7 спотов по количеству ветровых дней, а не по их средней силе.
Чем бы заняться в отпуске, когда ветра нет? посмотреть, где он есть =)
Конечно, AI в BI сильно уменьшает время от идеи до реализации. Представляю вам колдун-чарт =D
Минутка душноты =)
Ветроуказатель (Колдун) - нужен там, где важно направление ветра и его скорость (аэродромы, дропзоны, кайт-споты, любые парусные виды спорта).
Полосатый он не просто так:
- полоски нужны для примерной оценки скорости
- полосатый указатель сильно лучше видно
Сам себе набрасываю:
У меня тут "плохая" картинка в части визуализации: полоски не несут никакой нагрузки + в целом я вывожу топ-7 спотов по количеству ветровых дней, а не по их средней силе.
❤🔥7❤4🔥1