Forwarded from Yandex for Analytics
BI-аналитику мало собрать идеальную панель. Нужно ещё сделать так, чтобы дашборд оставался живым и актуальным, даже если автор уже давно пересел за новые проекты. А ещё нужно обеспечить понятные и простые механизмы фидбэка для новых пользователей.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
How to. Make MultiSources SQL with Trino
Потестировал тут намедни Trino в DataLens, хочу тут пока зафиксировать, что получилось, что нет и зачем оно вообще в BI?
💚
- Можно делать датасеты в BI с табличками из разных источников и оно работает!
- При этом, для улучшения производительности, берутся статистики по таблицам и если возможно и нужно, результат из одного источника пуш даунится в другой и вообще или дропается JOIN и заменяется на WHERE IN или передается как CTEшка
- Хорошо масштабируется
- Очень крутой Explain, если его лениво самому читать - теперь ж есть AI, когда в первый раз не понял, куда Трина пошла - попросил распарсить всё Алису - подтвердила гипотезу правильной работы с фильтрами. После КХ тут конечно очень вкусный Explain =)
- Есть кеширование запросов в БД, то есть, если у вас слева табличка и по ней ничего не меняется никогда - Трино прочитает раз ее и будет какое-то время брать из кэша ее
- Можно легко попробовать развернуть в Докере
- очень быстро добавлять каталоги (подключения) - в целом за 6 часов проверил все гипотезы с нуля, когда вообще не трогал зверя
💔
- Вроде можно делать кросс-датасетные вещи, но самая база-база: твоя БД + csv[excel] на S3 - нет такого. то есть в любом случае эксельки надо во что-то другое положить или hive/ch как прослойку ну такое
- Какой-то сюр с добавлением пользователей, через downtime системы. Это прям странное для меня в 2025, настроечный файл + ребут
- Для больших JOIN не сможет перекинуть весь контекст в соседнюю систему, то есть JOIN по номеру заказа (например, база с продажами и логистическая) - без фильтрации предварительной не сможет, иногда может стать блокером
- Не бесплатное, если поиграться в облаке, то есть не по цене чашки кофе, как КХ =)
Потестировал тут намедни Trino в DataLens, хочу тут пока зафиксировать, что получилось, что нет и зачем оно вообще в BI?
- Можно делать датасеты в BI с табличками из разных источников и оно работает!
- При этом, для улучшения производительности, берутся статистики по таблицам и если возможно и нужно, результат из одного источника пуш даунится в другой и вообще или дропается JOIN и заменяется на WHERE IN или передается как CTEшка
- Хорошо масштабируется
- Очень крутой Explain, если его лениво самому читать - теперь ж есть AI, когда в первый раз не понял, куда Трина пошла - попросил распарсить всё Алису - подтвердила гипотезу правильной работы с фильтрами. После КХ тут конечно очень вкусный Explain =)
- Есть кеширование запросов в БД, то есть, если у вас слева табличка и по ней ничего не меняется никогда - Трино прочитает раз ее и будет какое-то время брать из кэша ее
- Можно легко попробовать развернуть в Докере
- очень быстро добавлять каталоги (подключения) - в целом за 6 часов проверил все гипотезы с нуля, когда вообще не трогал зверя
- Вроде можно делать кросс-датасетные вещи, но самая база-база: твоя БД + csv[excel] на S3 - нет такого. то есть в любом случае эксельки надо во что-то другое положить или hive/ch как прослойку ну такое
- Какой-то сюр с добавлением пользователей, через downtime системы. Это прям странное для меня в 2025, настроечный файл + ребут
- Для больших JOIN не сможет перекинуть весь контекст в соседнюю систему, то есть JOIN по номеру заказа (например, база с продажами и логистическая) - без фильтрации предварительной не сможет, иногда может стать блокером
- Не бесплатное, если поиграться в облаке, то есть не по цене чашки кофе, как КХ =)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤯2🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Weekend Chart
Чем бы заняться в отпуске, когда ветра нет? посмотреть, где он есть =)
Конечно, AI в BI сильно уменьшает время от идеи до реализации. Представляю вам колдун-чарт =D
Минутка душноты =)
Ветроуказатель (Колдун) - нужен там, где важно направление ветра и его скорость (аэродромы, дропзоны, кайт-споты, любые парусные виды спорта).
Полосатый он не просто так:
- полоски нужны для примерной оценки скорости
- полосатый указатель сильно лучше видно
Сам себе набрасываю:
У меня тут "плохая" картинка в части визуализации: полоски не несут никакой нагрузки + в целом я вывожу топ-7 спотов по количеству ветровых дней, а не по их средней силе.
Чем бы заняться в отпуске, когда ветра нет? посмотреть, где он есть =)
Конечно, AI в BI сильно уменьшает время от идеи до реализации. Представляю вам колдун-чарт =D
Минутка душноты =)
Ветроуказатель (Колдун) - нужен там, где важно направление ветра и его скорость (аэродромы, дропзоны, кайт-споты, любые парусные виды спорта).
Полосатый он не просто так:
- полоски нужны для примерной оценки скорости
- полосатый указатель сильно лучше видно
Сам себе набрасываю:
У меня тут "плохая" картинка в части визуализации: полоски не несут никакой нагрузки + в целом я вывожу топ-7 спотов по количеству ветровых дней, а не по их средней силе.
❤🔥7❤4🔥1
WHEN SPAGHETTI IS APPROPRIATE
В среде BI-аналитиков спагетти-чарт это моветон, но тут прям интересна усредняющая статистика (это, кстати, нагрузка на BI систему), как люди приходят, смотрят дэшики, потом уходят на обед и потом возвращаются, но уже не так активно.
В данном случае 2 дня выделяются, один день это праздник, а второй вот не могу понять, как будто предпраздничный день какой-то был, после обеда не вернулись за компы =)
В среде BI-аналитиков спагетти-чарт это моветон, но тут прям интересна усредняющая статистика (это, кстати, нагрузка на BI систему), как люди приходят, смотрят дэшики, потом уходят на обед и потом возвращаются, но уже не так активно.
В данном случае 2 дня выделяются, один день это праздник, а второй вот не могу понять, как будто предпраздничный день какой-то был, после обеда не вернулись за компы =)
😁10
Media is too big
VIEW IN TELEGRAM
How to. Make Plan vs Actual
Простой и понятный чарт исполнения план-факт.
Формулы смотрите на How to дэше
Простой и понятный чарт исполнения план-факт.
Формулы смотрите на How to дэше
🔥14🤩1🙏1
Урок Цифры
Провёл во второй раз "Урок Цифры" у ребенка в классе. Тема злободневная: ИИ.
Основные тезисы:
- Дети в 7м классе пока дети, это чудесно 💜 О том, что ИИ сильно влияет на весь мир пока не задумвыаются
- Юзают ИИ для решения домашки, не всегда вдумчиво
- Одна девочка юзает правильно - уточняет, почему у нее ничего не получилось и ответ не сходится и просит разъяснений
- Сложные темы, типа температуры, вероятностей - не зашли еще, хотя сейчас в школах с 7 класса уже ТВиМС
А в прошлом году был урок про Такси, когда спросил, знает ли кто-то, что такое "граф", ответ из зала улыбнул: ну это кто-то Богатый =)
Провёл во второй раз "Урок Цифры" у ребенка в классе. Тема злободневная: ИИ.
Основные тезисы:
- Дети в 7м классе пока дети, это чудесно 💜 О том, что ИИ сильно влияет на весь мир пока не задумвыаются
- Юзают ИИ для решения домашки, не всегда вдумчиво
- Одна девочка юзает правильно - уточняет, почему у нее ничего не получилось и ответ не сходится и просит разъяснений
- Сложные темы, типа температуры, вероятностей - не зашли еще, хотя сейчас в школах с 7 класса уже ТВиМС
А в прошлом году был урок про Такси, когда спросил, знает ли кто-то, что такое "граф", ответ из зала улыбнул: ну это кто-то Богатый =)
🔥18😁11❤🔥5
Через тернии к Визам
How to. Make Chat in DataLens Немного шутливый пост, что внутри DataLens можно сделать чатик =) ага, как в в конце девяностых в браузерах =) На самом деле полезная штука для определенных задач. Это интеграция через API с Базой данных и запись / чтение из…
Злободневненько
Как знал, что понадобится 😃
Как знал, что понадобится 😃
😁6🤔1
How to Editor. All in One
Во-первых, тут в коментах попросили расписать пример, как сделать чатик в DataLens (не надо повторять! =) попросили для действительно полезной штуки), сделал статью, видосик тут
Во-вторых, в основную статью про Editor добавил последний нераскрытый пункт - как делать JS-селекторы на базе датасетов, кажется, теперь есть единая точка входа, как делать те или иные вещи в Editor от A до Я
+ Основная Дока
+ Демо дэш с примерами и кодом
Во-первых, тут в коментах попросили расписать пример, как сделать чатик в DataLens (не надо повторять! =) попросили для действительно полезной штуки), сделал статью, видосик тут
Во-вторых, в основную статью про Editor добавил последний нераскрытый пункт - как делать JS-селекторы на базе датасетов, кажется, теперь есть единая точка входа, как делать те или иные вещи в Editor от A до Я
+ Основная Дока
+ Демо дэш с примерами и кодом
🔥8❤🔥5
Посыпаю голову пеплом =)
Совсем забыл рассказать, сегодня стартует ежегодный фестиваль DataLens.
Насыщенная неделя с онлайн и оффлайн контентом, очень крутой состав спикеров (я в том числе).
Будут выступать клиенты и партнеры, некоторые кейсы и идеи прям вообще огонь, но спойлерить не буду ;-)
Ну и как обычно: конкурсы и призы, как небольшие мотиваторы к действию =)
Совсем забыл рассказать, сегодня стартует ежегодный фестиваль DataLens.
Насыщенная неделя с онлайн и оффлайн контентом, очень крутой состав спикеров (я в том числе).
Будут выступать клиенты и партнеры, некоторые кейсы и идеи прям вообще огонь, но спойлерить не буду ;-)
Ну и как обычно: конкурсы и призы, как небольшие мотиваторы к действию =)
🔥12
Через тернии к Визам
How to. Narisui mne voronku. To est funnel. Достаем двойные листочки. Провел воркшоп по Editor + Нейроаналитик на Yandex Scale. Начали с простых визуализаций в вакууме и закончили шаблонами чартов, которые участники теперь могут переиспользовать в своих продовых…
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤🔥7😁4
ClickHouse. What's new
Наконец выбрал вечер посмотреть, что нового в ClickHouse появилось, оно того стоило!!!
25.10
Удобства
1. равенство с учётом null: <=>, null <=> = null = True
2. LIMIT N BY DIM1, оставить только N первых записей по DIM1, без оконок! пример в feedle
5. LIMIT -100. Милота - можно брать LIMIT с конца =)
Оптимизации
3. Ооо, крутое, enable_lazy_columns_replication, позволяет делать JOIN сильно оптимальнее, если JOIN по разряженному полю, типа табличка 100М строк JOIN сама на себя за 8 секунд, то есть JOIN не будет сначала все перемножать и потом считать.
4. SET enable_join_runtime_filters, просто ТОП! вместо JOIN, если табличка относительно небольшая, будет подзапрос и в большую табличку передастся PREWHERE! Это решает вопросы с RLS, с моделькой звезды в ClickHouse. Надо прям потестить, кто-нибудь пробовал? Х2 к скорости вроде.
25.11
Удобства
1. LIMIT 0.3 - 30% от выборки =) OFFSET 0.5 - OFFSET первой половины записей
Оптимизации
2. Проекции как способ вторичной сортировки - хороший способ ускорения, но очень дорогой, надо хранить все данные еще раз. ClickHouse представил _part_offset указатель, где проекция делается не на все данные, а на указание, в каких партах искать те или иные отсортированные по другому полю данные. То есть читаться партов будет больше, но для каких-то небольших выборок попадание будет хорошее, а хранить все данные, как в полной проекции, не придется.
3. Проекция с GROUP BY теперь используется как источник для DISTINCT! Долой медленные справочники =)
Наконец выбрал вечер посмотреть, что нового в ClickHouse появилось, оно того стоило!!!
25.10
Удобства
1. равенство с учётом null: <=>, null <=> = null = True
2. LIMIT N BY DIM1, оставить только N первых записей по DIM1, без оконок! пример в feedle
5. LIMIT -100. Милота - можно брать LIMIT с конца =)
Оптимизации
3. Ооо, крутое, enable_lazy_columns_replication, позволяет делать JOIN сильно оптимальнее, если JOIN по разряженному полю, типа табличка 100М строк JOIN сама на себя за 8 секунд, то есть JOIN не будет сначала все перемножать и потом считать.
4. SET enable_join_runtime_filters, просто ТОП! вместо JOIN, если табличка относительно небольшая, будет подзапрос и в большую табличку передастся PREWHERE! Это решает вопросы с RLS, с моделькой звезды в ClickHouse. Надо прям потестить, кто-нибудь пробовал? Х2 к скорости вроде.
25.11
Удобства
1. LIMIT 0.3 - 30% от выборки =) OFFSET 0.5 - OFFSET первой половины записей
Оптимизации
2. Проекции как способ вторичной сортировки - хороший способ ускорения, но очень дорогой, надо хранить все данные еще раз. ClickHouse представил _part_offset указатель, где проекция делается не на все данные, а на указание, в каких партах искать те или иные отсортированные по другому полю данные. То есть читаться партов будет больше, но для каких-то небольших выборок попадание будет хорошее, а хранить все данные, как в полной проекции, не придется.
3. Проекция с GROUP BY теперь используется как источник для DISTINCT! Долой медленные справочники =)
⚡6🔥5