How to. Make Actuals in CH + Plan in CSV
Если у вас факты не адские (то есть, мы не говорим о плановом DAU и подсчет юников единиц миллионов и план под него), а просто рубли, где будует сумма классическая и план тоже сумма, то есть простой способ добавить к факту (его обычно DWH собирает) план рядышком, если вдруг таблицы еще нет в Merge в CH, просто выложив его на S3.
Если у вас факты не адские (то есть, мы не говорим о плановом DAU и подсчет юников единиц миллионов и план под него), а просто рубли, где будует сумма классическая и план тоже сумма, то есть простой способ добавить к факту (его обычно DWH собирает) план рядышком, если вдруг таблицы еще нет в Merge в CH, просто выложив его на S3.
SELECT
'plan' as slice,
* FROM s3(
'https://storage.yandexcloud.net/skaradubpics/extracts_tests/plan_1.csv','CSV')
UNION all
SELECT 'actual' as slice,
category_stream_name as category,
msk_item_created_dt as creation_date,
cast(item_price_rub as Int64) as metric
FROM {YOUR_TABLE}
👍1
How not to. Name your table/fields in DB
Надеюсь, что никто уже так не делает, но, собрал перечень проблем, с которыми вы сможете столкнуться, если будете таблички или названия полей в БД делать кириллическими символами.
Почему кириллица плохо:
- Проблемы с кодировкой
- Совместимость с международными стандартами
- Некоторые пакеты ORM или внутриязыковые не любят их
- Не берусь утверждать, но как будто движки-оптимизаторы внутри самих СУБД тоже могут косячить
- Локализация в будущем продукта, когда захочется, чтобы бизнес рос
- Интеграция между системами
- В контейнеризации (docker) баги тоже встречаются
- Парсинг логов для анализа, если на русском, еще большими буквами и еще и с пробелами
Поэтому, лучше пишите понятно для всех, конечно, договорившись внутри DATA команды о правилах нейминга
Надеюсь, что никто уже так не делает, но, собрал перечень проблем, с которыми вы сможете столкнуться, если будете таблички или названия полей в БД делать кириллическими символами.
Почему кириллица плохо:
- Проблемы с кодировкой
- Совместимость с международными стандартами
- Некоторые пакеты ORM или внутриязыковые не любят их
- Не берусь утверждать, но как будто движки-оптимизаторы внутри самих СУБД тоже могут косячить
- Локализация в будущем продукта, когда захочется, чтобы бизнес рос
- Интеграция между системами
- В контейнеризации (docker) баги тоже встречаются
- Парсинг логов для анализа, если на русском, еще большими буквами и еще и с пробелами
Поэтому, лучше пишите понятно для всех, конечно, договорившись внутри DATA команды о правилах нейминга
delivery_region_id
delivery_region_name
is_clean, clean_flg
delivery_dt[tm]
👍6😢2
С днем тестировщика!
Мне вот стало интересно, получается, мотыльки имеют токопроводимость такую нормальную? я вот думал, что хитин не проводит ток?
Я встречал в проектах DATA и BI тесты разные, это и DQ проверки, и было-стало и классическое "количества записей на вход-выход", но самый забавный опыт был у меня, когда финансисты по ТЗ взяли линейку и сверяли на мониторе пропорции отчетной формы, которая получилась у подрядчика.
9 сентябра 1947 года настоящий жучок (на самом деле мотылёк), залез между контактами в компьютере в Гарварде и заставил обратить на себя внимание =) Так появился термин дебаггинг и спустя n лет решили праздновать день тестировщика.
Мне вот стало интересно, получается, мотыльки имеют токопроводимость такую нормальную? я вот думал, что хитин не проводит ток?
Я встречал в проектах DATA и BI тесты разные, это и DQ проверки, и было-стало и классическое "количества записей на вход-выход", но самый забавный опыт был у меня, когда финансисты по ТЗ взяли линейку и сверяли на мониторе пропорции отчетной формы, которая получилась у подрядчика.
❤6😁2
Workshop
На следующей неделе на Scale буду проводить Воркшоп, как сделать себе шаблончик визуализации с помощью AI. То есть не просто один график под конкретный датасет, а как шаблонизировать свою работу и в итоге сделать график, который сможете использовать в своих дэшах на разных датасетах 1-2-10 раз.
Регайтесь на Scale, приходите, будем творить.
Ну не прям, чтобы творить, скорее указывать, что мы хотим =)
UPD Ах, да, именно поэтому пока мало контента, в октябре исправлюсь =D
На следующей неделе на Scale буду проводить Воркшоп, как сделать себе шаблончик визуализации с помощью AI. То есть не просто один график под конкретный датасет, а как шаблонизировать свою работу и в итоге сделать график, который сможете использовать в своих дэшах на разных датасетах 1-2-10 раз.
Регайтесь на Scale, приходите, будем творить.
UPD Ах, да, именно поэтому пока мало контента, в октябре исправлюсь =D
🔥11❤6
Это прям мега фича в парадигму "каждый должен заниматься своим делом" =)
Forwarded from Yandex DataLens
Подключение как к управляемой БД в текущей организации Yandex Cloud, так и внешней БД со своими реквизитами и выбором типа аутентификации.
Для подключения необходимо указать параметры сервера Trino, включая адрес, порт и учётные данные.
Подробно в документации
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
How to. Narisui mne voronku. To est funnel.
Достаем двойные листочки.
Провел воркшоп по Editor + Нейроаналитик на Yandex Scale.
Начали с простых визуализаций в вакууме и закончили шаблонами чартов, которые участники теперь могут переиспользовать в своих продовых дэшах.
Я Доволен =) и тайминг и задачи все решены.
Фиксация результатов на общей доске прибавила фана и дала понять, на сколько недетерминирован ответ одной и той же модельки по тому же промпту =)
Случился овербукинг, простите все, кто не смог сесть за стол.
Спасибо всем участникам!
Провел воркшоп по Editor + Нейроаналитик на Yandex Scale.
Начали с простых визуализаций в вакууме и закончили шаблонами чартов, которые участники теперь могут переиспользовать в своих продовых дэшах.
Я Доволен =) и тайминг и задачи все решены.
Фиксация результатов на общей доске прибавила фана и дала понять, на сколько недетерминирован ответ одной и той же модельки по тому же промпту =)
Случился овербукинг, простите все, кто не смог сесть за стол.
Спасибо всем участникам!
🔥23❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
C - Collaboration =)
Тут я был только руками для реализации отчёта DataLens, а основная составляющая - дизайн, прям очень нравится как ребята придумали отрисовать онлайн-статистику (real time из YDB) потребления кофе и софт-напитков для мероприятия в Казани.
Тут я был только руками для реализации отчёта DataLens, а основная составляющая - дизайн, прям очень нравится как ребята придумали отрисовать онлайн-статистику (real time из YDB) потребления кофе и софт-напитков для мероприятия в Казани.
🔥14
How to. DataLens Editor
Привет!
Начал записывать серию видео прям по детальным шагам, как устроен DataLens Editor, с самого начала и по нарастающей. Каждый видосик будет дополняться примерами кода. Пожалуйста, придите в комментарии, какие еще темы непонятны в Editor + на сколько хорошо разжёвано (те, кто не юзал Editor до этого)
https://data2viz.ru/editor
Привет!
Начал записывать серию видео прям по детальным шагам, как устроен DataLens Editor, с самого начала и по нарастающей. Каждый видосик будет дополняться примерами кода. Пожалуйста, придите в комментарии, какие еще темы непонятны в Editor + на сколько хорошо разжёвано (те, кто не юзал Editor до этого)
https://data2viz.ru/editor
👍17🔥14❤6
Forwarded from Yandex DataLens
Опрос по использованию DataLens❓
У вас есть возможность повлиять как на развитие текущих фичей продукта, так и на появление новых.
А для желающих поделиться более детальной обратной связью может быть организован и формат отдельных видеоинтервью.
Ждём ваши ответы в коротком опросе, это займёт у вас буквально одну минуту⏰
#calltoaction
У вас есть возможность повлиять как на развитие текущих фичей продукта, так и на появление новых.
А для желающих поделиться более детальной обратной связью может быть организован и формат отдельных видеоинтервью.
Ждём ваши ответы в коротком опросе, это займёт у вас буквально одну минуту
#calltoaction
Please open Telegram to view this post
VIEW IN TELEGRAM
✍4
Очень классно у ребят получилось!
У ребенка (7 класс) сейчас в школе уже ТВиМС, тут будет подспорье 😃
У ребенка (7 класс) сейчас в школе уже ТВиМС, тут будет подспорье 😃
Forwarded from Data-comics
Предзаказ книги открыт! 📕
Ура! Книга становится все более реальной!
Вот уже на сайте читай-города можно сделать предзаказ нашей детской датавиз книги "Кристина в стране диаграмм"!!
*писки восторга*
Это был долгий путь - длинною почти в полтора года - от первых скетчей персонажей, до раскадровок, текстов, работы с иллюстратором, создания полезных учебных материалов для детей!
Ааа!))) Спасибо за вашу поддержку!
Пойду еще покричу от радости!))) Скоро скоро (середина ноября) книга будет в бумажном виде! И можно будет ее потрогать! Ура!
На картинке уже видно финальную обложку (спасибо что голосовали!), мне так нравится что буква С похожа на донат-чарт 😆 и вообще - дивное ощущение - видеть свое имя на обложке книги!
Страничка предзаказа:
https://www.chitai-gorod.ru/product/kristina-v-strane-diagramm-3127795
😍 😍 😍
Ура! Книга становится все более реальной!
Вот уже на сайте читай-города можно сделать предзаказ нашей детской датавиз книги "Кристина в стране диаграмм"!!
*писки восторга*
Это был долгий путь - длинною почти в полтора года - от первых скетчей персонажей, до раскадровок, текстов, работы с иллюстратором, создания полезных учебных материалов для детей!
Ааа!))) Спасибо за вашу поддержку!
Пойду еще покричу от радости!))) Скоро скоро (середина ноября) книга будет в бумажном виде! И можно будет ее потрогать! Ура!
На картинке уже видно финальную обложку (спасибо что голосовали!), мне так нравится что буква С похожа на донат-чарт 😆 и вообще - дивное ощущение - видеть свое имя на обложке книги!
Страничка предзаказа:
https://www.chitai-gorod.ru/product/kristina-v-strane-diagramm-3127795
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3
Новое слово
Много лет пробую разные способы обучения аналитиков /инженеров / бизнес-пользователей.
Понятно, база (технарь, гуманитарий) очень сильно влияет на скорость усвоения материалов, но в последнее время понял, что еще важен возраст, культурные особенности. Разные поколения взрослых совсем по-разному воспринимают информацию.
- Делаю короткие видео - жалуются на то, что нет вики
- Делаю вики - говорят, много текста, пусть будет TLDR
- Делаю видос на час - говорят, много, пусть будут пункты на 10 минут.
Все люди разные и у всех свои паттерны потребления знаний. Как тебе лучше всего получать новые знания вокруг своей работы? Напишешь в комментарии?
Много лет пробую разные способы обучения аналитиков /инженеров / бизнес-пользователей.
Понятно, база (технарь, гуманитарий) очень сильно влияет на скорость усвоения материалов, но в последнее время понял, что еще важен возраст, культурные особенности. Разные поколения взрослых совсем по-разному воспринимают информацию.
- Делаю короткие видео - жалуются на то, что нет вики
- Делаю вики - говорят, много текста, пусть будет TLDR
- Делаю видос на час - говорят, много, пусть будут пункты на 10 минут.
Все люди разные и у всех свои паттерны потребления знаний. Как тебе лучше всего получать новые знания вокруг своей работы? Напишешь в комментарии?
❤8
How to. make Business LODs and Windows
В документациях к BI-инструментам есть примеры, как использовать LOD-формулы, но они не всегда хорошо транслируются на реальные бизнес-кейсы, надо еще переводить с языка примера на логику того, что же тебе требуется.
Решил попробовать собрать бизнес-кейсы различных LODов с которыми приходят для реализации, кажется, так будет нагляднее.
Буду дополнять на этой страничке
Если принесете свои use cases - будет классно =)
- сколько было клиентов с > чем 1 заказом
- сколько sku товаров было и в плане и в факте
- как посчитать среднюю без выбросов > 90 персентиля
- средний % плохого стока за последнюю неделю
В документациях к BI-инструментам есть примеры, как использовать LOD-формулы, но они не всегда хорошо транслируются на реальные бизнес-кейсы, надо еще переводить с языка примера на логику того, что же тебе требуется.
Решил попробовать собрать бизнес-кейсы различных LODов с которыми приходят для реализации, кажется, так будет нагляднее.
Буду дополнять на этой страничке
Если принесете свои use cases - будет классно =)
- сколько было клиентов с > чем 1 заказом
- сколько sku товаров было и в плане и в факте
- как посчитать среднюю без выбросов > 90 персентиля
- средний % плохого стока за последнюю неделю
🔥7❤1
ClickHouse what's new
Дошли руки отсмотреть видео по последним версиям ClickHouse, в том числе 25.8 LTS, то есть после тестов ее можно в прод.
Полезное
25.8
1. Колонка _table, можно управлять фильтром и значениями в merge как slice колонкой
2. Векторный индекс, production-ready.
3. Движок YTSaurus, возможность подключить в качестве внешнего источника очень крутой Яндексовый инструмент, когда у вас ну очень много данных =)
Скорость
25.8
1. Теперь индексы в табличке будут перед применением отсортированы по размеру на диске. то есть, у нас 10 000 партов, первый легкий индекс сначала быстро применится - останется 1300 партов, а только за ним более тяжелый и уже только на 1300 заголовков будет применяться.
25.9
2. Звучит как мега-огонь, в CH появился JOIN Reordering, надо тестить.
Дошли руки отсмотреть видео по последним версиям ClickHouse, в том числе 25.8 LTS, то есть после тестов ее можно в прод.
Полезное
25.8
1. Колонка _table, можно управлять фильтром и значениями в merge как slice колонкой
2. Векторный индекс, production-ready.
3. Движок YTSaurus, возможность подключить в качестве внешнего источника очень крутой Яндексовый инструмент, когда у вас ну очень много данных =)
Скорость
25.8
1. Теперь индексы в табличке будут перед применением отсортированы по размеру на диске. то есть, у нас 10 000 партов, первый легкий индекс сначала быстро применится - останется 1300 партов, а только за ним более тяжелый и уже только на 1300 заголовков будет применяться.
25.9
2. Звучит как мега-огонь, в CH появился JOIN Reordering, надо тестить.
SET query_plan_optimize_join_order_limit = 10;
SET allow_statistics_optimize = 1;
👍4
How to. Find Root Causes
Сходил тут в осенний трекинг с Пашей и принес хороший пример неполноты данных из источников.
Приложение к часам понятно визуализирует данные: длина, подъем, спуск, геокарта, пульс. И вроде всё ок. Но почему так медленно? Если переносить на язык бизнеса, эффективность операций ужасна, даже если брать YoY на эти же даты - мы как будто шли очень плохо.
Разгадка на фотке в первом комментарии:погода в этом году очень необычная, на 2/3 маршрута выпало 30-50 см снега.
То есть, если бы мы строили какую-то важную аналитику на этих данных, нам надо было бы
• отметить на маршруте смену покрытия и температуру
• дополнить датасетом по осадкам за последнюю неделю
• если аналитический инструмент позволяет, добавить текстовые комментарии на отрезок времени, объясняющий причину отклонения скорости. К сожалению, в приложении к часам этой информации нет.
Старайтесь давать бизнесу весь требуемый контекст, который поможет находить действительную причину событий.
Сходил тут в осенний трекинг с Пашей и принес хороший пример неполноты данных из источников.
Приложение к часам понятно визуализирует данные: длина, подъем, спуск, геокарта, пульс. И вроде всё ок. Но почему так медленно? Если переносить на язык бизнеса, эффективность операций ужасна, даже если брать YoY на эти же даты - мы как будто шли очень плохо.
Разгадка на фотке в первом комментарии:
То есть, если бы мы строили какую-то важную аналитику на этих данных, нам надо было бы
• отметить на маршруте смену покрытия и температуру
• дополнить датасетом по осадкам за последнюю неделю
• если аналитический инструмент позволяет, добавить текстовые комментарии на отрезок времени, объясняющий причину отклонения скорости. К сожалению, в приложении к часам этой информации нет.
Старайтесь давать бизнесу весь требуемый контекст, который поможет находить действительную причину событий.
❤5👍5
Некоторых вещей ждешь долго, но знаешь, на сколько они важны и полезны для BI-Аналитика, который понимает, что цвета должны везде означать одно и то же, что больше 3х цифр в числах нашему мозгу смотреть неудобно. И когда выходит фича, экономящая часы кликов лишних - ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🙏2
Forwarded from Yandex DataLens
В датасетах появляется новая колонка для настройки полей:
- настройка форматирования (для чисел)
- выбор цветов (для измерений)
Настройка доступна в зависимости от типа поля (строка/число и тп) и наличия агрегации (показатель/измерение).
Настройки применяются при использовании этих полей в чартах, построенных по этому датасету.
Новая функциональность сократит время создания качественной аналитики, убрав необходимость настройки на уровне чартов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👍3🙏1