Data Analysis / Big Data
2.82K subscribers
568 photos
3 videos
2 files
2.91K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Метрика North Star: ваш главный путеводитель в бизнес-стратегии

Давай поговорим о North Star Metric (NSM). Меня, если честно, иногда бесит, когда её преподносят как какую-то магию, которая сама по себе выведет бизнес в лидеры. Это не так.

За свою карьеру я видел разное: компании, которые отлично росли и без формально прописанной NSM, просто потому что у всех в голове и так была общая цель. И видел провалы, когда команды слепо поклонялись одной цифре, вырванной из контекста, и в итоге «оптимизировали» бизнес прямиком в тупик.

Вся суть не в том, чтобы найти «идеальную метрику». Суть в том, чтобы заставить все отделы говорить на одном языке. И здесь как раз помогает метрика Полярной Звезды.


Читать: https://habr.com/ru/articles/976490/

#ru

@big_data_analysis | Другие наши каналы
Особенности снижения гранулярности таблицы в Power BI на примере REMOVEFILTERS

Power BI и язык DAX являются удобными инструментами аналитиков. В DAX важно учитывать гранулярность — уровень детализации, который зависит от текущего контекста фильтров и группировки.

Мы привыкли работать с гранулярностью, и если в транзакционной системе проблемы с гранулярностью могут быть относительно незаметны, то в BI системах проблемы гранулярности сразу влияют на дашборды. Это усугубляется поведением движков BI систем, в которых гранулярность таблицы считается динамически в зависимости от выражения — как в Power BI.

При использовании некоторых функций, например, REMOVEFILTERS, снижение гранулярности может приводить к интуитивно непонятным результатам и считаться плохой практикой. Интересующимся особенностями снижения гранулярности на примере REMOVEFILTERS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/974302/

#ru

@big_data_analysis | Другие наши каналы
Как построить геопространственный Lakehouse с помощью открытого ПО и Databricks

Геопространственные данные быстро перестают быть «слоем на карте», когда их нужно свести с другими источниками, регулярно обновлять, масштабировать запросы вроде «точка в полигоне» и отдавать результат в BI или GIS без ручной сборки артефактов. В статье разбирается практичный способ собрать геопространственный lakehouse на Databricks и открытых инструментах поверх Spark: как приземлять разные форматы в Delta, где чинить системы координат и некорректные геометрии, чем ускорять тяжёлые геоджойны и как организовать слой представления под разные потребители — от Power BI до облачных ГИС.
Перейти к статье

Читать: https://habr.com/ru/companies/otus/articles/976752/

#ru

@big_data_analysis | Другие наши каналы
Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

Привет, Хабр! На связи — технические лидеры направления разработки Apache Spark в составе платформы Data Ocean Андрей Первушин и Дмитрий Паршин из Data Sapience. Мы занимаемся решением нетривиальных задач в области Spark-вычислений, некоторые из которых становятся частью конечного продукта.

Сегодня мы расскажем, с какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg, что такое equality delete, почему они создают нагрузку при чтении таблиц в Apache Iceberg и как мы оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.


Читать: https://habr.com/ru/companies/datasapience/articles/976920/

#ru

@big_data_analysis | Другие наши каналы