Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)


Читать: https://habr.com/ru/articles/859298/

#ru

@big_data_analysis | Другие наши каналы
Предельная польза продукта на примере Power BI

Продукт нельзя совершенствовать до бесконечности. У него всегда есть точка, после которой предельная полезность достигнута. И после её достижения дальнейшие обновления носят экспериментальный характер и менее востребованы, чем фундаментальный функционал. Расскажу, как понять, что предельная полезность достигнута на примере Power BI.


Читать: https://habr.com/ru/articles/859674/

#ru

@big_data_analysis | Другие наши каналы
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.


Читать: https://habr.com/ru/companies/cian/articles/859484/

#ru

@big_data_analysis | Другие наши каналы
Как мы работаем с качеством данных в Электронной коммерции

Привет! Меня зовут Саша Нефедова, и я работаю ведущим аналитиком по качеству данных в «Магните». Я больше года отвечала за направление Электронной коммерции, и в этой статье расскажу, как устроены наши процессы и какой результат дает командная работа на поприще управления данными.


Читать: https://habr.com/ru/companies/magnit/articles/859738/

#ru

@big_data_analysis | Другие наши каналы
Oracle Analytics вновь признан лидером

Nucleus Research в очередной раз назвал Oracle Analytics лидером в рейтинге Embedded Analytics Value Matrix. Узнайте, почему это решение для аналитики продолжает занимать топовые позиции и какие преимущества оно предлагает пользователям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔒 Как защитить Oracle Analytics Cloud: Zero Trust в действии

Узнайте, как технология Zero Trust Packet Routing помогает обеспечить безопасность ресурсов Oracle Analytics Cloud. Обзор важнейших принципов внедрения системы, которая защищает ваши данные, минимизируя риски доступа. Разберитесь, как укрепить ваш бизнес в условиях цифровых угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обеспечиваем безопасность Oracle Analytics с Zero Trust

В статье рассматривается использование компонентов маршрутизации пакетов с политикой нулевого доверия для повышения безопасности Oracle Analytics Services. Узнайте, как эти меры могут защитить ваши данные от потенциальных угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как LLM может валидировать данные

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.


Читать: https://habr.com/ru/articles/859874/

#ru

@big_data_analysis | Другие наши каналы
Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/859944/

#ru

@big_data_analysis | Другие наши каналы
Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.


Читать: https://habr.com/ru/articles/860050/

#ru

@big_data_analysis | Другие наши каналы
Четыре вида аналитики данных: дескриптивная, диагностическая, предиктивная, прескриптивная

В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.

В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных:

- Описательном

- Диагностическом

- Предиктивном

- Предписывающем


Читать: https://habr.com/ru/articles/860078/

#ru

@big_data_analysis | Другие наши каналы
Создание баз данных за выходные

В этой статье я расскажу вам, как использовать DataFusion для создания собственного опыта разработки баз данных.

Базы данных являются одними из самых сложных частей программного обеспечения, задуманных с момента появления вычислительной эры более полувека назад. [1] Почти каждая часть технологии в конечном итоге касается базы данных в той или иной форме. Несмотря на повсеместность баз данных в программном стеке, подавляющее большинство разработчиков были приучены относиться к базам данных как к более или менее черному ящику — сложным плотным чарам программного обеспечения, созданным волшебниками и знатоками, укрывшимися в элитных рядах компаний, занимающихся базами данных, или в таких местах, как Google. Поговорка для остальных из нас, как она есть, — никогда не пытайтесь написать свою собственную базу данных .

Тем не менее, несмотря на их долговечность, мы наблюдаем постоянные инновации в этой области, которая впервые началась с появлением Hadoop около 2 десятилетий назад. На сайте ClickBench теперь перечислено более 50 баз данных в его наборе тестов [2]. И это только аналитические движки. С учетом последних тенденций переписывания всех больших данных на Rust [3] не проходит и месяца, чтобы интересный новый проект не оказался в тренде Hacker News. В этой статье мы рассмотрим, насколько легко (или сложно) создавать базы данных с помощью Apache Datafusion и можете ли вы, будучи простым смертным, на самом деле реально создать собственную базу данных и внедрить инновации вокруг опыта разработчика.


Читать: https://habr.com/ru/articles/860166/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация Arenadata DB: как избежать критических ошибок и повысить производительность кластера

Привет, Хабр! Меня зовут Дмитрий Капралов, я работаю в команде консалтинга компании Arenadata. Одной из наших задач является проведение аудита кластеров СУБД Arenadata DB (ADB). Проектирование физической модели данных и настройка квотирования ресурсов кластера проводятся на этапе разработки хранилища. Однако при переходе системы в продуктивный режим профиль нагрузки кардинально меняется, и первоначальные настройки СУБД и архитектура данных нередко оказываются не готовы к такой нагрузке. В процессе эксплуатации могут возникнуть узкие места, замедляющие работу системы. В этой статье я хочу поделиться опытом нашей команды по выявлению и оптимизации подобных проблем.


Читать: https://habr.com/ru/companies/arenadata/articles/852830/

#ru

@big_data_analysis | Другие наши каналы
Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.


Читать: https://habr.com/ru/companies/data_light/articles/860310/

#ru

@big_data_analysis | Другие наши каналы
🔍 Microsoft Dynamics 365 или Power BI: что выбрать для отчетности?

Когда дело доходит до аналитики, Microsoft Dynamics 365 предлагает базовые отчеты и дашборды. Однако для более глубокой аналитики стоит рассмотреть Power BI. Его инструменты позволяют создавать сложные визуализации и анализировать данные в реальном времени. Выбор зависит от ваших бизнес-задач.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам


Читать: https://habr.com/ru/companies/cedrusdata/articles/860356/

#ru

@big_data_analysis | Другие наши каналы
Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.

Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.

Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.

В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.


Читать: https://habr.com/ru/companies/sibur_official/articles/860372/

#ru

@big_data_analysis | Другие наши каналы
Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании

Привет, Хабр! Меня зовут Дмитрий Бодин, в МТС Диджитал я руковожу командой интеграции DataOps Platform — платформы по работе с данными. Мы занимаемся внедрением и сопровождением инструментов DataOps внутри экосистемы МТС.

При запуске DataOps Platform мы увидели слабую заинтересованность в ее сервисах, так как все привыкли работать с инструментами от известных вендоров. В этот момент мы поняли, что очень важно продвигать платформу внутри компании и сопровождать пользователей на всех этапах внедрения.

Ниже я на нашем опыте расскажу, как нам удалось заинтересовать коллег своим продуктом, какие возникали проблемы с ростом числа пользователей и как мы построили внутреннюю систему консалтинга, которая помогает на всех этапах работы с нашими инструментами. Надеюсь, мой опыт будет полезен тем, кто занимается созданием и развитием с нуля внутренних продуктов в своих компаниях.


Читать: https://habr.com/ru/companies/ru_mts/articles/860370/

#ru

@big_data_analysis | Другие наши каналы
Объединяем фреймы данных в pandas: две самые распространённые операции

Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.

Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:


Читать: https://habr.com/ru/articles/860412/

#ru

@big_data_analysis | Другие наши каналы
Python и SQL: что изучать в первую очередь для анализа данных

Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.

Читать: «Python и SQL: что изучать в первую очередь для анализа данных»

#ru

@big_data_analysis | Другие наши каналы