Data Analysis / Big Data
2.83K subscribers
563 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Инфраструктура для Data-Engineer BI-tools

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.


Читать: https://habr.com/ru/articles/856922/

#ru

@big_data_analysis | Другие наши каналы
Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и ковергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.

Начнем с того, что мы понимаем под продажами ШПД и конвергенции.


Читать: https://habr.com/ru/companies/beeline_tech/articles/858904/

#ru

@big_data_analysis | Другие наши каналы
A/B тестирование в офлайне: как не потерять миллионы на масштабировании

Всем привет!

Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.


Читать: https://habr.com/ru/companies/lentatech/articles/858890/

#ru

@big_data_analysis | Другие наши каналы
Увеличиваем размер выборки и прокрашиваем серые метрики: неочевидная ошибка при проведении А/B — тестов

Иногда мы настолько бываем увлечены способами увеличения мощности тестов, снижения дисперсии, уменьшения длительности теста, что забываем смотреть на данные при использовании стандартного критерия Стьюдента. В этой статье я постараюсь простым языком рассказать о последствиях, к которым может привести слепой запуск A/B-тестов без предварительного А/А-тестирования.


Читать: https://habr.com/ru/articles/859088/

#ru

@big_data_analysis | Другие наши каналы
Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)


Читать: https://habr.com/ru/articles/859298/

#ru

@big_data_analysis | Другие наши каналы
Предельная польза продукта на примере Power BI

Продукт нельзя совершенствовать до бесконечности. У него всегда есть точка, после которой предельная полезность достигнута. И после её достижения дальнейшие обновления носят экспериментальный характер и менее востребованы, чем фундаментальный функционал. Расскажу, как понять, что предельная полезность достигнута на примере Power BI.


Читать: https://habr.com/ru/articles/859674/

#ru

@big_data_analysis | Другие наши каналы
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.


Читать: https://habr.com/ru/companies/cian/articles/859484/

#ru

@big_data_analysis | Другие наши каналы
Как мы работаем с качеством данных в Электронной коммерции

Привет! Меня зовут Саша Нефедова, и я работаю ведущим аналитиком по качеству данных в «Магните». Я больше года отвечала за направление Электронной коммерции, и в этой статье расскажу, как устроены наши процессы и какой результат дает командная работа на поприще управления данными.


Читать: https://habr.com/ru/companies/magnit/articles/859738/

#ru

@big_data_analysis | Другие наши каналы
Oracle Analytics вновь признан лидером

Nucleus Research в очередной раз назвал Oracle Analytics лидером в рейтинге Embedded Analytics Value Matrix. Узнайте, почему это решение для аналитики продолжает занимать топовые позиции и какие преимущества оно предлагает пользователям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔒 Как защитить Oracle Analytics Cloud: Zero Trust в действии

Узнайте, как технология Zero Trust Packet Routing помогает обеспечить безопасность ресурсов Oracle Analytics Cloud. Обзор важнейших принципов внедрения системы, которая защищает ваши данные, минимизируя риски доступа. Разберитесь, как укрепить ваш бизнес в условиях цифровых угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обеспечиваем безопасность Oracle Analytics с Zero Trust

В статье рассматривается использование компонентов маршрутизации пакетов с политикой нулевого доверия для повышения безопасности Oracle Analytics Services. Узнайте, как эти меры могут защитить ваши данные от потенциальных угроз.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как LLM может валидировать данные

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.


Читать: https://habr.com/ru/articles/859874/

#ru

@big_data_analysis | Другие наши каналы
Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/859944/

#ru

@big_data_analysis | Другие наши каналы
Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.


Читать: https://habr.com/ru/articles/860050/

#ru

@big_data_analysis | Другие наши каналы
Четыре вида аналитики данных: дескриптивная, диагностическая, предиктивная, прескриптивная

В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.

В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных:

- Описательном

- Диагностическом

- Предиктивном

- Предписывающем


Читать: https://habr.com/ru/articles/860078/

#ru

@big_data_analysis | Другие наши каналы
Создание баз данных за выходные

В этой статье я расскажу вам, как использовать DataFusion для создания собственного опыта разработки баз данных.

Базы данных являются одними из самых сложных частей программного обеспечения, задуманных с момента появления вычислительной эры более полувека назад. [1] Почти каждая часть технологии в конечном итоге касается базы данных в той или иной форме. Несмотря на повсеместность баз данных в программном стеке, подавляющее большинство разработчиков были приучены относиться к базам данных как к более или менее черному ящику — сложным плотным чарам программного обеспечения, созданным волшебниками и знатоками, укрывшимися в элитных рядах компаний, занимающихся базами данных, или в таких местах, как Google. Поговорка для остальных из нас, как она есть, — никогда не пытайтесь написать свою собственную базу данных .

Тем не менее, несмотря на их долговечность, мы наблюдаем постоянные инновации в этой области, которая впервые началась с появлением Hadoop около 2 десятилетий назад. На сайте ClickBench теперь перечислено более 50 баз данных в его наборе тестов [2]. И это только аналитические движки. С учетом последних тенденций переписывания всех больших данных на Rust [3] не проходит и месяца, чтобы интересный новый проект не оказался в тренде Hacker News. В этой статье мы рассмотрим, насколько легко (или сложно) создавать базы данных с помощью Apache Datafusion и можете ли вы, будучи простым смертным, на самом деле реально создать собственную базу данных и внедрить инновации вокруг опыта разработчика.


Читать: https://habr.com/ru/articles/860166/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация Arenadata DB: как избежать критических ошибок и повысить производительность кластера

Привет, Хабр! Меня зовут Дмитрий Капралов, я работаю в команде консалтинга компании Arenadata. Одной из наших задач является проведение аудита кластеров СУБД Arenadata DB (ADB). Проектирование физической модели данных и настройка квотирования ресурсов кластера проводятся на этапе разработки хранилища. Однако при переходе системы в продуктивный режим профиль нагрузки кардинально меняется, и первоначальные настройки СУБД и архитектура данных нередко оказываются не готовы к такой нагрузке. В процессе эксплуатации могут возникнуть узкие места, замедляющие работу системы. В этой статье я хочу поделиться опытом нашей команды по выявлению и оптимизации подобных проблем.


Читать: https://habr.com/ru/companies/arenadata/articles/852830/

#ru

@big_data_analysis | Другие наши каналы
Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.


Читать: https://habr.com/ru/companies/data_light/articles/860310/

#ru

@big_data_analysis | Другие наши каналы
🔍 Microsoft Dynamics 365 или Power BI: что выбрать для отчетности?

Когда дело доходит до аналитики, Microsoft Dynamics 365 предлагает базовые отчеты и дашборды. Однако для более глубокой аналитики стоит рассмотреть Power BI. Его инструменты позволяют создавать сложные визуализации и анализировать данные в реальном времени. Выбор зависит от ваших бизнес-задач.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам


Читать: https://habr.com/ru/companies/cedrusdata/articles/860356/

#ru

@big_data_analysis | Другие наши каналы