Data Analysis / Big Data
2.84K subscribers
558 photos
3 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
В Garage Eight наступила неделя оптимизации. Число ad hoc задач сократилось в 3 раза

Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.

Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.


Читать: https://habr.com/ru/companies/garage8/articles/896502/

#ru

@big_data_analysis | Другие наши каналы
Шардированный кластер ClickHouse

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.


Читать: https://habr.com/ru/companies/wildberries/articles/896060/

#ru

@big_data_analysis | Другие наши каналы
Интеллектуальный фотофиниш

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.


Читать: https://habr.com/ru/articles/896704/

#ru

@big_data_analysis | Другие наши каналы
Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка.

В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.


Читать: https://habr.com/ru/companies/gazprombank/articles/896814/

#ru

@big_data_analysis | Другие наши каналы
2
Цифровые двойники: превращаем данные в деньги с помощью матмоделирования

Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.

Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.


Читать: https://habr.com/ru/companies/ibs/articles/897072/

#ru

@big_data_analysis | Другие наши каналы
Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables.

Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов.

Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/897068/

#ru

@big_data_analysis | Другие наши каналы
Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!

22 апреля пройдет конференеция Газпромбанк.Тех для разработчиков и инженеров.

Читать: «Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!»

#ru

@big_data_analysis | Другие наши каналы
Как обеспечить безопасность данных в FDI

Статья объясняет, как с помощью профиля безопасности в Fusion HCM защитить персональные данные. Рассматриваются два подхода: использование настраиваемых критериев или логики SQL-запроса, что позволяет гибко подходить к задачам безопасности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция Google Analytics с Oracle Analytics Cloud

В современном мире данных важно иметь доступ к веб-аналитике для принятия бизнес-решений. Oracle Analytics Cloud позволяет подключаться к таким источникам, как Google Analytics, для анализа посещаемости сайтов и эффективности маркетинга. Статья описывает процесс интеграции этих платформ.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Будущее здесь: как градостроители применяют искусственный интеллект для регулирования среды жизнедеятельности

Научно‑фантастический рассказ о работе градостроителя в будущем. Если через 15 лет этот текст найдут в архивах — пусть проверят, сбылось ли.

Пролог. 2040 год. Москва, территориальное подразделений Цифрового центра «Град-ИНФО-ИИ. Россия».


Читать: https://habr.com/ru/articles/898144/

#ru

@big_data_analysis | Другие наши каналы
FineBi Динамическая фильтрация данных

Привет Хабр! Меня зовут Белков Евгений, я руководитель направления разработки Siebel CRM в Московском кредитном банке.

В последнее время стал все больше разрабатывать дашборды на Fine Bi и все больше неординарных требований к визуализации вынуждают танцевать с бубном. Сегодня я хочу поделиться опытом работы с Динамической фильтрацией данных на апплете в зависимости от выбранных значений фильтра.


Читать: https://habr.com/ru/companies/mkb/articles/898222/

#ru

@big_data_analysis | Другие наши каналы
Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?


Читать: https://habr.com/ru/articles/899080/

#ru

@big_data_analysis | Другие наши каналы
Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?

Pandas, Polars или PySpark — что выбрать для работы с данными? Вместе с Никитой Егоровым, ведущим аналитиком в МТС Диджитал, разбираем отличия, плюсы и минусы каждого инструмента.

Читать: «Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?»

#ru

@big_data_analysis | Другие наши каналы
🔍 Подключение Oracle Analytics Cloud к Private ADW

Узнайте, как эффективно подключить Oracle Analytics Cloud к приватной базе данных Autonomous Data Warehouse с публичным доступом. Статья подробно рассказывает о необходимых шагах и настройках для обеспечения безопасного и стабильного соединения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обзор мобильных возможностей Oracle Analytics

Oracle Analytics Mobile открывает новые горизонты для работы с данными в движении. Узнайте о мощных функциях, таких как навигация, просмотр дашбордов и уникальные опции, улучшенные для мобильного использования, включая инструменты Ask и Podcast.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Ускоряем работу с помощью кеша

В новой статье рассказано, как использование кеша потока данных может существенно повысить производительность ваших приложений. Изучите, какие стратегии подходят для снижения времени обработки данных и повышения эффективности процессов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
HowTo: плиточная карта и календарь в DataLens

Хочу поделиться примером, как при помощи нестандартных техник создать виджеты, непредусмотренные на бесплатном тарифе DataLens.

Для реализации виджетов понадобится базовое знакомство с DataLens, html и python.

Код по формированию виджетов и живые примеры внутри.


Читать: https://habr.com/ru/articles/899264/

#ru

@big_data_analysis | Другие наши каналы
Как мы сделали одну большую песочницу для всех аналитиков

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных,  а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.
К песочнице

Читать: https://habr.com/ru/companies/rshb/articles/899482/

#ru

@big_data_analysis | Другие наши каналы
👎1
Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код.


Читать: https://habr.com/ru/companies/luxms_bi/articles/899662/

#ru

@big_data_analysis | Другие наши каналы
1
Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных.

Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код.


Читать: https://habr.com/ru/companies/luxms_bi/articles/899664/

#ru

@big_data_analysis | Другие наши каналы