Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.


Читать: https://habr.com/ru/companies/alfa/articles/776744/
New AI capabilities with Oracle Analytics

Discover the power of Oracle Analytics with AI capabilities

Read: https://blogs.oracle.com/analytics/post/discover-the-power-of-oracle-analytics-with-ai
Building a Marimekko chart in Oracle Analytics

Marimekko chart is a powerful data visualization because it captures multiple dimensions in one chart. This article explains the Marimekko chart and the steps to build one in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/building-marimekko-charts-in-oracle-analytics
Extracting key values with Oracle Analytics and OCI AI Document Understanding

Extract and analyze key values within documents, including PDF and images, with Oracle Analytics and OCI AI Document Understanding

Read: https://blogs.oracle.com/analytics/post/innovate-with-oracle-analytics-and-ai-document-understanding
Apache Spark… Это База

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.


Читать: https://habr.com/ru/articles/777294/
ЧТО ОБЩЕГО МЕЖДУ РАКОМ КРОВИ, ЛАЗЕРАМИ И НЕЙРОННЫМИ СЕТЯМИ?

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением. В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

Начнём с проточной цитофлуориметрии


Читать: https://habr.com/ru/articles/777476/
Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

Вопрос автоматизации бизнес-процессов всегда был актуален для большого количества современных компаний, и в последние несколько лет тренд на автоматизацию набирает всё большие обороты.

Информационные системы (ИС) позволяют повысить качество бизнес-процессов компании, в том числе связанных со стратегическим планированием, прогнозированием и оценкой эффективности бизнеса в целом.

На рынке существует множество ИС, которые позиционируют себя как продукты, способные решить подобные задачи. В аббревиатурах вообще можно запутаться (BI, ERP, CRM, CPM, EPM, BPM и т. д.). Все эти аббревиатуры, на самом деле, представляют очень разные типы информационных систем, и надо бы разобраться, какой из них подходит под вашу конкретную задачу. При этом внутри каждого типа существует большой выбор различных вендоров, и вопрос выбора становится ещё менее очевидным: не погружённому в специфику продуктов пользователю далеко не всегда понятно, сможет ли конкретная система полностью удовлетворить запрос именно его компании.

Мы – направление FI (Financial Intelligence) компании GlowByte, специализируемся на внедрении информационных систем, знаем особенности, плюсы и минусы каждой. Этой статьёй мы начинаем цикл публикаций о том, как сделать автоматизацию бизнес-процессов эффективной, безболезненной и успешной. Всё, о чём мы будем писать, основано на личном опыте внедрения. Специалисты нашей команды имеют опыт внедрений в различных отраслях и спецификах, а также являются обладателями сертификатов DipIFR и CIMA, поэтому нам легко понять язык заказчика, прочувствовать все его “боли” и оценить, какой из существующих на рынке продуктов лучше всего подойдёт в каждом конкретном случае.


Читать: https://habr.com/ru/companies/glowbyte/articles/777496/
👍2
Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании.
Подробнее

Читать: https://habr.com/ru/articles/778034/
❤‍🔥3🌚1
FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.


Читать: https://habr.com/ru/companies/tele2/articles/778520/
3
Prepare Network Components for Internet Access to Oracle Analytics Service Endpoints

This article describes how to prepare basic network components for internet access to Oracle Analytics service endpoints. It describes architectures, components and deployments with links to reference material.

Read: https://blogs.oracle.com/analytics/post/prepare-network-components-for-private-internet-access-to-oracle-analytics-services
Выбор BI системы для селф-сервис

Всем привет! Я - Никита Колганов из группы компаний “АСНА”. Группа компаний "АСНА" – это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI-систему?

В компании ежедневно делается множество отчетов, значительная часть которых  - средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации - в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки - расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности - непросто ограничить доступ к Excel-файлу для определенного круга лиц

Отсутствие автоматизации алертов - на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI-системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self-service.


Читать: https://habr.com/ru/articles/779238/
Как мы наводим порядок с данными в столичном транспортном институте

Привет, Хабр!  На связи команда разработки «МосТрансПроекта».

Наш институт является интеллектуальным центром транспортного планирования Москвы, и для решения задач нам постоянно нужны данные. Для запуска компенсационных автобусов во время ремонта станции метро необходимо знать ее пропускную способность, пиковую нагрузку, конфигурацию переходов и парность поездов. А при проектировании благоустройства транспортного хаба нужна информация о пассажиропотоках, интервалах движения городского транспорта и интенсивности автомобильного трафика.

Необходимые данные (а их суммарный объем измеряется в петабайтах) собирают ЦОДД, Московский метрополитен, «Организатор перевозок», «Мосгортранс», «Администратор московского парковочного пространства» и другие структуры транспортного комплекса. В целом, ничего сложного: получаем доступ к базам, берем информацию, «причесываем», анализируем, действуем, решаем задачу. Но, как обычно это бывает с данными, все не так просто.

В поисках склада

Проблема в том, что для неподготовленного специалиста обособленные друг от друга базы напоминают склады с наваленными коробками — чтобы быть уверенным в результате, нужно заглянуть в каждую. Старожилы «МосТрансПроекта», конечно, знают, где взять ту или иную информацию, но без их помощи работать с данными было трудно. Иногда нужно было пройти увлекательный квест, чтобы забрать сведения, которые есть лишь у конкретного специалиста.

Кроме того, применялись разные подходы в расчете той или иной цифры. Исходные данные все использовали плюс-минус одни и те же, но в зависимости от задачи по-разному их обрабатывали и интерпретировали, а привычки документировать и делиться методиками еще не было.


Читать: https://habr.com/ru/companies/mostransproekt/articles/779116/
Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей, менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды.

На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.


Читать: https://habr.com/ru/companies/X5Tech/articles/779856/
MDM и CDP: различия систем. Как сделать выбор

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.


Читать: https://habr.com/ru/companies/lanit/articles/776862/
👍2
RFM-сегментация в оптимизации CRM-стратегий

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов притания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.


Читать: https://habr.com/ru/articles/779652/
1
RFM-сегментация в оптимизации CRM-стратегий

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.


Читать: https://habr.com/ru/articles/780330/
Master Your Data: A Guide to Seamless Standardization with Oracle Analytics Cloud's Replace Value List Feature

This article provides an overview of the Replace Value List feature in the Dataset Editor of Oracle Analytics Cloud. It provides examples of how easy it is to standardize your data during the dataset authoring process by quickly and easily standardizing multiple incorrect or variant values.

Read: https://blogs.oracle.com/analytics/post/master-your-data-a-guide-to-seamless-standardization-with-oracle-analytics-clouds-replace-value-list-feature