Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Prepare Network Components for Internet Access to Oracle Analytics Service Endpoints

This article describes how to prepare basic network components for internet access to Oracle Analytics service endpoints. It describes architectures, components and deployments with links to reference material.

Read: https://blogs.oracle.com/analytics/post/prepare-network-components-for-private-internet-access-to-oracle-analytics-services
Выбор BI системы для селф-сервис

Всем привет! Я - Никита Колганов из группы компаний “АСНА”. Группа компаний "АСНА" – это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI-систему?

В компании ежедневно делается множество отчетов, значительная часть которых  - средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации - в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки - расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности - непросто ограничить доступ к Excel-файлу для определенного круга лиц

Отсутствие автоматизации алертов - на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI-системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self-service.


Читать: https://habr.com/ru/articles/779238/
Как мы наводим порядок с данными в столичном транспортном институте

Привет, Хабр!  На связи команда разработки «МосТрансПроекта».

Наш институт является интеллектуальным центром транспортного планирования Москвы, и для решения задач нам постоянно нужны данные. Для запуска компенсационных автобусов во время ремонта станции метро необходимо знать ее пропускную способность, пиковую нагрузку, конфигурацию переходов и парность поездов. А при проектировании благоустройства транспортного хаба нужна информация о пассажиропотоках, интервалах движения городского транспорта и интенсивности автомобильного трафика.

Необходимые данные (а их суммарный объем измеряется в петабайтах) собирают ЦОДД, Московский метрополитен, «Организатор перевозок», «Мосгортранс», «Администратор московского парковочного пространства» и другие структуры транспортного комплекса. В целом, ничего сложного: получаем доступ к базам, берем информацию, «причесываем», анализируем, действуем, решаем задачу. Но, как обычно это бывает с данными, все не так просто.

В поисках склада

Проблема в том, что для неподготовленного специалиста обособленные друг от друга базы напоминают склады с наваленными коробками — чтобы быть уверенным в результате, нужно заглянуть в каждую. Старожилы «МосТрансПроекта», конечно, знают, где взять ту или иную информацию, но без их помощи работать с данными было трудно. Иногда нужно было пройти увлекательный квест, чтобы забрать сведения, которые есть лишь у конкретного специалиста.

Кроме того, применялись разные подходы в расчете той или иной цифры. Исходные данные все использовали плюс-минус одни и те же, но в зависимости от задачи по-разному их обрабатывали и интерпретировали, а привычки документировать и делиться методиками еще не было.


Читать: https://habr.com/ru/companies/mostransproekt/articles/779116/
Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей, менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды.

На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.


Читать: https://habr.com/ru/companies/X5Tech/articles/779856/
MDM и CDP: различия систем. Как сделать выбор

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.


Читать: https://habr.com/ru/companies/lanit/articles/776862/
👍2
RFM-сегментация в оптимизации CRM-стратегий

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов притания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.


Читать: https://habr.com/ru/articles/779652/
1
RFM-сегментация в оптимизации CRM-стратегий

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.


Читать: https://habr.com/ru/articles/780330/
Master Your Data: A Guide to Seamless Standardization with Oracle Analytics Cloud's Replace Value List Feature

This article provides an overview of the Replace Value List feature in the Dataset Editor of Oracle Analytics Cloud. It provides examples of how easy it is to standardize your data during the dataset authoring process by quickly and easily standardizing multiple incorrect or variant values.

Read: https://blogs.oracle.com/analytics/post/master-your-data-a-guide-to-seamless-standardization-with-oracle-analytics-clouds-replace-value-list-feature
Internet Access to Oracle Analytics Service Endpoints using Domain Name System Components

Internet Access to Oracle Analytics Services using Domain Name System Components

Read: https://blogs.oracle.com/analytics/post/internet-access-to-oracle-analytics-service-endpoints-using-dns
Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей.

Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.


Читать: https://habr.com/ru/companies/vk/articles/780050/
Using Oracle Analytics BI Publisher connector in Fusion Analytics Warehouse

With 23.R3, Fusion Analytics supports BIP as a data source as a self-service preview feature.

Read: https://blogs.oracle.com/analytics/post/using-oracle-analytics-bi-publisher-connector-in-fusion-analytics-warehouse
Forwarded from Нейроканал
This media is not supported in your browser
VIEW IN TELEGRAM
Пакет Python для анимации статистических данных

Недавно наткнулись на интересный проект и хоть понятно, что анимация линейных графиков обычно не имеет никакого смысла, но возможно пригодится кому на работе.
 
GitHub | Документация | pypi

#project
2
Kaggle и карьера: стратегия достижения выдающихся результатов

Kaggle — самая известная платформа для соревнований в Data Science. Участие в таких соревнованиях открывает возможность проявить свой талант, стать известным в сообществе и получать более выгодные предложения от работодателей.

В этой статье наш соотечественник, занявший 68-е место в мировом рейтинге Kaggle, делится своим рецептом успеха в карьере и рассказывает о новых возможностях от участия в соревнованиях.
🔥3
Разметка данных: неочевидные затраты на голосовые технологии

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.
Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.


Читать: https://habr.com/ru/articles/746234/
Top 5 reasons Oracle Analytics Cloud stands apart in the ML/AI Analytics landscape

Check out Oracle Analytics Cloud's top 5 competitive features in the ML/AI Analytics landscape

Read: https://blogs.oracle.com/analytics/post/top-5-reasons-oracle-analytics-cloud-stands-apart-in-the-mlai-analytics-landscape
Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке

Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи данных из модели конечному пользователю. В таких условиях рациональнее разворачивать решения в облаках, особенно если можно использовать сервисы для полного цикла ML-разработки.

Привет, Хабр. Нас зовут Александр Кузьмичёв и Александр Казначеев. Мы пилотируем проект «ML-сервис по оттоку». В этой статье мы поделимся нашим опытом разработки модели и выкатки её в прод с помощью Cloud ML Platform.


Читать: https://habr.com/ru/companies/vk/articles/780632/