Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

572 photos

4 videos

2 files

2.69K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Как построить систему геоаналитики с применением ML

Геоаналитика помогает бизнесу принимать решения: где открыть магазин, построить отель или возвести новостройку с учетом доступности и популярности локации, наличия конкурентов и сотен других факторов. Решать подобные аналитические задачи с большим количеством значимых признаков помогает машинное обучение. В этой статье мы рассмотрим примеры работы сервисов геоаналитики VK Predict. Выясним, какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.

Статья подготовлена на основе вебинара команд VK Predict и VK Cloud.

Читать: https://habr.com/ru/companies/vk/articles/734102/

533 views06:01

Data Analysis / Big Data

Loading Data from Oracle Object Storage into Oracle Fusion Analytics

This blog explains how to load data from Oracle Object Storage into Oracle Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/loading-data-from-oss-into-oracle-fusion-analytics

Loading Data from Oracle Object Storage into Oracle Fusion Analytics

❤1

496 views22:45

Data Analysis / Big Data

Как следить за здоровьем GreenPlum

Вопрос мониторинга GreenPlum часто оказывается непростым, особенно когда на платформе хранится действительно много данных, а запросы пользователей часто меняются. В этом посте я расскажу, как мы в «Леруа Мерлен» настраиваем инструменты Observability, находим узкие места и поддерживаем SLA кластера с GreenPlum на высоком уровне без использования проприетарных решений. Статья будет полезна DWH-архитекторам и DevOps’ам, которые планируют или уже эксплуатируют достаточно большие GP-инсталляции.

Читать: https://habr.com/ru/companies/leroy_merlin/articles/735970/

495 views09:08

Data Analysis / Big Data

Бигдата, ты ли это?

Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.

Читать: https://habr.com/ru/articles/736460/

477 views10:03

Data Analysis / Big Data

Что такое Self-Service BI и зачем он нужен?

Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.

Читать: https://habr.com/ru/articles/736978/

477 views10:29

Data Analysis / Big Data

Как разработать модель выявления связанных компаний на основании анализа транзакций

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».

Читать: https://habr.com/ru/companies/otkritie/articles/736990/

👍1

464 views10:47

Data Analysis / Big Data

[recovery mode] Структурирование кредитного портфеля методами машинного обучения

Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.

Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.

Читать: https://habr.com/ru/articles/737086/

476 views16:43

Data Analysis / Big Data

Evaluate network perimeters impact on Oracle Analytics Cloud migrations

Evaluate network perimeters impact on Oracle Analytics Cloud migrations

Read: https://blogs.oracle.com/analytics/post/oac-dmu-np

Evaluate network perimeters impact on Oracle Analytics Cloud migrations

Working with Oracle Analytics Cloud Data Migration Utility when network perimeters are enabled

431 views21:50

Data Analysis / Big Data

Oracle Analytics Best Practices: Performance Tuning with Excluded Columns

This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.

Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols

Oracle Analytics Best Practices: Performance Tuning with Excluded Columns

This blog will highlight a scenario of why it is best practice to remove any redundant columns from badly performing analysis

459 views21:51

Data Analysis / Big Data

How to set up data security in Oracle Fusion HCM Analytics using the Area of Responsibility Department Hierarchy attribute

Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.

Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute

Using Oracle Fusion HCM Analytics to Setup Data Security

Using Department Hierarchy attribute in Area Of Responsibility from Cloud HCM

453 views02:56

Data Analysis / Big Data

Data Engineering Project: Stream Edition

Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/

457 views10:36

Data Analysis / Big Data

Use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation

This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation

Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults

Using encrypted values from Oracle Cloud Vaults and Secrets in the Oracle Analytics Cloud migration automation

Using encrypted values from Oracle Cloud Infrastructure vaults and secrets in the automation scripts for snapshot and data file migration using REST APIs

468 views14:28

Data Analysis / Big Data

Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion Cloud HCM

This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics

Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion…

This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.

473 views21:56

Data Analysis / Big Data

Create Custom General Ledger Metrics Based on Hierarchy in Oracle Fusion Analytics

This blog describes Custom General Ledger Metrics based on Hierarchy in Oracle Fusion Analytics using Semantic Model Extensions

Read: https://blogs.oracle.com/analytics/post/custom-general-ledger-metrics-based-on-hierarchy-in-fusion-analytics-warehouse

Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse

This blog talks about Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse using Semantic Model Extensions

503 views01:40

Data Analysis / Big Data

Когда данных слишком много… как оптимизировать хранение

Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).

Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.

Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/

533 views13:27

Data Analysis / Big Data

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.

Читать: https://habr.com/ru/companies/selectel/articles/737492/

527 views10:31

Data Analysis / Big Data

Как выбирать технологии для Data Mesh — децентрализованного управления данными

В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.

Читать: https://habr.com/ru/companies/vk/articles/737152/

552 views12:10

Data Analysis / Big Data

Automate Snapshot and Data File Migration using Oracle Analytics Cloud REST APIs

Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/oac-migration-automation

549 views21:44

Data Analysis / Big Data

Configuring Fusion Analytics Content Duty Roles to Secure Custom Content

This article provides a solution to configure content duty roles to secure custom content in Oracle Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/how-to-use-fusion-analytics-content-duty-roles-to-secure-custom-content

How to use Fusion Analytics content duty roles to secure custom content.

The purpose of this article is to provide an explanation of how to use content duty roles to secure custom content.

599 views21:45

Data Analysis / Big Data

Фундаментальные концепции переобучения и недообучения в машинном обучении

Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!

Читать: https://habr.com/ru/articles/738128/

589 views18:47