Как построить систему геоаналитики с применением ML
Геоаналитика помогает бизнесу принимать решения: где открыть магазин, построить отель или возвести новостройку с учетом доступности и популярности локации, наличия конкурентов и сотен других факторов. Решать подобные аналитические задачи с большим количеством значимых признаков помогает машинное обучение. В этой статье мы рассмотрим примеры работы сервисов геоаналитики VK Predict. Выясним, какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.
Статья подготовлена на основе вебинара команд VK Predict и VK Cloud.
Читать: https://habr.com/ru/companies/vk/articles/734102/
Геоаналитика помогает бизнесу принимать решения: где открыть магазин, построить отель или возвести новостройку с учетом доступности и популярности локации, наличия конкурентов и сотен других факторов. Решать подобные аналитические задачи с большим количеством значимых признаков помогает машинное обучение. В этой статье мы рассмотрим примеры работы сервисов геоаналитики VK Predict. Выясним, какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.
Статья подготовлена на основе вебинара команд VK Predict и VK Cloud.
Читать: https://habr.com/ru/companies/vk/articles/734102/
Loading Data from Oracle Object Storage into Oracle Fusion Analytics
This blog explains how to load data from Oracle Object Storage into Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/loading-data-from-oss-into-oracle-fusion-analytics
This blog explains how to load data from Oracle Object Storage into Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/loading-data-from-oss-into-oracle-fusion-analytics
Oracle
Loading Data from Oracle Object Storage into Oracle Fusion Analytics
❤1
Как следить за здоровьем GreenPlum
Вопрос мониторинга GreenPlum часто оказывается непростым, особенно когда на платформе хранится действительно много данных, а запросы пользователей часто меняются. В этом посте я расскажу, как мы в «Леруа Мерлен» настраиваем инструменты Observability, находим узкие места и поддерживаем SLA кластера с GreenPlum на высоком уровне без использования проприетарных решений. Статья будет полезна DWH-архитекторам и DevOps’ам, которые планируют или уже эксплуатируют достаточно большие GP-инсталляции.
Читать: https://habr.com/ru/companies/leroy_merlin/articles/735970/
Вопрос мониторинга GreenPlum часто оказывается непростым, особенно когда на платформе хранится действительно много данных, а запросы пользователей часто меняются. В этом посте я расскажу, как мы в «Леруа Мерлен» настраиваем инструменты Observability, находим узкие места и поддерживаем SLA кластера с GreenPlum на высоком уровне без использования проприетарных решений. Статья будет полезна DWH-архитекторам и DevOps’ам, которые планируют или уже эксплуатируют достаточно большие GP-инсталляции.
Читать: https://habr.com/ru/companies/leroy_merlin/articles/735970/
Бигдата, ты ли это?
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.
Читать: https://habr.com/ru/articles/736460/
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.
Читать: https://habr.com/ru/articles/736460/
Что такое Self-Service BI и зачем он нужен?
Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.
Читать: https://habr.com/ru/articles/736978/
Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.
Читать: https://habr.com/ru/articles/736978/
Как разработать модель выявления связанных компаний на основании анализа транзакций
На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».
Читать: https://habr.com/ru/companies/otkritie/articles/736990/
На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».
Читать: https://habr.com/ru/companies/otkritie/articles/736990/
👍1
[recovery mode] Структурирование кредитного портфеля методами машинного обучения
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Читать: https://habr.com/ru/articles/737086/
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Читать: https://habr.com/ru/articles/737086/
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Read: https://blogs.oracle.com/analytics/post/oac-dmu-np
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Read: https://blogs.oracle.com/analytics/post/oac-dmu-np
Oracle
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Working with Oracle Analytics Cloud Data Migration Utility when network perimeters are enabled
Oracle Analytics Best Practices: Performance Tuning with Excluded Columns
This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.
Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols
This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.
Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols
Oracle
Oracle Analytics Best Practices: Performance Tuning with Excluded Columns
This blog will highlight a scenario of why it is best practice to remove any redundant columns from badly performing analysis
How to set up data security in Oracle Fusion HCM Analytics using the Area of Responsibility Department Hierarchy attribute
Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.
Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute
Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.
Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute
Oracle
Using Oracle Fusion HCM Analytics to Setup Data Security
Using Department Hierarchy attribute in Area Of Responsibility from Cloud HCM
Data Engineering Project: Stream Edition
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults
This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults
Oracle
Using encrypted values from Oracle Cloud Vaults and Secrets in the Oracle Analytics Cloud migration automation
Using encrypted values from Oracle Cloud Infrastructure vaults and secrets in the automation scripts for snapshot and data file migration using REST APIs
Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion Cloud HCM
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics
Oracle
Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion…
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Create Custom General Ledger Metrics Based on Hierarchy in Oracle Fusion Analytics
This blog describes Custom General Ledger Metrics based on Hierarchy in Oracle Fusion Analytics using Semantic Model Extensions
Read: https://blogs.oracle.com/analytics/post/custom-general-ledger-metrics-based-on-hierarchy-in-fusion-analytics-warehouse
This blog describes Custom General Ledger Metrics based on Hierarchy in Oracle Fusion Analytics using Semantic Model Extensions
Read: https://blogs.oracle.com/analytics/post/custom-general-ledger-metrics-based-on-hierarchy-in-fusion-analytics-warehouse
Oracle
Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse
This blog talks about Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse using Semantic Model Extensions
Когда данных слишком много… как оптимизировать хранение
Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).
Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.
Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/
Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).
Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.
Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/
Новые инструменты для работы c ML-моделями и обзор MLOps от CERN
Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».
Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать: https://habr.com/ru/companies/selectel/articles/737492/
Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».
Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать: https://habr.com/ru/companies/selectel/articles/737492/
Как выбирать технологии для Data Mesh — децентрализованного управления данными
В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.
Читать: https://habr.com/ru/companies/vk/articles/737152/
В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.
Читать: https://habr.com/ru/companies/vk/articles/737152/
Automate Snapshot and Data File Migration using Oracle Analytics Cloud REST APIs
Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Configuring Fusion Analytics Content Duty Roles to Secure Custom Content
This article provides a solution to configure content duty roles to secure custom content in Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/how-to-use-fusion-analytics-content-duty-roles-to-secure-custom-content
This article provides a solution to configure content duty roles to secure custom content in Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/how-to-use-fusion-analytics-content-duty-roles-to-secure-custom-content
Oracle
How to use Fusion Analytics content duty roles to secure custom content.
The purpose of this article is to provide an explanation of how to use content duty roles to secure custom content.
Фундаментальные концепции переобучения и недообучения в машинном обучении
Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!
Читать: https://habr.com/ru/articles/738128/
Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!
Читать: https://habr.com/ru/articles/738128/