Бигдата, ты ли это?
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.
Читать: https://habr.com/ru/articles/736460/
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.
Читать: https://habr.com/ru/articles/736460/
Что такое Self-Service BI и зачем он нужен?
Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.
Читать: https://habr.com/ru/articles/736978/
Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.
Читать: https://habr.com/ru/articles/736978/
Как разработать модель выявления связанных компаний на основании анализа транзакций
На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».
Читать: https://habr.com/ru/companies/otkritie/articles/736990/
На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».
Читать: https://habr.com/ru/companies/otkritie/articles/736990/
👍1
[recovery mode] Структурирование кредитного портфеля методами машинного обучения
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Читать: https://habr.com/ru/articles/737086/
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Читать: https://habr.com/ru/articles/737086/
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Read: https://blogs.oracle.com/analytics/post/oac-dmu-np
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Read: https://blogs.oracle.com/analytics/post/oac-dmu-np
Oracle
Evaluate network perimeters impact on Oracle Analytics Cloud migrations
Working with Oracle Analytics Cloud Data Migration Utility when network perimeters are enabled
Oracle Analytics Best Practices: Performance Tuning with Excluded Columns
This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.
Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols
This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.
Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols
Oracle
Oracle Analytics Best Practices: Performance Tuning with Excluded Columns
This blog will highlight a scenario of why it is best practice to remove any redundant columns from badly performing analysis
How to set up data security in Oracle Fusion HCM Analytics using the Area of Responsibility Department Hierarchy attribute
Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.
Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute
Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.
Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute
Oracle
Using Oracle Fusion HCM Analytics to Setup Data Security
Using Department Hierarchy attribute in Area Of Responsibility from Cloud HCM
Data Engineering Project: Stream Edition
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults
This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation
Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults
Oracle
Using encrypted values from Oracle Cloud Vaults and Secrets in the Oracle Analytics Cloud migration automation
Using encrypted values from Oracle Cloud Infrastructure vaults and secrets in the automation scripts for snapshot and data file migration using REST APIs
Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion Cloud HCM
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics
Oracle
Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion…
This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.
Create Custom General Ledger Metrics Based on Hierarchy in Oracle Fusion Analytics
This blog describes Custom General Ledger Metrics based on Hierarchy in Oracle Fusion Analytics using Semantic Model Extensions
Read: https://blogs.oracle.com/analytics/post/custom-general-ledger-metrics-based-on-hierarchy-in-fusion-analytics-warehouse
This blog describes Custom General Ledger Metrics based on Hierarchy in Oracle Fusion Analytics using Semantic Model Extensions
Read: https://blogs.oracle.com/analytics/post/custom-general-ledger-metrics-based-on-hierarchy-in-fusion-analytics-warehouse
Oracle
Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse
This blog talks about Custom General Ledger Metrics based on Hierarchy in Fusion Analytics Warehouse using Semantic Model Extensions
Когда данных слишком много… как оптимизировать хранение
Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).
Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.
Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/
Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).
Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.
Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/
Новые инструменты для работы c ML-моделями и обзор MLOps от CERN
Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».
Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать: https://habr.com/ru/companies/selectel/articles/737492/
Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».
Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать: https://habr.com/ru/companies/selectel/articles/737492/
Как выбирать технологии для Data Mesh — децентрализованного управления данными
В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.
Читать: https://habr.com/ru/companies/vk/articles/737152/
В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.
Читать: https://habr.com/ru/companies/vk/articles/737152/
Automate Snapshot and Data File Migration using Oracle Analytics Cloud REST APIs
Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Configuring Fusion Analytics Content Duty Roles to Secure Custom Content
This article provides a solution to configure content duty roles to secure custom content in Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/how-to-use-fusion-analytics-content-duty-roles-to-secure-custom-content
This article provides a solution to configure content duty roles to secure custom content in Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/how-to-use-fusion-analytics-content-duty-roles-to-secure-custom-content
Oracle
How to use Fusion Analytics content duty roles to secure custom content.
The purpose of this article is to provide an explanation of how to use content duty roles to secure custom content.
Фундаментальные концепции переобучения и недообучения в машинном обучении
Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!
Читать: https://habr.com/ru/articles/738128/
Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!
Читать: https://habr.com/ru/articles/738128/
Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё
Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!
Читать: https://habr.com/ru/companies/ru_mts/articles/738208/
Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!
Читать: https://habr.com/ru/companies/ru_mts/articles/738208/
❤1
Чей DAX сильнее? …или почему каждый пользователь должен влиять на развитие платформы
Привет, Хабр! В этом посте мне хотелось бы поговорить о том, каким образом мы развиваем платформу, и откуда появляются новые функции в Visiology. В большей степени сейчас это касается развития поддержки DAX в третьей версии платформы. Но сама практика появилась не на пустом месте, и сегодня мы как раз обсудим, как команда разработчиков выбирает, какие новые фичи стоит включить в Visiology, зачем мы запустили сбор кейсов для реализации на DAXе, и что можно увидеть на вебинарах Visiology, которые посвящены развитию аналитического движка в Visiology 3.
Читать: https://habr.com/ru/companies/visiology/articles/738456/
Привет, Хабр! В этом посте мне хотелось бы поговорить о том, каким образом мы развиваем платформу, и откуда появляются новые функции в Visiology. В большей степени сейчас это касается развития поддержки DAX в третьей версии платформы. Но сама практика появилась не на пустом месте, и сегодня мы как раз обсудим, как команда разработчиков выбирает, какие новые фичи стоит включить в Visiology, зачем мы запустили сбор кейсов для реализации на DAXе, и что можно увидеть на вебинарах Visiology, которые посвящены развитию аналитического движка в Visiology 3.
Читать: https://habr.com/ru/companies/visiology/articles/738456/
Сassandra для бедных — пускаем в ход HDD
Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.
Читать: https://habr.com/ru/articles/738304/
Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.
Читать: https://habr.com/ru/articles/738304/