Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Oracle Analytics Best Practices: Performance Tuning with Excluded Columns

This article highlights the best practice of removing any redundant columns from badly performing analyses. This simple step can likely provide significant performance gains.

Read: https://blogs.oracle.com/analytics/post/oacperformancetuningexcludecols
How to set up data security in Oracle Fusion HCM Analytics using the Area of Responsibility Department Hierarchy attribute

Read this article to understand how to use the Department Hierarchy attribute in Fusion HCM AOR data to set up custom security in Oracle Fusion HCM Analytics.

Read: https://blogs.oracle.com/analytics/post/faw-hcm-data-security-using-dept-hier-aor-attribute
Use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation

This article describes how to use encrypted values from Oracle Cloud vaults and secrets in Oracle Analytics Cloud migration automation

Read: https://blogs.oracle.com/analytics/post/oac-automate-snapshot-use-oci-vaults
Setting Up Data Security in Oracle Fusion HCM Analytics with Organization Hierarchy Area of Responsibility Data from Oracle Fusion Cloud HCM

This blog walks you through setting up custom data security in Oracle Fusion HCM Analytics using Organization Hierarchy AOR data extracted from Fusion Cloud HCM. It is part of a series of blogs describing HCM security use cases in Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/setting-up-aor-org-hierarchy-data-security-in-fusion-hcm-analytics
Когда данных слишком много… как оптимизировать хранение

Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).

Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.



Читать: https://habr.com/ru/companies/cloud_mts/articles/737514/
Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.


Читать: https://habr.com/ru/companies/selectel/articles/737492/
Как выбирать технологии для Data Mesh — децентрализованного управления данными

В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.


Читать: https://habr.com/ru/companies/vk/articles/737152/
Automate Snapshot and Data File Migration using Oracle Analytics Cloud REST APIs

Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Фундаментальные концепции переобучения и недообучения в машинном обучении

Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!

Читать: https://habr.com/ru/articles/738128/
Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/738208/
1
Чей DAX сильнее? …или почему каждый пользователь должен влиять на развитие платформы

Привет, Хабр! В этом посте мне хотелось бы поговорить о том, каким образом мы развиваем платформу, и откуда появляются новые функции в Visiology. В большей степени сейчас это касается развития поддержки DAX в третьей версии платформы. Но сама практика появилась не на пустом месте, и сегодня мы как раз обсудим, как команда разработчиков выбирает, какие новые фичи стоит включить в Visiology, зачем мы запустили сбор кейсов для реализации на DAXе, и что можно увидеть на вебинарах Visiology, которые посвящены развитию аналитического движка в Visiology 3.


Читать: https://habr.com/ru/companies/visiology/articles/738456/
Сassandra для бедных — пускаем в ход HDD

Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.


Читать: https://habr.com/ru/articles/738304/
Как увеличить покрытие ценовым мониторингом с 9% до 85% ассортимента. Deep Learning в процессах ценообразования

В 2022 году в Hoff Tech была сформирована команда для реализации проекта по ценообразованию гипермаркетов Hoff. Все это проходило в рамках цифровой трансформации, и в команду были включены эксперты по ценообразованию, бизнес-анализу, программисты и специалисты по data science.

Для эффективного управления ценой необходимо понимать три вещи:

— какие цели ставит перед собой компания и как она их планирует достигать, используя стратегии ценообразования;

— какова себестоимость нашего товара;

— по каким ценам продают аналогичный товар наши конкуренты.

Так как Hoff уже много лет работает на рынке мебели и товаров для дома, его специалисты прекрасно ориентируются в рыночных тенденциях. Управленческая аналитика компании находится на весьма высоком уровне развития, поэтому первый и второй пункты были для нас понятны. А информации о конкурентном окружении у нас было мало. Ценовым мониторингом было покрыто только около 10% нашего ассортимента, и процесс мониторинга цен конкурентов  был реализован в ручном режиме.

Ситуация осложнялась еще и тем, что мы не смогли воспользоваться существующими на рынке сервисами для автоматизации процесса подбора товаров-аналогов. Сервисы, которые мы нашли, неплохо справляются в секторах продуктов питания и FMCG — в них все товары похожи. А вот в сегменте мебели и товаров для дома продукция зачастую различается не только потребительскими свойствами, но и дизайном, поэтому существующие решения не могли ее анализировать. Мы в Hoff Tech решили разработать свое решение.


Читать: https://habr.com/ru/companies/hofftech/articles/738466/
Configure Kerberos Single Sign-on for Oracle Analytics Server using Oracle HTTP Server

Describes how to configure Kerberos single sign-on for Oracle Analytics Server using Oracle HTTP Server.

Read: https://blogs.oracle.com/analytics/post/oas-kerb-sso-use-ohs
Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Read: https://blogs.oracle.com/analytics/post/oas-sso-idcs-iam-app-gateway
Configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without Docker Container

Describes how to configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without a Docker container.

Read: https://blogs.oracle.com/analytics/post/oas-sso-saml-mellon