Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.68K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.


Читать: https://habr.com/ru/companies/selectel/articles/737492/
Как выбирать технологии для Data Mesh — децентрализованного управления данными

В последнее время все чаще звучит вопрос: какую технологию использовать для Data Mesh — Databricks, AWS, Snowflake или Open-Source-решения? Команда VK Cloud перевела статью с подсказками о том, как выбирать подходящие технологии и оценивать их применение в вашем конкретном случае.


Читать: https://habr.com/ru/companies/vk/articles/737152/
Automate Snapshot and Data File Migration using Oracle Analytics Cloud REST APIs

Use REST APIs to automate snapshot and data file migration for Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/oac-migration-automation
Фундаментальные концепции переобучения и недообучения в машинном обучении

Этот модуль дает интуитивно понятное введение в очень фундаментальные концепции переобучения и недообучения в машинном обучении. Модели машинного обучения никогда не могут делать идеальные прогнозы: ошибка теста никогда не равна нулю. Этот провал происходит из-за фундаментального компромисса между гибкостью моделирования и ограниченным размером обучающего набора данных .
Поехали!

Читать: https://habr.com/ru/articles/738128/
Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/738208/
1
Чей DAX сильнее? …или почему каждый пользователь должен влиять на развитие платформы

Привет, Хабр! В этом посте мне хотелось бы поговорить о том, каким образом мы развиваем платформу, и откуда появляются новые функции в Visiology. В большей степени сейчас это касается развития поддержки DAX в третьей версии платформы. Но сама практика появилась не на пустом месте, и сегодня мы как раз обсудим, как команда разработчиков выбирает, какие новые фичи стоит включить в Visiology, зачем мы запустили сбор кейсов для реализации на DAXе, и что можно увидеть на вебинарах Visiology, которые посвящены развитию аналитического движка в Visiology 3.


Читать: https://habr.com/ru/companies/visiology/articles/738456/
Сassandra для бедных — пускаем в ход HDD

Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.


Читать: https://habr.com/ru/articles/738304/
Как увеличить покрытие ценовым мониторингом с 9% до 85% ассортимента. Deep Learning в процессах ценообразования

В 2022 году в Hoff Tech была сформирована команда для реализации проекта по ценообразованию гипермаркетов Hoff. Все это проходило в рамках цифровой трансформации, и в команду были включены эксперты по ценообразованию, бизнес-анализу, программисты и специалисты по data science.

Для эффективного управления ценой необходимо понимать три вещи:

— какие цели ставит перед собой компания и как она их планирует достигать, используя стратегии ценообразования;

— какова себестоимость нашего товара;

— по каким ценам продают аналогичный товар наши конкуренты.

Так как Hoff уже много лет работает на рынке мебели и товаров для дома, его специалисты прекрасно ориентируются в рыночных тенденциях. Управленческая аналитика компании находится на весьма высоком уровне развития, поэтому первый и второй пункты были для нас понятны. А информации о конкурентном окружении у нас было мало. Ценовым мониторингом было покрыто только около 10% нашего ассортимента, и процесс мониторинга цен конкурентов  был реализован в ручном режиме.

Ситуация осложнялась еще и тем, что мы не смогли воспользоваться существующими на рынке сервисами для автоматизации процесса подбора товаров-аналогов. Сервисы, которые мы нашли, неплохо справляются в секторах продуктов питания и FMCG — в них все товары похожи. А вот в сегменте мебели и товаров для дома продукция зачастую различается не только потребительскими свойствами, но и дизайном, поэтому существующие решения не могли ее анализировать. Мы в Hoff Tech решили разработать свое решение.


Читать: https://habr.com/ru/companies/hofftech/articles/738466/
Configure Kerberos Single Sign-on for Oracle Analytics Server using Oracle HTTP Server

Describes how to configure Kerberos single sign-on for Oracle Analytics Server using Oracle HTTP Server.

Read: https://blogs.oracle.com/analytics/post/oas-kerb-sso-use-ohs
Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Read: https://blogs.oracle.com/analytics/post/oas-sso-idcs-iam-app-gateway
Configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without Docker Container

Describes how to configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without a Docker container.

Read: https://blogs.oracle.com/analytics/post/oas-sso-saml-mellon
Кластеризация текста в PySpark

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.
Узнать больше о кластеризации текста

Читать: https://habr.com/ru/articles/738906/
Битва медведей: Pandas против Polars

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух  гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.


Читать: https://habr.com/ru/companies/spectr/articles/738766/
Data Actions at Work, Part 1 - the Oracle Analytics Link

This blog shows how to use the Oracle Analytics link within Data Actions to enhance analysis within canvases and workbooks.

Read: https://blogs.oracle.com/analytics/post/data-actions-at-work-part-1-analytics-link
OBIA Solution Path

This blog is for many Oracle customers who have invested years into Oracle BI Applications and are evaluating various options to retain the efforts already invested in Oracle BI Applications (OBIA).

Read: https://blogs.oracle.com/analytics/post/obia-solution-path
1
Все события в мире синтетических данных за 2022 год

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.
Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:
* 28 поставщиков структурированных синтетических данных,
* 10 поставщиков синтетических тестовых данных,
* 6 опенсорсных поставщиков,
* и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:
На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.


Читать: https://habr.com/ru/articles/735358/
👍1