Data Analysis / Big Data
2.83K subscribers
573 photos
4 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Создаём оптимизированный план ТОиР с помощью F5 EAM Optimizer

Дефицит комплектующих, изменение логистических маршрутов, последствия коронакризиса и влияние западных санкций в 2022 году подтолкнули российские промышленные предприятия искать новые способы сохранения и повышения эффективности производства. Промышленным предприятиям нужны решения для оптимизации процессов техобслуживания и ремонта «сейчас» и построения концепции цифрового предприятия «завтра». На старте, как правило, покрываются основные элементы ТОиР, затем можно переходить к расширенным сценариям мониторинга на основе данных телеметрии и к оптимизации планов, и уже после этого внедрять модели предиктивного анализа. В этой статье мы хотим рассказать о том, как оптимизировать планы технического обслуживания и ремонта с помощью системы F5 EAM и ее модуля EAM Optimizer.


Читать: https://habr.com/ru/post/715354/
1
Меры центральности в Network Science

Привет, Хабр!

Меня зовут Сергей Коньков, я Data Scientist и участник профессионального сообщества NTA. За последние 10 лет интерес к науке Network Science неимоверно возрос, что повлекло за собой закономерное развитие всевозможных инструментов для исследований в данной области. Одним из таких инструментов является python-библиотека NetworkX, предназначенная для анализа графов или других сетевых структур. Этот пост будет направлен на объяснение и демонстрацию работы основных мер центральности, вычисляемых в графах.


Читать: https://habr.com/ru/post/715386/
Платформа данных в Леруа Мерлен — как мы победили масштабирование

Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.

Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.


Читать: https://habr.com/ru/post/712946/
MLOps в облаке: как организовать работу над ML-экспериментами с помощью MLflow

В свое время DevOps заметно изменил подход к разработке программного обеспечения. Последние пару лет благодаря практикам MLOps меняются принципы и подходы к работе дата-специалистов. Александр Волынский (Technical Product Manager ML Platform VK Cloud) и Сергей Артюхин (преподаватель программы «Симулятор ML» в Karpov Courses) рассказывают, почему MLOps — «новый черный» и как безболезненно реализовать этот подход в своем проекте.


Читать: https://habr.com/ru/post/712900/
Биоинформатика — это не набор инструкций

У Бластима недавно завершился интенсив «анализ NGS-данных». На прошедшем потоке к команде лекторов присоединился новый преподаватель Алексей Зарубин. Перед стартом курса мы задали ему несколько вопросов про профессиональный рост и текущие научные задачи, а также спросили совета, что нужно для успешной карьеры в области «сухой биологии». Публикуем самое интересное из интервью с Алексеем.


Читать: https://habr.com/ru/post/713344/
Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark

Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они используются в машинном обучении для управления процессом обучения модели. Соответственно, подбор оптимальных гиперпараметров — критически важный этап в построении ML-моделей. Это даёт возможность не только повысить точность, но и бороться с переобучением.

Привычный тюнинг параметров в Python для моделей машинного обучения представляет собой множество техник и способов, например GridSearch, RandomSearch, HyperOpt, Optuna. Но бывают случаи, когда предобработка данных занимает слишком много времени или же объём данных слишком велик, чтобы уместиться в оперативную память одной машины. Для этого на помощь приходит Spark. Подробности — под катом.
Как всё это работает?

Читать: https://habr.com/ru/post/715678/
Как тестировать в Databricks: Nutter Framework

Если с тестированием привычных программных продуктов более-менее ясно, то вот с BigData возникает множество вопросов. Если у вас Java - у вас есть как минимум JUnit, а абсолютное большинство фреймворков заботятся о простоте тестирования. Например Spring посвящает этому очень много документации. Тестирование фронтенда тоже хорошо проработано: от Selenium до JestJs. Тестировать блокчейн и смарт-контракты одно удовольствие (хотя бы на Ethereum сети благодаря Truffle Suite)

Что делать, если вы используете Databricks? Обычные библиотеки для тестирования туда плохо заходят, и даже несколько официальных руководств по тестированию не отвечают на все вопросы. Ответ, который нашла наша команда, - Nutter Framework.
Как же его использовать?

Читать: https://habr.com/ru/post/715524/
👍2
Шпаргалки для data science

Подготовил шпаргалки для людей, использующих в своей работе python, sql, git, pandas numpy


Читать: https://habr.com/ru/post/715752/
👍1👎1
Независимый рейтинг TAdviser: чем Visiology отличается от других вендоров российского BI?

Привет, Хабр! Буквально на днях был опубликован рейтинг TAdviser рынка BI. Редакция долго готовила свой обзор, хотя для составления рейтингов компаний использовались данные 2021 года. В общем-то промедление в данном случае понятно, ведь мы оказались в состоянии переходного периода, когда западные системы внезапно перешли для пользователей в “серую” зону. Но зато результаты этой аналитической работы принесли сразу несколько интересных мыслей, на которые я хотел бы обратить внимание в этом посте.


Читать: https://habr.com/ru/post/716136/
Как найти информативные фичи с лассо и в лесу

Ну здравствуй, Хабр! Меня зовут Кирилл Тобола, я Data Scientist в Сбере. Сегодня поговорим о данных. Думаю, ни для кого не секрет, что они бывают разные. В нашей работе нередко встречаются данные, содержащие сотни, а иногда и тысячи признаков. При этом количество информативных часто оказывается меньше общего числа признаков.

Если работать с ними, не производя предварительную обработку, то модели становятся сложными. Как следствие, данные требуют большего количества времени для работы и теряют в качестве. Это важно, поскольку проблема быстродействия может быть критичной для рекомендательных систем, а проблема качества свойственна, в принципе, для всех моделей. Перед нами встаёт вопрос, вернее, задача снижения размерности. Она заключается в уменьшении общего числа признаков для анализируемого набора данных. Обо всём этом сегодня и поговорим.
Узнать, как решить задачу!

Читать: https://habr.com/ru/post/716172/
Кластер ElasticSearch на 1Ptb+

Черновик статьи был написан еще год назад, когда я работал на крупном международном проекте, но из-за разных событий прошлого года он остался неопубликованным.

На проекте в моем ведении находилось несколько on-premise кластеров в нескольких европейских датацентрах. «Мы» в этой статье — небольшая команда DataOps из 5 человек.

Было дело я читал на Хабре статью про «Кластер Elasticsearch на 200 ТБ+» и примерял написанное к нам, у нас такой кластер считался средним, самый маленький кластер под 0,1Ptb, а большой тогда был под 0,5Ptb. Потом была поставлена задача подготовить кластер к увеличению объемов входящих данных в 2-3 раза, а срок хранения в 2 раза, т. е. объем хранимых данных, если грубо экстраполировать, должен был стать в районе 2-3Ptb.

Хочу поделиться нашим опытом, может кому пригодиться.


Читать: https://habr.com/ru/post/716430/
👍1
Технологии помогают бизнесу: как предсказать «побег» арендаторов из торговых центров при помощи ML-модели

Ларин Алексей, Data Scientist

Владельцы торговых центров достаточно часто сталкиваются с ситуацией, когда арендатор прекращает свою деятельность без предварительного уведомления арендодателя. Соответственно, страдают организационные и бизнес-процессы владельца коммерческой недвижимости, падает прибыль. Сегодня поговорим о том, как технологии могут помочь решить эту проблему. Ну а использовать будем OCR-карту и модели данных.
Как всё это работает?

Читать: https://habr.com/ru/post/716642/
👍1
Как написать пайплайн для чтения рукописного текста

Привет, Хабр! В этой статье мы, команда Sber AI, расскажем о пайплайне для распознавания текста и о нюансах обучения HTR-моделей, а также поделимся датасетом школьных обезличенных тетрадей. Это почти 2 тысячи страниц с полной разметкой полигонов слов (более 300 тысяч текстов). Если нужно, то датасет есть в открытом доступе на hugging face.

Мы в Sber AI в рамках одного из наших направлений занимаемся распознаванием рукописного текста. В частности наша команда написала пайплайн для более удобного и быстрого проведения экспериментов под разные датасеты. Он состоит из двух модулей — (1) детекция слов и (2) чтение слов. К этому ещё можно добавить этап извлечения связного текста — объединение слов в предложения и страницы. Сложность HTR задачи (handwritten text recognition) в том, что рукопись каждого человека уникальна, на неё влияет множество факторов, включая возраст и настроение. Модель чтения печатного текста можно ускорить добавлением синтетики на основе печати простыми шрифтами на фонах. А вот с HTR-моделью это не даст такой сильный прирост, так что лучше воспользоваться синтетической рукопиской от GAN.

Отметим, что интересные задачи возникают и в модели для детекции рукописного текста. В таких данных текст, как правило, «прыгает» по странице, каждое слово под своим углом. Некоторые слова накладываются друг на друга, а строка может изгибаться, чтобы она поместилась на одной странице. Есть нюансы и при объединении двух моделей, например, нюансы даунгрейда качества чтения текста при объединении с детекцией (ошибки двух моделей мешают друг другу).


Читать: https://habr.com/ru/post/716796/
Специфика DataOPS в Учи.ру

Привет, Хабр! Меня зовут Сергей Поляков и я DataOps-инженер в Учи.ру. Наша платформа объединяет почти 19 млн пользователей, которые совершают сотни миллионов действий. При этом нам важно хранить эти данные, чтобы совершенствовать продукт. Главная задача Data-инженеров — поддерживать стабильную инфраструктуру и внедрять инструменты для централизованной работы с данными. Я расскажу, какие решения по автоматизации и DevOps-практики мы используем для этого.
Инфраструктура и источники данных

Наша инфраструктура располагается на проекте Data Warehouse. Примерный объем хранилища данных — около 100 ТБ и ежедневная дельта — в районе 10 ТБ. Все данные мы размещаем в облачном хранилище от Selectel.

Основными источниками данных являются:


Читать: https://habr.com/ru/post/716904/
1👍1
Cross functional subject area analysis and application of Explain metrics on combined datasets in Fusion Analytics

The following document describes how a Fusion Analytics user can create a cross-functional subject area between two or more subject areas and use the prebuilt Explain functionality of Oracle Analytics Cloud (OAC) on all the measures available on the combined subject areas.

Read: https://blogs.oracle.com/analytics/post/faw-cx-erp-cross-functional-sa