Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как найти информативные фичи с лассо и в лесу

Ну здравствуй, Хабр! Меня зовут Кирилл Тобола, я Data Scientist в Сбере. Сегодня поговорим о данных. Думаю, ни для кого не секрет, что они бывают разные. В нашей работе нередко встречаются данные, содержащие сотни, а иногда и тысячи признаков. При этом количество информативных часто оказывается меньше общего числа признаков.

Если работать с ними, не производя предварительную обработку, то модели становятся сложными. Как следствие, данные требуют большего количества времени для работы и теряют в качестве. Это важно, поскольку проблема быстродействия может быть критичной для рекомендательных систем, а проблема качества свойственна, в принципе, для всех моделей. Перед нами встаёт вопрос, вернее, задача снижения размерности. Она заключается в уменьшении общего числа признаков для анализируемого набора данных. Обо всём этом сегодня и поговорим.
Узнать, как решить задачу!

Читать: https://habr.com/ru/post/716172/
Кластер ElasticSearch на 1Ptb+

Черновик статьи был написан еще год назад, когда я работал на крупном международном проекте, но из-за разных событий прошлого года он остался неопубликованным.

На проекте в моем ведении находилось несколько on-premise кластеров в нескольких европейских датацентрах. «Мы» в этой статье — небольшая команда DataOps из 5 человек.

Было дело я читал на Хабре статью про «Кластер Elasticsearch на 200 ТБ+» и примерял написанное к нам, у нас такой кластер считался средним, самый маленький кластер под 0,1Ptb, а большой тогда был под 0,5Ptb. Потом была поставлена задача подготовить кластер к увеличению объемов входящих данных в 2-3 раза, а срок хранения в 2 раза, т. е. объем хранимых данных, если грубо экстраполировать, должен был стать в районе 2-3Ptb.

Хочу поделиться нашим опытом, может кому пригодиться.


Читать: https://habr.com/ru/post/716430/
👍1
Технологии помогают бизнесу: как предсказать «побег» арендаторов из торговых центров при помощи ML-модели

Ларин Алексей, Data Scientist

Владельцы торговых центров достаточно часто сталкиваются с ситуацией, когда арендатор прекращает свою деятельность без предварительного уведомления арендодателя. Соответственно, страдают организационные и бизнес-процессы владельца коммерческой недвижимости, падает прибыль. Сегодня поговорим о том, как технологии могут помочь решить эту проблему. Ну а использовать будем OCR-карту и модели данных.
Как всё это работает?

Читать: https://habr.com/ru/post/716642/
👍1
Как написать пайплайн для чтения рукописного текста

Привет, Хабр! В этой статье мы, команда Sber AI, расскажем о пайплайне для распознавания текста и о нюансах обучения HTR-моделей, а также поделимся датасетом школьных обезличенных тетрадей. Это почти 2 тысячи страниц с полной разметкой полигонов слов (более 300 тысяч текстов). Если нужно, то датасет есть в открытом доступе на hugging face.

Мы в Sber AI в рамках одного из наших направлений занимаемся распознаванием рукописного текста. В частности наша команда написала пайплайн для более удобного и быстрого проведения экспериментов под разные датасеты. Он состоит из двух модулей — (1) детекция слов и (2) чтение слов. К этому ещё можно добавить этап извлечения связного текста — объединение слов в предложения и страницы. Сложность HTR задачи (handwritten text recognition) в том, что рукопись каждого человека уникальна, на неё влияет множество факторов, включая возраст и настроение. Модель чтения печатного текста можно ускорить добавлением синтетики на основе печати простыми шрифтами на фонах. А вот с HTR-моделью это не даст такой сильный прирост, так что лучше воспользоваться синтетической рукопиской от GAN.

Отметим, что интересные задачи возникают и в модели для детекции рукописного текста. В таких данных текст, как правило, «прыгает» по странице, каждое слово под своим углом. Некоторые слова накладываются друг на друга, а строка может изгибаться, чтобы она поместилась на одной странице. Есть нюансы и при объединении двух моделей, например, нюансы даунгрейда качества чтения текста при объединении с детекцией (ошибки двух моделей мешают друг другу).


Читать: https://habr.com/ru/post/716796/
Специфика DataOPS в Учи.ру

Привет, Хабр! Меня зовут Сергей Поляков и я DataOps-инженер в Учи.ру. Наша платформа объединяет почти 19 млн пользователей, которые совершают сотни миллионов действий. При этом нам важно хранить эти данные, чтобы совершенствовать продукт. Главная задача Data-инженеров — поддерживать стабильную инфраструктуру и внедрять инструменты для централизованной работы с данными. Я расскажу, какие решения по автоматизации и DevOps-практики мы используем для этого.
Инфраструктура и источники данных

Наша инфраструктура располагается на проекте Data Warehouse. Примерный объем хранилища данных — около 100 ТБ и ежедневная дельта — в районе 10 ТБ. Все данные мы размещаем в облачном хранилище от Selectel.

Основными источниками данных являются:


Читать: https://habr.com/ru/post/716904/
1👍1
Cross functional subject area analysis and application of Explain metrics on combined datasets in Fusion Analytics

The following document describes how a Fusion Analytics user can create a cross-functional subject area between two or more subject areas and use the prebuilt Explain functionality of Oracle Analytics Cloud (OAC) on all the measures available on the combined subject areas.

Read: https://blogs.oracle.com/analytics/post/faw-cx-erp-cross-functional-sa
Как MLOps помогает обеспечить гибкость машинного обучения и стимулирует инновации

Многие компании внедряли машинное обучение рывками, приобретая и разрабатывая модели, алгоритмы, инструменты и сервисы под конкретные задачи. Этот подход неизбежен на старте, когда бизнес только узнает о возможностях технологий. Но в результате получается сборная солянка из изолированных, запускаемых вручную, нестандартизированных процессов и компонентов. Как следствие, появляются неэффективные громоздкие сервисы, которые приносят меньше пользы, чем могли бы, или полностью блокируют дальнейшее развитие.

Команда VK Cloud перевела статью о значимости стандартизации и автоматизации ML-процессов и как с этим поможет подход MLOps.


Читать: https://habr.com/ru/post/713182/
Дайджест Python #3: пишем AI-плеер для сайта и боремся с лесными пожарами

Собрали лучшие материалы по Python с 1 по 14 февраля: как создать ИИ-плеер, как предсказать лесные пожары и как быстро прокачать код.

Читать: «Дайджест Python #3: пишем AI-плеер для сайта и боремся с лесными пожарами»
Подборка актуальных вакансий

Главный разработчик
Где: Москва, можно удалённо
Опыт: от 3 лет

Middle DevOps Engineer
Где: Москва, можно удалённо
Опыт: без опыта

Разработчик 1С
Где: Москва, Санкт-Петербург, Ростов-на-Дону
Опыт: от 3 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Руководитель команды NoSQL
Где: Москва, можно удалённо
Опыт: от 3 лет

Auto QA-инженер
Где: Москва, можно удалённо
Опыт: от 1 года

Senior Android Developer
Где: Москва, можно удалённо
Опыт: от 3 лет

Senior iOS Developer
Где: Москва, можно удалённо
Опыт: от 3 лет

Hadoop администратор
Где: Москва, можно удалённо
Опыт: от 1 до 3 лет

Data Engineer
Где: Москва, можно удалённо
Опыт: можно без опыта

#вакансии #работа
Дайджест Python #3: пишем AI-плеер для сайта и боремся с лесными пожарами

Собрали лучшие материалы по Python с 1 по 14 февраля: как создать ИИ-плеер, как предсказать лесные пожары и как быстро прокачать код.

Читать: «Дайджест Python #3: пишем AI-плеер для сайта и боремся с лесными пожарами»
Visualize Oracle Analytics Cloud data using Power BI

Is Microsoft Power BI your tool of choice for visualizing data? If so, now you can use it to visualize data in Oracle Analytics Cloud (OAC) through the power of the OAC semantic layer.

Read: https://blogs.oracle.com/analytics/post/visualize-oracle-analytics-cloud-data-using-power-bi
Pathway: unlocking data stream processing [Part 1] - real-time linear regression

Read: https://www.dataengineeringweekly.com/p/pathway-unlocking-data-stream-processing
Как Homebrew раздаёт 52 миллиона пакетов в месяц?

Пакетный менеджер Homebrew раздаёт 52 миллиона пакетов в месяц. Чтобы это делать, он использует хранилища контейнеров, отлично подходящие для этой задачи. Как это работает?


Читать: https://habr.com/ru/post/717400/
Как мы распараллелили CatBoost на Spark

Привет, Хабр! Я занимаюсь инженерией данных в Х5 Tech. В этой статье я решил поделиться проблемами, с которыми столкнулись при распараллеливании CatBoost на Spark, и как мы нашли решение. Возможно, это не rocket science, но если бы со мной поделились такими ответами заранее, я бы сэкономил себе пару вечеров свободного времени.


Читать: https://habr.com/ru/post/717450/
7 способов улучшения датасетов медицинских снимков для машинного обучения

Качество датасета медицинских снимков (как и датасетов изображений в любой другой области) напрямую влияет на точность модели машинного обучения.

В секторе здравоохранения это ещё более важно, ведь качество крупных массивов данных медицинских снимков для диагностического и медицинского AI (искусственного интеллекта) или моделей глубокого обучения может стать для пациентов вопросом жизни и смерти.

Как знают команды клинических исследователей, сложность, форматы и слои информации в медицине больше и затейливее, чем в немедицинских изображениях и видео. Отсюда и берётся необходимость в алгоритмах искусственного интеллекта, машинного обучения (ML) и глубокого обучения с целью понимания, интерпретации и обучения на аннотированных массивах данных медицинских снимков.

В этой статье мы расскажем о сложностях создания обучающих массивов данных из медицинских снимков и видео (особенно в сфере радиологии), а также поделимся рекомендациями по созданию обучающих массивов данных высочайшего качества.


Читать: https://habr.com/ru/post/704192/
У нас для вас отличные новости! Наш сайт обновился и теперь может уведомлять по почте и в Telegram о новых материалах, которые интересны именно вам

Для этого вам нужно:

1. Авторизоваться на сайте tproger.ru
2. Зайти в свой профиль и подписаться на интересные вам теги в разделе «Подписки». Например, библиотеки, инструменты и другие
3. В разделе уведомлений выбрать, как именно вы хотите получать уведомления
4. Всё! Вы великолепны и теперь всегда будете первым узнавать о свежих материалах
👍3
Data Pipeline Design Patterns - #2. Coding patterns in Python

Read: https://www.startdataengineering.com/post/code-patterns/