Data Analysis / Big Data
2.83K subscribers
563 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.


Читать: https://habr.com/ru/companies/evraz/articles/682046/
Span of Control & Manager Assignment – A Dataset based Approach

Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.

Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach
ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.

Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.


Читать: https://habr.com/ru/companies/automacon/articles/754092/
Дорожная карта Data Science 2023: пошаговый гайд

Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.

Читать: «Дорожная карта Data Science 2023: пошаговый гайд»
Бизнес-ключ и суррогатный ключ нужны оба

Пару дней назад я агитировал всеми уважаемого эксперта в хранилищах данных за новый стандарт суррогатных ключей UUIDv7 для высоконагруженных систем. И я получил от него ответ, что суррогатные ключи не нужны, а нужны лишь бизнес-ключи (естественные ключи). Этот абсурдный ответ заставил меня написать ответное письмо, а затем и эту статью.


Читать: https://habr.com/ru/articles/754160/
S3 не сразу строилось

Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть


Читать: https://habr.com/ru/articles/754340/
👍1
14 типов атак, которые должны выявлять системы лицевой биометрии

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.


Читать: https://habr.com/ru/articles/750326/
Apache Spark 3.4 для Databricks Runtime 13.0

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.


Читать: https://habr.com/ru/companies/southbridge/articles/754464/
Analytics Learning Library - Check out the Oracle Analytics YouTube Videos

Oracle Analytics YouTube Videos

Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos
Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов

Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.

Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.

12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?

Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.


Читать: https://habr.com/ru/specials/753982/
Какой язык программирования выбрать? Часть 4: Spark

Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.


Читать: https://habr.com/ru/companies/kryptonite/articles/754486/
Зачем инструмент dbt нужен аналитику

Представляем подробный гайд по dbt — Data Build Tool — одному из лучших фреймворков для трансформации данных.

Читать: «Зачем инструмент dbt нужен аналитику»
Oracle Fusion Analytics Event Notifications with OCI Functions

Configuring email notifications with OCI Functions and Oracle Fusion Analytics Event notifications

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-event-notifications-with-oci-functions
Фантастические pandas

Размышления о том, как перейти от тяжёлых мыслей о конкуренции в IT к любви к фантастическим мишкам и восклицательным знакам, если правильно и вовремя импортируешь нужные библиотеки.


Читать: https://habr.com/ru/articles/748556/
Каталог данных на примере DataHub. Часть I

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.
Погнали 🚀

Читать: https://habr.com/ru/articles/748350/
Единая нейросетевая модель кредитного скоринга

Сейчас в Альфа-Банке при построении моделей используется множество различных источников данных. Мы в Лаборатории машинного обучения уже несколько лет применяем нейронные сети на последовательностях для решения задачи кредитного скоринга и построили модели на данных карточных транзакций, транзакций расчетного счета и кредитных историй. Повышение качества в задаче кредитного скоринга позволяет банку выдавать большее количество кредитов при неизменном уровне риска, что напрямую влияет на его прибыль.

Моделей становится все больше, и возникает вопрос: почему бы нам не смешивать модели не на уровне их предсказаний, а на некотором более низком уровне? Эта идея приводит нас к новому способу смешивания - построению единой нейросетевой модели, работающей со всеми источниками последовательных данных и учитывающей их взаимное влияние друг на друга. В этой статье мы расскажем, как нам удалось разработать такую модель и каких результатов она позволяет добиться в задаче кредитного скоринга.


Читать: https://habr.com/ru/companies/alfa/articles/748824/