Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Ребят, ищем пишущего IT-редактора блогов в Tproger

Условия: удалёнка, фултайм

Что делать:
— искать темы, которые понравятся клиентам и заинтересуют читателей;
— вникать в эти темы настолько, чтобы говорить с экспертами примерно на одном языке;
— проводить интервью и собирать фактуру;
— превращать фактуру в статью, которую захочется читать и репостить;
— дорабатывать статью вместе с экспертами и менеджерами клиента.

Требования:
— пишете логично и ёмко, видите стилистические и речевые ошибки в тексте;
— быстро находите и проверяете информацию (в том числе в англоязычных источниках);
— любите общаться с экспертами и умеете их разговорить;
— спокойно реагируете на комментарии, но можете отстоять свою позицию, если правка неуместна;
— тактично вносите правки, чтобы автор не расстраивался, а был благодарен за помощь;
— знаете, что такое ключевое слово, мета-описание и зачем нужен Wordstat.

Чтобы откликнуться, заполняйте анкету.

#вакансии #работа
Книга «Data Science в действии»

Привет, Хаброжители!

В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.

Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.

Читать: https://habr.com/ru/companies/piter/articles/752258/
Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/752458/
Свойство типа Controller Service в кастомном процессоре NiFi

В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.


Читать: https://habr.com/ru/articles/752690/
Что такое Data Observability и с чем ее едят?

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.


Читать: https://habr.com/ru/companies/amvera/articles/752788/
[recovery mode] Как развить в компании культуру принимать решения на основе данных

Data-driven подход - это метод управления бизнесом, основанный на анализе данных. Он позволяет компаниям принимать решения на основе фактов и цифр, а не на основе интуиции или предположений. В результате, компания может оптимизировать свою деятельность, увеличить эффективность и прибыльность, а также улучшить качество продукции или услуг. В этой статье мы рассмотрим, как внедрить data-driven подход в компанию. Так как я работала аналитиком данных, то и советы будут идти как от человека, чья основная обязанность помогать коллегам принимать решения на основе данных, однако полезными они будут и руководителям отделов, если они решили внедрить подход в своей компании.

Первый шаг во внедрении data-driven подхода - это понимание, какие данные используются в компании для принятия решений и какие еще нужны. Поговорите с коллегами и узнайте, как они принимают решения, где они берут данные и каких данных им не хватает. Обычно они с удовольствием пожалуются Вам какие данные они не могут достать.

Далее создайте продукт на основе их потребностей и покажите его коллегам. Например, создайте отчёт в Power Bi показывающий нужные показатели.

Самое важное: подойдите к каждому коллеге (если их слишком много, то можно провести вебинар) и обсудите дашборд, покажите, как им пользоваться. Вы можете найти инсайты в их зоне ответственности и показать им: "Вот видишь у тебя доля телевизоров в 45+ диагонали меньше, чем по остальным сегментам. Не дорабатываем в этом направлении." В этот момент мы продаём наш отчёт и культуру принятия решений на основе данных. Если просто отдать отчёт им никто не будет пользоваться. а) Не понятно куда нажимать, куда смотреть. Даже если у Вас визуализации на высоком уровне, не удивляйтесь, что пользователи даже не найдут как отфильтровать данные за нужный им период. б) И без этих отчётов как -то работали же. Поэтому мы должны донести ценность до пользователя. Не просто показать, где найти данные, но и как принимать решения на их основе. Например, раньше подготовка к переговорам занимала 2 дня, а сейчас 3 часа, благодаря тому что все данные уже есть. Осталось просто сделать нужные скриншоты и вставить их в презентацию.


Читать: https://habr.com/ru/articles/753158/
👍1
Эффективная загрузка внешних данных в корпоративное хранилище: опыт «Магнита»

Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.


Читать: https://habr.com/ru/companies/magnit/articles/753002/
Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).
* Целостность: надёжность используемого датасета
* Точность: степень валидности и корректности присвоенных аннотаций
* Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.


Читать: https://habr.com/ru/articles/740978/
👍1
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.


Читать: https://habr.com/ru/companies/evraz/articles/682046/
Span of Control & Manager Assignment – A Dataset based Approach

Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.

Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach
ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.

Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.


Читать: https://habr.com/ru/companies/automacon/articles/754092/
Дорожная карта Data Science 2023: пошаговый гайд

Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.

Читать: «Дорожная карта Data Science 2023: пошаговый гайд»
Бизнес-ключ и суррогатный ключ нужны оба

Пару дней назад я агитировал всеми уважаемого эксперта в хранилищах данных за новый стандарт суррогатных ключей UUIDv7 для высоконагруженных систем. И я получил от него ответ, что суррогатные ключи не нужны, а нужны лишь бизнес-ключи (естественные ключи). Этот абсурдный ответ заставил меня написать ответное письмо, а затем и эту статью.


Читать: https://habr.com/ru/articles/754160/
S3 не сразу строилось

Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть


Читать: https://habr.com/ru/articles/754340/
👍1
14 типов атак, которые должны выявлять системы лицевой биометрии

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.


Читать: https://habr.com/ru/articles/750326/
Apache Spark 3.4 для Databricks Runtime 13.0

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.


Читать: https://habr.com/ru/companies/southbridge/articles/754464/
Analytics Learning Library - Check out the Oracle Analytics YouTube Videos

Oracle Analytics YouTube Videos

Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos