Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

568 photos

3 videos

2 files

2.9K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Sloppy language misleads

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/sloppy-language-misleads.html

Big Data, Plainly Spoken (aka Numbers Rule Your World)

Sloppy language misleads

Kaiser discusses the conclusion of the Clalit booster study.

562 views14:15

Data Analysis / Big Data

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».

Читать: https://habr.com/ru/companies/selectel/articles/752458/

617 views10:11

Data Analysis / Big Data

A sports analogy for data processing rules

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/a-sports-analogy-for-data-processing-rules.html

596 views18:06

Data Analysis / Big Data

Свойство типа Controller Service в кастомном процессоре NiFi

В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.

Читать: https://habr.com/ru/articles/752690/

566 views15:12

Data Analysis / Big Data

Что такое Data Observability и с чем ее едят?

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.

Читать: https://habr.com/ru/companies/amvera/articles/752788/

585 views11:07

Data Analysis / Big Data

[recovery mode] Как развить в компании культуру принимать решения на основе данных

Data-driven подход - это метод управления бизнесом, основанный на анализе данных. Он позволяет компаниям принимать решения на основе фактов и цифр, а не на основе интуиции или предположений. В результате, компания может оптимизировать свою деятельность, увеличить эффективность и прибыльность, а также улучшить качество продукции или услуг. В этой статье мы рассмотрим, как внедрить data-driven подход в компанию. Так как я работала аналитиком данных, то и советы будут идти как от человека, чья основная обязанность помогать коллегам принимать решения на основе данных, однако полезными они будут и руководителям отделов, если они решили внедрить подход в своей компании.

Первый шаг во внедрении data-driven подхода - это понимание, какие данные используются в компании для принятия решений и какие еще нужны. Поговорите с коллегами и узнайте, как они принимают решения, где они берут данные и каких данных им не хватает. Обычно они с удовольствием пожалуются Вам какие данные они не могут достать.

Далее создайте продукт на основе их потребностей и покажите его коллегам. Например, создайте отчёт в Power Bi показывающий нужные показатели.

Самое важное: подойдите к каждому коллеге (если их слишком много, то можно провести вебинар) и обсудите дашборд, покажите, как им пользоваться. Вы можете найти инсайты в их зоне ответственности и показать им: "Вот видишь у тебя доля телевизоров в 45+ диагонали меньше, чем по остальным сегментам. Не дорабатываем в этом направлении." В этот момент мы продаём наш отчёт и культуру принятия решений на основе данных. Если просто отдать отчёт им никто не будет пользоваться. а) Не понятно куда нажимать, куда смотреть. Даже если у Вас визуализации на высоком уровне, не удивляйтесь, что пользователи даже не найдут как отфильтровать данные за нужный им период. б) И без этих отчётов как -то работали же. Поэтому мы должны донести ценность до пользователя. Не просто показать, где найти данные, но и как принимать решения на их основе. Например, раньше подготовка к переговорам занимала 2 дня, а сейчас 3 часа, благодаря тому что все данные уже есть. Осталось просто сделать нужные скриншоты и вставить их в презентацию.

Читать: https://habr.com/ru/articles/753158/

👍1

568 views02:06

Data Analysis / Big Data

Эффективная загрузка внешних данных в корпоративное хранилище: опыт «Магнита»

Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.

Читать: https://habr.com/ru/companies/magnit/articles/753002/

533 views07:21

Data Analysis / Big Data

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).
* Целостность: надёжность используемого датасета
* Точность: степень валидности и корректности присвоенных аннотаций
* Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.

Читать: https://habr.com/ru/articles/740978/

👍1

553 views07:51

Data Analysis / Big Data

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.

Читать: https://habr.com/ru/companies/evraz/articles/682046/

521 views06:10

Data Analysis / Big Data

Span of Control & Manager Assignment – A Dataset based Approach

Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.

Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach

Span of Control & Manager Assignment – A Dataset based Approach

Organizational structures are evolving year over year and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of essential KPIs that plays a crucial role in boosting productivity and…

503 views21:01

Data Analysis / Big Data

ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.

Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.

Читать: https://habr.com/ru/companies/automacon/articles/754092/

492 views14:00

Data Analysis / Big Data

Какие темы в IT вас интересуют больше всего?

Anonymous Poll

Ещё только начинаю, не выбрал конкретное направление

ИИ, нейронные сети, машинное обучение

Управление командами / проектами

BI-аналитика

Продуктовая аналитика

Маркетинговая аналитика

Работа с большими данными

Другое / не IT (пожалуйста, напишите в комментариях ваш вариант)

61 voters548 views14:03

Data Analysis / Big Data

Дорожная карта Data Science 2023: пошаговый гайд

Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.

Читать: «Дорожная карта Data Science 2023: пошаговый гайд»

Дорожная карта Data Science 2023: пошаговый гайд / Tproger

Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.

628 views14:44

Data Analysis / Big Data

Бизнес-ключ и суррогатный ключ нужны оба

Пару дней назад я агитировал всеми уважаемого эксперта в хранилищах данных за новый стандарт суррогатных ключей UUIDv7 для высоконагруженных систем. И я получил от него ответ, что суррогатные ключи не нужны, а нужны лишь бизнес-ключи (естественные ключи). Этот абсурдный ответ заставил меня написать ответное письмо, а затем и эту статью.

Читать: https://habr.com/ru/articles/754160/

646 views20:41

Data Analysis / Big Data

S3 не сразу строилось

Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть

Читать: https://habr.com/ru/articles/754340/

👍1

602 views20:08

Data Analysis / Big Data

14 типов атак, которые должны выявлять системы лицевой биометрии

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.

Читать: https://habr.com/ru/articles/750326/

557 views12:18

Data Analysis / Big Data

Apache Spark 3.4 для Databricks Runtime 13.0

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.

Читать: https://habr.com/ru/companies/southbridge/articles/754464/

511 views12:23

Data Analysis / Big Data

Analytics Learning Library - Check out the Oracle Analytics YouTube Videos

Oracle Analytics YouTube Videos

Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos

Oracle Analytics YouTube Videos

484 views18:32

Data Analysis / Big Data

Choosing the proper Oracle Autonomous Data Warehouse database service name for Oracle Analytics Cloud

This article describes each built-in database service name in Oracle Autonomous Data Warehouse (ADW) and guides in choosing the best one for Oracle Analytics Cloud.

Read: https://blogs.oracle.com/analytics/post/choosing-the-proper-oracle-autonomous-data-warehouse-database-service-name-for-oracle-analytics-cloud

Choosing the proper Oracle Autonomous Data Warehouse database service name for Oracle Analytics Cloud

This blog describes each built-in database service name in Oracle Autonomous Data Warehouse (ADW) and guides choosing the best one for Oracle Analytics Cloud.

👍1

491 views21:56

Data Analysis / Big Data

Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов

Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.

Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.

12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?

Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.

Читать: https://habr.com/ru/specials/753982/

504 views06:56

Data Analysis / Big Data

Какой язык программирования выбрать? Часть 4: Spark

Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.

Читать: https://habr.com/ru/companies/kryptonite/articles/754486/

518 views07:06