Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.7K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Новые горизонты в оценке рисков: как источники данных помогают создать точные модели

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» — Андрей Бояренков, Владимир Иванов и Иван Луговский. В этой статье мы расскажем про наш опыт улучшения показателей ранжирования моделей оценки вероятности дефолта заемщика/скоринговых моделей за счет использования различных источников данных и объединения их в отдельные модули.


Читать: https://habr.com/ru/companies/otkritie/articles/732216/
Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube

Привет! Сегодня речь пойдет о семантическом слое метрик. В публикации рассмотрим на практике грани интересной темы:

— Что такое семантический слой, и в чем разница между Метрикой и Витриной данных

— Пути формирования метрик: SQL (ad-hoc), UI, dbt Metrics, Cube

— Примеры декларативной конфигурации в YAML и использования метрик

— На что обращать внимание при выборе решения: Стек технологий, Доступность vs. Выразительнось, Гибкость vs. Скорость


Читать: https://habr.com/ru/companies/otus/articles/732066/
Мнение об интенсивах Академии Яндекса + выпускной проект

Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам

Этот обзор будет полезен тем, кто еще учится в вузе или школе, а также тем у кого есть дети или знакомые данного возраста - Академия рассчитана на молодых людей 8 класса - 2 курса

Предвкушаю вопросы, поэтому я сразу говорю - обзор не реклама, ссылок не будет. В статье будут и минусы. Я хочу поделиться мнением, попробовать себя в написании статей, а также рассказать о своем проекте, но об этом лишь в конце статьи - проект покажет реальный уровень выпускников академии

Все что будет дальше является сугубо личным мнением. Приступим!


Читать: https://habr.com/ru/articles/732454/
Мигрируем с Qlik: как создать надежное хранилище для ваших данных

Последние 12 месяцев много обсуждается тема миграции с ИТ-систем, которые оказались недоступны в России. Во всех компонентах ИТ-инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес-аналитики. Иностранные BI-системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность.

Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI-решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI-инструмента, как Qlik.

Зачем мигрировать с Qlik?

Актуальность миграции данных с платформ QlikView и Qlik Sense, в которых основные данные хранятся в файловом хранилище в виде QVD-файлов, а весь ETL выполняется средствами Qlik, сохранялась из-за нескольких факторов.

Первая причина – желание заказчиков глубже анализировать клиентские данные и пользоваться преимуществами предиктивной аналитики. Параллельно, у компаний из других отраслей существовало несколько систем бизнес-аналитики, и им хотелось пользоваться данными из единого источника.


Читать: https://habr.com/ru/articles/732734/
Как мы организовали Data Warehouse в MANGO OFFICE

Рассказываем, как реорганизовали в MANGO OFFICE корпоративное хранилище данных: какие проблемы решали, какие точки роста находили и какой получился результат.


Читать: https://habr.com/ru/companies/mango_telecom/articles/732820/
Как дать крылья своей сводной таблице в Apache Superset

Эта статья посвящена особенностям доработок в Apache Superset, и в ней я расскажу, как его можно использовать для визуализации больших объемов данных в рамках сводных таблиц.
Хочу читать дальше

Читать: https://habr.com/ru/articles/731216/
Бустим топ: внедрение ML в ранжирование каталога

Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения.

Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года.

В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML.


Читать: https://habr.com/ru/companies/lamoda/articles/731542/
Из оператора в Data-инженеры: выверка данных через шаблоны Excel

Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных.

Сам шаблон и пошаговые инструкции ниже.


Читать: https://habr.com/ru/companies/sigma/articles/733056/
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.


Читать: https://habr.com/ru/companies/avito/articles/732870/
Дайджест Python #8: обновления Django и обучение GPT-4

Собрали дайджест из материалов по Python с 15 по 30 апреля. Узнайте, как подключить AutoGPT проекту, как изменился Django и как обучить GPT-4.

Читать: «Дайджест Python #8: обновления Django и обучение GPT-4»
👍1
Best Practices for Case Statements in Oracle Analytics

This article describes best practices for improving performance with case statements in Oracle Analytics

Read: https://blogs.oracle.com/analytics/post/best-practices-for-case-statements-in-oracle-analytics
Как мы разрабатывали алгоритм для анализа уникальных посетителей

Привет, Хабр! Мы — Александр Просвирнин, руководитель проектного направления, и Иван Григорьев, старший менеджер продукта центра «Видеонаблюдения и Безопасности» блока по телекоммуникационному бизнесу, работаем в экосистеме МТС.

В этой статье мы расскажем о решении для анализа уникальных посетителей. Опишем недостатки существующих на рынке решений и расскажем, почему надо остановиться именно на видеоаналитике — и что мы сделали для улучшения алгоритмов.


Читать: https://habr.com/ru/companies/ru_mts/articles/733440/
Применение методов CRISP-DM для анализа Big Sales Data

Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.


Читать: https://habr.com/ru/articles/733062/
Data-driven рост с помощью науки о данных и машинного обучения

Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.


Читать: https://habr.com/ru/articles/733672/
Данные: какие про вас собирают, а какие от вас закрывают?

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.


Читать: https://habr.com/ru/articles/733676/
👍2
Сравнение технологии JuniStat и лазерных систем для беговых тестов

При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются.

Как измеряют время рывка сейчас?


Читать: https://habr.com/ru/articles/733866/