Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.7K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Бустим топ: внедрение ML в ранжирование каталога

Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения.

Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года.

В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML.


Читать: https://habr.com/ru/companies/lamoda/articles/731542/
Из оператора в Data-инженеры: выверка данных через шаблоны Excel

Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных.

Сам шаблон и пошаговые инструкции ниже.


Читать: https://habr.com/ru/companies/sigma/articles/733056/
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.


Читать: https://habr.com/ru/companies/avito/articles/732870/
Дайджест Python #8: обновления Django и обучение GPT-4

Собрали дайджест из материалов по Python с 15 по 30 апреля. Узнайте, как подключить AutoGPT проекту, как изменился Django и как обучить GPT-4.

Читать: «Дайджест Python #8: обновления Django и обучение GPT-4»
👍1
Best Practices for Case Statements in Oracle Analytics

This article describes best practices for improving performance with case statements in Oracle Analytics

Read: https://blogs.oracle.com/analytics/post/best-practices-for-case-statements-in-oracle-analytics
Как мы разрабатывали алгоритм для анализа уникальных посетителей

Привет, Хабр! Мы — Александр Просвирнин, руководитель проектного направления, и Иван Григорьев, старший менеджер продукта центра «Видеонаблюдения и Безопасности» блока по телекоммуникационному бизнесу, работаем в экосистеме МТС.

В этой статье мы расскажем о решении для анализа уникальных посетителей. Опишем недостатки существующих на рынке решений и расскажем, почему надо остановиться именно на видеоаналитике — и что мы сделали для улучшения алгоритмов.


Читать: https://habr.com/ru/companies/ru_mts/articles/733440/
Применение методов CRISP-DM для анализа Big Sales Data

Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.


Читать: https://habr.com/ru/articles/733062/
Data-driven рост с помощью науки о данных и машинного обучения

Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.


Читать: https://habr.com/ru/articles/733672/
Данные: какие про вас собирают, а какие от вас закрывают?

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.


Читать: https://habr.com/ru/articles/733676/
👍2
Сравнение технологии JuniStat и лазерных систем для беговых тестов

При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются.

Как измеряют время рывка сейчас?


Читать: https://habr.com/ru/articles/733866/
Unlocking data stream processing [Part 3] - data enrichment with fuzzy joins

Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing-84f
😁1
OBIA 12C: How to use External Tables in Oracle Autonomous Data Warehouse (ADW) with BI Applications Fusion Load Plan

This article provides an overview about how to use External tables in Oracle Autonomous Data Warehouse (ADW) with BI Applications Fusion Load Plan.
By default, In the BI Applications Fusion Load plan, FTS Phase scenario’s consume WLS ODI Server1 Managed Server JVM to read and process the BICCC extracted files. Instead you would want to use External tables in Oracle Autonomous Data Warehouse (ADW) to read and process BICCC Extracted files, refer to implementation guide attached in this blog.

Read: https://blogs.oracle.com/analytics/post/obia-12c-how-to-use-external-tables-in-oracle-autonomous-data-warehouse-adw-with-bi-applications-fusion-load-plan