Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Что такое обучение без учителя? И нет, мы сейчас не про домашнее образование

Это один из методов в Machine Learning, при котором мы запускаем модель в «комнату» и она самостоятельно изучает какие объекты в ней есть. В статье разбираемся для каких задач этот метод подойдет и как он работает.
Как расширить компетенции аналитиков при работе с Big Data

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.


Читать: https://habr.com/ru/companies/neoflex/articles/771788/
6 Steps to Avoid Messy Data in Your Warehouse

Read: https://www.startdataengineering.com/post/n-steps-avoid-messy-dw/
🔥1
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.


Читать: https://habr.com/ru/companies/alfa/articles/772224/
Attention: OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed

OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed (Doc ID 2976838.1)

Read: https://blogs.oracle.com/proactivesupportepm/post/attention-oci-support-the-service-request-sr-creation-process-for-account-provisioning-billing-termination-and-abuse-and-cloud-account-administration-has-changed
What Problem Type Should Be Chosen When Creating a Service Request for 'Oracle Analytics Cloud - BI'

What Problem Type Should Be Chosen During Oracle Analytics Cloud - BI SR Creation

Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-oracle-analytics-cloud-bi-sr-creation
Data Mesh – ячеистые топологии для работы с данными

Из каких соображений можно хранить данные в виде ячеистой сети
Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.

Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.

Читать: https://habr.com/ru/companies/timeweb/articles/772680/
Проблема множественного тестирования на практике

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.


Читать: https://habr.com/ru/articles/772940/
RecTools – OpenSource библиотека для рекомендательных систем

Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).

Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.

К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.

Давайте же посмотрим, что RecTools умеет, и как с этим работать.


Читать: https://habr.com/ru/articles/773126/
Дежурный data-инженер: рабочие хроники

Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.


Читать: https://habr.com/ru/companies/vk/articles/772468/
💊2👍1
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation

Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.

Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation
Деревья ltree в PostgreSQL – простым языком

Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.


Читать: https://habr.com/ru/articles/774324/
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.


Читать: https://habr.com/ru/companies/megafon/articles/773722/
5 уровней зрелости MLOps

Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.


Читать: https://habr.com/ru/companies/vk/articles/772538/
Как автоматизировать проверки данных в Airflow с Great Expectations

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.


Читать: https://habr.com/ru/companies/banki/articles/773884/
А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?

Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:

— тот самый Типичный программист: @tproger

— полезные сохранёнки на все случаи жизни: @prog_stuff

— нужные инструменты для ваших проектов: @prog_tools

— новости из мира технологий: @your_tech
ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.


Читать: https://habr.com/ru/companies/airi/articles/774934/
Сказка от первого лица о зарплате в айти и первом миллионе

В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.

Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше

Читать: https://habr.com/ru/articles/775026/