Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

568 photos

3 videos

2 files

2.9K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Data Mesh – ячеистые топологии для работы с данными

Из каких соображений можно хранить данные в виде ячеистой сети
Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.

Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.

Читать: https://habr.com/ru/companies/timeweb/articles/772680/

625 views08:09

Data Analysis / Big Data

Проблема множественного тестирования на практике

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.

Читать: https://habr.com/ru/articles/772940/

705 views14:48

Data Analysis / Big Data

RecTools – OpenSource библиотека для рекомендательных систем

Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).

Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.

К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.

Давайте же посмотрим, что RecTools умеет, и как с этим работать.

Читать: https://habr.com/ru/articles/773126/

801 views11:21

Data Analysis / Big Data

Дежурный data-инженер: рабочие хроники

Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.

Читать: https://habr.com/ru/companies/vk/articles/772468/

💊2👍1

786 views13:29

Data Analysis / Big Data

Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation

Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.

Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation

Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation

Learn how to use listagg in OAC data flows for creating text-based lists through a Formula 1 use case.

541 views13:47

Data Analysis / Big Data

Oracle Fusion Analytics Implementation Series: Customization

Best Practices for Implementing Oracle Fusion Analytics Series: Customization

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-customization

Oracle Fusion Analytics Implementation Series: Customization

Best Practices for Implementing Oracle Fusion Analytics Series: Customization

530 views13:48

Data Analysis / Big Data

Mobile Metrics in a Minute - how Oracle Analytics Mobile helps transform Oracle Global Business Finance (GBF)

Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.

Read: https://blogs.oracle.com/analytics/post/mobile-metrics-in-a-minute-how-oracle-analytics-mobile-is-helping-to-transform-oracle-global-business-finance

Mobile Metrics in a Minute – how Oracle Analytics Mobile helps transform Oracle Global Business Finance (GBF)

Learn how Oracle Analytics Mobile has helped transform Oracle Global Business Finance.

592 views13:49

Data Analysis / Big Data

Деревья ltree в PostgreSQL – простым языком

Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.

Читать: https://habr.com/ru/articles/774324/

582 views10:18

Data Analysis / Big Data

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.

Читать: https://habr.com/ru/companies/megafon/articles/773722/

667 views10:54

Data Analysis / Big Data

5 уровней зрелости MLOps

Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.

Читать: https://habr.com/ru/companies/vk/articles/772538/

686 views12:12

Data Analysis / Big Data

Как автоматизировать проверки данных в Airflow с Great Expectations

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

Читать: https://habr.com/ru/companies/banki/articles/773884/

690 views16:12

Data Analysis / Big Data

А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?

Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:

— тот самый Типичный программист: @tproger

— полезные сохранёнки на все случаи жизни: @prog_stuff

— нужные инструменты для ваших проектов: @prog_tools

— новости из мира технологий: @your_tech

696 views09:01

Data Analysis / Big Data

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

Читать: https://habr.com/ru/companies/airi/articles/774934/

627 views07:25

Data Analysis / Big Data

Сказка от первого лица о зарплате в айти и первом миллионе

В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.

Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше

Читать: https://habr.com/ru/articles/775026/

550 views08:15

Data Analysis / Big Data

Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

Нет, нет, я совсем не про геометрию или физику, я про множества!

Точнее про множество того, что вы знаете.

К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.

В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score

Читать: https://habr.com/ru/articles/775032/

🔥2👍1

602 views08:15

Data Analysis / Big Data

В ногу со временем: введение в многомерный анализ и OLAP-технологии

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?

Читать: https://habr.com/ru/articles/775042/

590 views08:44

Data Analysis / Big Data

What is an Open Table Format? & Why to use one?

Read: https://www.startdataengineering.com/post/what_why_table_format/

568 views13:27

Data Analysis / Big Data

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

Читать: https://habr.com/ru/articles/775502/

583 views17:52

Data Analysis / Big Data

Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать: https://habr.com/ru/companies/selectel/articles/775418/

❤1

636 views13:18

Data Analysis / Big Data

Выбор СУБД: шпаргалка, чтобы не запутаться

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.

Читать: https://habr.com/ru/articles/775574/

652 views08:00

Data Analysis / Big Data

Как использовать Spring в качестве фреймворка для Flink-приложений

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.

Читать: https://habr.com/ru/companies/ru_mts/articles/775970/

687 views13:43