Data Analysis / Big Data
2.84K subscribers
558 photos
3 videos
2 files
2.63K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Отслеживание изменений размеров таблиц Arenadata DB

История, связанная с этой задачей, началась для нас в мае 2024 года. Один из крупных пользователей Greenplum/Arenadata DB обратился к нам с запросом реализовать возможность отслеживания изменения размеров файлов данных таблиц. Эта функциональность стала бы составной частью, источником событий для системы мониторинга пользовательских кластеров. Задача показалась нам крайне интересной и перспективной. Однако пользователю, как это часто бывает, решение требовалось уже вчера.

С одной стороны, мы осознавали всю сложность этой задачи в полнофункциональной реализации для всех пользователей нашего продукта (и как следствие, адекватно оценивали предполагаемые трудозатраты). С другой стороны, затачивать решение под конкретного пользователя, но в то же время и поставлять эту реализацию как часть общего решения мы сочли неправильным. По итогу команда разработки продолжила работу в своём темпе и в соответствии со своим представлением о реализации.


Читать: https://habr.com/ru/companies/arenadata/articles/881808/

#ru

@big_data_analysis | Другие наши каналы
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.


Читать: https://habr.com/ru/articles/882092/

#ru

@big_data_analysis | Другие наши каналы
2
EDA of dataset Python

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.


Читать: https://habr.com/ru/articles/882588/

#ru

@big_data_analysis | Другие наши каналы
Эффективное управление доступом в FDI

Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Улучшите ваши дашборды в Oracle Analytics!

Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию

xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации

Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»

#ru

@big_data_analysis | Другие наши каналы
Дружим GX и Impala

Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:


Читать: https://habr.com/ru/articles/883700/

#ru

@big_data_analysis | Другие наши каналы
Функции или классы: что выбрать для Python data pipelines?

В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Модульный подход к поддержке SQL скриптов

Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как избежать несоответствий в метриках данных

Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как пройти собеседование по проектированию систем в Data Engineering?

Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как использовать seed данные из другого dbt проекта?

У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.

Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.


Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/

#ru

@big_data_analysis | Другие наши каналы
Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.

Это вторая часть книжной подборки — в первой книги для джунов.


Читать: https://habr.com/ru/companies/ozonbank/articles/884310/

#ru

@big_data_analysis | Другие наши каналы
👍2
MapReduce: гид для начинающих

Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.


Читать: https://habr.com/ru/companies/skillfactory/articles/882328/

#ru

@big_data_analysis | Другие наши каналы
От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков

Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.

Читать: «От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков»

#ru

@big_data_analysis | Другие наши каналы
Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.
Читать дальше

Читать: https://habr.com/ru/companies/mpstats/articles/884344/

#ru

@big_data_analysis | Другие наши каналы
Как выстроить разметку для паноптической сегментации правильно?

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!


Читать: https://habr.com/ru/companies/data_light/articles/884726/

#ru

@big_data_analysis | Другие наши каналы
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос

Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.

Реальные кейсы и полезные советы — в этой статье.
В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц

Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов


Читать: https://habr.com/ru/articles/884932/

#ru

@big_data_analysis | Другие наши каналы