Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.84K subscribers

573 photos

4 videos

2 files

2.76K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.84K subscribers

Data Analysis / Big Data

Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах

Обработка датафреймов: ключевые аспекты и инструменты

Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.

Читать: https://habr.com/ru/articles/885828/

#ru

@big_data_analysis | Другие наши каналы

329 views05:07

Data Analysis / Big Data

Безопасность личных данных в Oracle

Пост: Как Oracle защищает личные данные? Информация, такая как имя, адрес, телефон и социальный номер, считается чувствительной и требует особой защиты. Узнайте, как Oracle обеспечивает безопасность ваших данных в своих приложениях и базах данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle Analytics and Personal Identifiable Information

Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…

282 views06:49

Data Analysis / Big Data

Защита PII данных в системах Oracle

Личные идентификационные данные (PII), такие как имя, адрес, телефон, email и номер соцстрахования, требуют особой защиты в системах Oracle. Эти данные могут использоваться для идентификации или связи с человеком, и их безопасность в приложениях Oracle является приоритетом.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle Analytics and Personal Identifiable Information

Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…

293 views06:49

Data Analysis / Big Data

Возможности комбинаторов в ClickHouse

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)

Читать: https://habr.com/ru/companies/visiology/articles/885928/

#ru

@big_data_analysis | Другие наши каналы

339 views09:02

Data Analysis / Big Data

Байесовская оценка А/Б-тестов

Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на пользователя, заказов на посетителя.
Читать

Читать: https://habr.com/ru/articles/885936/

#ru

@big_data_analysis | Другие наши каналы

382 views09:27

Data Analysis / Big Data

ИИ в ЭДО: история одного кейса для хакатона от МТС

Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.

Читать: https://habr.com/ru/companies/ru_mts/articles/886038/

#ru

@big_data_analysis | Другие наши каналы

361 views13:13

Data Analysis / Big Data

Airflow. Основы airflow. Работа с дагами. Dags example

Apache Airflow — открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных. 1

Изначально разработан в Airbnb в октябре 2014 года. В марте 2016 года стал проектом Apache Incubator, в январе 2019 года — проектом верхнего уровня Apache Software Foundation. 1

Airflow подходит не только для ETL-процессов, но и для автоматизации других задач, например, создания и отправки отчётов, управления инфраструктурой. 2

Некоторые области применения Airflow:

Инженерам данных — для проектирования, разработки и обслуживания систем обработки данных. 2

Аналитикам и специалистам по Data Science— для построения витрин данных, отчётов и подготовки данных для машинного обучения. 2

Разработчикам — для автоматизации загрузки данных для тестирования приложения, настройки обмена информацией между базами данных или с внешними системами. 2

Менеджерам проектов — для планирования и мониторинга процессов обработки данных.

Читать: https://habr.com/ru/articles/886250/

#ru

@big_data_analysis | Другие наши каналы

336 views09:49

Data Analysis / Big Data

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.
Всплыть

Читать: https://habr.com/ru/companies/arenadata/articles/885722/

#ru

@big_data_analysis | Другие наши каналы

❤2

340 views10:30

Data Analysis / Big Data

Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.

Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов.

В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.

Читать: https://habr.com/ru/articles/886198/

#ru

@big_data_analysis | Другие наши каналы

327 views11:02

Data Analysis / Big Data

🎯 Лучшие расширения VSCode для дата-инженеров

Ищете готовую настройку Visual Studio Code для дата-инженеров? В статье представлены топовые расширения, такие как Gitlens, SQL Tools и Jupyter Notebook. Они помогут ускорить вашу работу и улучшить продуктивность. Узнайте, как настроить и поделиться своими средами разработки!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

309 views16:25

Data Analysis / Big Data

Функции или ООП: как строить data pipelines на Python

В статье Start Data Engineering обсуждаются плюсы и минусы использования функционального и объектно-ориентированного подходов при построении дата-пайплайнов на Python. Функции обеспечивают простоту и удобство отладки, а ООП позволяет управлять состоянием и конфигурациями. Узнайте, как эффективно сочетать эти методы для улучшения качества и поддержки вашего кода.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

3.88K viewsedited 16:25

Data Analysis / Big Data

Как превратить хаотичный SQL в удобный код

Столкнулись с длинным SQL-кодом, который сложно поддерживать? Узнайте, как сделать его легким и модульным! Разбейте код на функции, протестируйте их и наслаждайтесь легко обновляемыми данными. Секреты структурирования качественного SQL ждут вас!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

328 views16:25

Data Analysis / Big Data

Как обеспечить стабильность метрик в вашем хранилище данных

Проблема несогласованности метрик мешает аналитике. Решение: централизовать метрики в коде. Возможны два подхода: семантический слой для гибкости и своевременности или сразу подготовленные таблицы для простоты. Каждый метод имеет свои плюсы и минусы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

339 views16:25

Data Analysis / Big Data

Секреты Интервью по Системному Дизайну для Инженеров Данных

Статья предлагает пошаговый подход к системному дизайну на собеседовании для инженеров данных. Узнайте, как эффективно собирать требования, проектировать модели данных, создавать конвейеры обработки данных и проверять качество данных. Подсказки помогут вам стать уверенным кандидатом на собеседованиях. Как избежать ошибок в обработке данных: советы и инструменты

Статья рассказывает о передовых методах организации хранения данных и рекомендациях по эффективности работы пайплайнов. Важные темы включают в себя управление бэкафиллами, обеспечение пригодности данных и интеграцию CI/CD для предотвращения ошибок. Идеальные инструменты: Amundsen и DataHub.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

366 views16:25

Data Analysis / Big Data

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для обработки данных

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.

Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.

Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.

Читать: https://habr.com/ru/companies/data_light/articles/886788/

#ru

@big_data_analysis | Другие наши каналы

325 views13:56

Data Analysis / Big Data

Как медленно меняющиеся измерения помогают сохранить контекст изменений в данных

В мире данных изменения — это неизбежность. Но как отслеживать и сохранять историю изменений, чтобы аналитика оставалась точной и релевантной? В нашей новой статье мы подробно разбираем концепцию медленно меняющихся измерений (Slowly Changing Dimensions, SCD) — ключевого инструмента для работы с изменяющимися данными в хранилищах и аналитических системах.

Вы узнаете, что такое медленно меняющиеся измерения и зачем они нужны, а также познакомитесь с разными типами SCD, такими как Type 1, Type 2 и Type 3. Мы рассмотрим их ключевые различия и приведем практические примеры использования: от простого обновления данных до сохранения полной истории изменений. Вы поймете, как выбрать подходящий тип SCD для ваших задач и избежать типичных ошибок.

Статья будет полезна аналитикам, разработчикам и всем, кто работает с данными и стремится сделать их управление более эффективным. Погрузитесь в мир SCD и узнайте, как превратить изменения данных в мощный инструмент для анализа!

Читать: https://habr.com/ru/articles/886918/

#ru

@big_data_analysis | Другие наши каналы

357 views21:22

Data Analysis / Big Data

Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот

Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)

Читать: https://habr.com/ru/articles/887186/

#ru

@big_data_analysis | Другие наши каналы

330 views13:38

Data Analysis / Big Data

Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами

Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.

Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.

Читать: https://habr.com/ru/articles/887422/

#ru

@big_data_analysis | Другие наши каналы

328 views11:14

Data Analysis / Big Data

Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:

* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.

* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.

Таким образом, необходимо определить:

* Оптимальные методы оценки моделей

* Подходящий тип данных для обучения и тестирования моделей

Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

Читать: https://habr.com/ru/articles/887290/

#ru

@big_data_analysis | Другие наши каналы

349 views11:31

Data Analysis / Big Data

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре

В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.

Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах

Читать: https://habr.com/ru/specials/887398/

#ru

@big_data_analysis | Другие наши каналы

❤1

381 views14:13

Data Analysis / Big Data

Интеграция данных: Oracle и Salesforce объединяют усилия

Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

329 views14:21