Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Возможности для разработчиков в Oracle Analytics

Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
Защита данных в Oracle Fusion Data Intelligence

Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»

#ru

@big_data_analysis | Другие наши каналы
👍2
Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python

Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.

Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.


Читать: https://habr.com/ru/companies/skillfactory/articles/877684/

#ru

@big_data_analysis | Другие наши каналы
👍2
Плюсы и минусы SUMMARIZE

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!


Читать: https://habr.com/ru/companies/visiology/articles/877770/

#ru

@big_data_analysis | Другие наши каналы
👍2
Apache Flink: использование и автоматическая проверка собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.

В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Список моих постов про Flink:


Читать: https://habr.com/ru/companies/ru_mts/articles/878070/

#ru

@big_data_analysis | Другие наши каналы
Векторизация текста в NLP: от слов к числам

Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.

Рассказываем о векторизации подробнее вместе с экспертом.


Читать: https://habr.com/ru/companies/skillfactory/articles/878112/

#ru

@big_data_analysis | Другие наши каналы
У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)

Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.

SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.
Подробнее об архитектуре SAMURAI

Читать: https://habr.com/ru/articles/878538/

#ru

@big_data_analysis | Другие наши каналы
Приключение по перереносу аналитики из Oracle в Iceberg

Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.


Читать: https://habr.com/ru/articles/878764/

#ru

@big_data_analysis | Другие наши каналы
Как избежать проблем с метриками в вашем хранилище данных

Столкнулись с несоответствием метрик в компании? Проблема возникает, когда разные команды определяют их по-разному, что приводит к путанице. Решение: централизуйте определения метрик в коде. Используйте семантический слой для гибких запросов или заранее агрегированные таблицы для упрощения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Системное проектирование в интервью для дата-инженеров: как подготовиться

Столкнулись с трудностями при подготовке к интервью по системному проектированию в дата-инженерии? Эта статья поможет вам систематизировать подход: от сбора требований до проектирования потока данных и обеспечения качества. Узнайте, как уверенно вести интервьюера и задавать правильные вопросы для достижения успеха. Эффективное хранение данных: советы и рекомендации

Оптимизация хранения данных - важный аспект в работе с большими объемами информации. В статье обсуждаются ключевые моменты: выбор размера файлов для параллельной обработки, преимущество формата Parquet и использование метаданных для отката неудачных записей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Использование seed данных в разных dbt проектах

Как применять seed данные из одного dbt проекта в другом? Статья рассказывает о создании и использовании пакетов в dbt для кросс-проектного обмена данными. Узнайте, как настраивать зависимости и хранить данные в вашем хранилище или в локальной файловой системе.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Что делают Snowflake, Databricks, Redshift и BigQuery?

Статья объясняет различия между Snowflake, Databricks, Redshift и BigQuery — аналитическими платформами для обработки больших данных. Каждая из них обладает собственными преимуществами в использовании SQL, управлении данными и обеспечении производительности вычислений. Узнайте, какая платформа лучше подходит для ваших задач. 🔍 Управление и оптимизация платформ данных

Статья подробно описывает, как управлять и оптимизировать платформы данных, такие как Snowflake и BigQuery. Вы узнаете о принципах ценообразования, важности управления данными и роли маркетинга в выборе платформы. Каждый шаг требует тщательной настройки для максимальной эффективности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🎓 Прокачайте SQL-навыки: советы и приемы для инженеров данных

Изучите 25 советов по улучшению работы с SQL! Узнайте, как использовать QUALIFY для фильтрации без подзапросов, создавать динамические SQL с Python и применять CUBE для аналитики данных. Откройте для себя эффективные техники работы с таблицами и сделайте ваши запросы мощнее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы
Визуализация связей с помощью диаграмм Венна

В статье представлено уникальное расширение для работы с диаграммами Венна. Оно позволяет наглядно отображать логические связи посредством кругов, где пересечения визуализируют общие элементы. Узнайте, как упрощать сложные концепции с помощью этого инструмента.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как создать тепловые карты ADW

Тепловые карты ADW — мощный инструмент для визуализации данных. В статье рассказывается, как их правильно генерировать и использовать для анализа. Узнайте больше о ключевых шагах в создании этих карт и начните применять их в своих проектах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание дашбордов в Fusion Analytics

Пост: Узнайте, как пользователи Fusion Analytics могут самостоятельно создавать дашборды для управления метаданными в автономном хранилище данных. Статья объясняет процесс настройки и использования инструментов для эффективной визуализации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔍 Безопасный доступ к данным: решение от Fusion Data Intelligence

Fusion Data Intelligence предупреждает о рисках общей учётной записи OAX_USER для администраторов. Статья предлагает простой метод создания пользовательской схемы для безопасного доступа ко всем таблицам хранилища данных. Узнайте, как защитить свои данные!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Анализ инкрементных данных в лаборатории данных

Узнайте о возможном решении для анализа инкрементных данных, загружаемых через пайплайны. Статья предлагает методики, которые помогут максимально эффективно работать с постоянно обновляющимися информационными потоками и улучшить качество анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы