Data Analysis / Big Data

Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?

Pandas, Polars или PySpark — что выбрать для работы с данными? Вместе с Никитой Егоровым, ведущим аналитиком в МТС Диджитал, разбираем отличия, плюсы и минусы каждого инструмента.

Читать: «Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?»

#ru

@big_data_analysis | Другие наши каналы

318 views10:04

🔍 Подключение Oracle Analytics Cloud к Private ADW

Узнайте, как эффективно подключить Oracle Analytics Cloud к приватной базе данных Autonomous Data Warehouse с публичным доступом. Статья подробно рассказывает о необходимых шагах и настройках для обеспечения безопасного и стабильного соединения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Connect Oracle Analytics Cloud to a Private ADW with Public Access

265 views01:17

Data Analysis / Big Data

Обзор мобильных возможностей Oracle Analytics

Oracle Analytics Mobile открывает новые горизонты для работы с данными в движении. Узнайте о мощных функциях, таких как навигация, просмотр дашбордов и уникальные опции, улучшенные для мобильного использования, включая инструменты Ask и Podcast.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Analytics Anywhere: Oracle Analytics on Mobile

Here comes a description

274 views01:18

Data Analysis / Big Data

Ускоряем работу с помощью кеша

В новой статье рассказано, как использование кеша потока данных может существенно повысить производительность ваших приложений. Изучите, какие стратегии подходят для снижения времени обработки данных и повышения эффективности процессов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

309 views01:18

Data Analysis / Big Data

HowTo: плиточная карта и календарь в DataLens

Хочу поделиться примером, как при помощи нестандартных техник создать виджеты, непредусмотренные на бесплатном тарифе DataLens.

Для реализации виджетов понадобится базовое знакомство с DataLens, html и python.

Код по формированию виджетов и живые примеры внутри.

Читать: https://habr.com/ru/articles/899264/

#ru

@big_data_analysis | Другие наши каналы

308 views04:44

Data Analysis / Big Data

Как мы сделали одну большую песочницу для всех аналитиков

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных, а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.
К песочнице

Читать: https://habr.com/ru/companies/rshb/articles/899482/

#ru

@big_data_analysis | Другие наши каналы

👎1

314 views08:39

Data Analysis / Big Data

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код.

Читать: https://habr.com/ru/companies/luxms_bi/articles/899662/

#ru

@big_data_analysis | Другие наши каналы

❤1

288 views13:55

Data Analysis / Big Data

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных.

Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код.

Читать: https://habr.com/ru/companies/luxms_bi/articles/899664/

#ru

@big_data_analysis | Другие наши каналы

347 views14:03

Data Analysis / Big Data

Язык Julia: что это и почему он популярен в научных вычислениях

Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы ✔ Tproger

Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»

#ru

@big_data_analysis | Другие наши каналы

334 views14:23

Data Analysis / Big Data

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать: https://habr.com/ru/companies/otus/articles/900080/

#ru

@big_data_analysis | Другие наши каналы

418 views16:55

Data Analysis / Big Data

КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@big_data_analysis | Другие наши каналы

❤‍🔥1

490 views18:07

Data Analysis / Big Data

Проект Колхоз — светлое будущее своими руками

Long story short: мы сделали штуку на фото для удобного подключения любых датчиков (а также устройств управления) к ESP32 DOIT Devkit V1. ESP32 это как Arduino, только лучше. Используя любые датчики и любые интерфейсы мы можем автоматизировать что угодно используя мощные фреймворки в виде ESPHome и Home Assistant. Это если совсем вкратце.

Читать: https://habr.com/ru/articles/900314/

#ru

@big_data_analysis | Другие наши каналы

413 views20:34

Data Analysis / Big Data

Что такое конвейер данных? И почему вы должны это знать

Конвейер данных (Data Pipeline) - это последовательность шагов для обработки данных. Если данные еще не присутствуют в платформе данных, они поступают в начале конвейера. Затем конвейер обрабатывает данные через ряд этапов, где выход каждого этапа становится входом следующего. Этот процесс продолжается до тех пор, пока конвейер не будет завершен. В некоторых случаях независимые этапы могут выполняться одновременно.

Читать: https://habr.com/ru/articles/900640/

#ru

@big_data_analysis | Другие наши каналы

384 views10:07

Data Analysis / Big Data

Как мы в Почтатех заместили Qlik Sense на Luxms BI

Меня зовут Евгений Дрензелев, я Техлид BI компании Почтатех, которая занимается предоставлением IT-решений для Почты России. И эта статья — опыт нашей команды по импортозамещению западного продукта Qlik Sense на российский Luxms BI.

В статье расскажу о трудностях, с которыми мы столкнулись в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые мы получили в результате.

Читать: https://habr.com/ru/articles/900618/

#ru

@big_data_analysis | Другие наши каналы

355 views11:36

Data Analysis / Big Data

Эксгаустеры и где они обитают: о новой разработке рассказывает эксперт ЕВРАЗа

Исключить аварийные остановки на производстве и прогнозировать время, когда агрегаты нуждаются в ремонте, – такие цели успешно реализовала команда ЕВРАЗа. Для этого на агломерационной фабрике внедрили автоматизированную систему, причем не отличающуюся особой сложностью. Как она работает, расскажу я, Python Backend разработчик компании Ольга Седова.

Читать: https://habr.com/ru/companies/evraz/articles/900716/

#ru

@big_data_analysis | Другие наши каналы

324 views07:15

Data Analysis / Big Data

Книги для Team Lead DS: от менеджмента к стратегии

Привет! Меня зовут Марк Паненко, я Chief Data Science в Ozon Банке. Это завершающая статья цикла о книгах для Data Science. Ранее мы обсуждали комиксы и нейросети для новичков, принципы для мидлов, профессиональную разработку, а сегодня поговорим об управлении командами. Материал основан на эпизодах подкаста Data Breakfast — в нём мы разбираем кейсы из реальной практики.

Читать: https://habr.com/ru/companies/ozonbank/articles/900736/

#ru

@big_data_analysis | Другие наши каналы

309 views07:40

Data Analysis / Big Data

Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.
Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие.
Узнать больше про RTTM!

Читать: https://habr.com/ru/articles/900988/

#ru

@big_data_analysis | Другие наши каналы

300 views09:25

Data Analysis / Big Data

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще.

В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink (стримить из Kafka банально, а так заодно пощупаем документоориентированную БД). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7.

В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо?

Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

Читать: https://habr.com/ru/companies/ru_mts/articles/898636/

#ru

@big_data_analysis | Другие наши каналы

674 views12:49

Data Analysis / Big Data

Optuna: находим лучшие настройки для моделей без головной боли

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас.

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.

Читать: https://habr.com/ru/companies/skillfactory/articles/900658/

#ru

@big_data_analysis | Другие наши каналы

326 views13:13

Data Analysis / Big Data

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.

Читать: https://habr.com/ru/articles/901078/

#ru

@big_data_analysis | Другие наши каналы

❤1

303 views05:16

About

Blog

Apps

Platform