Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!


Читать: https://habr.com/ru/companies/kryptonite/articles/902872/

#ru

@big_data_analysis | Другие наши каналы
2👍2🔥2
Подготовка JMeter для тестирования Oracle Analytics

Хотите оптимизировать производительность Oracle Analytics Platform Services? Узнайте, как правильно настроить Apache JMeter для проведения эффективных нагрузочных тестов. Подробное руководство поможет вам раскрыть все возможности платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Основы эффективных дата-моделей

Погрузитесь в мир дата-моделей, рёбер, уровней и мэппингов. Узнайте, как применять эти концепции для структурирования данных, оптимизации мэппингов и создания интуитивных визуализаций. Эта статья поможет повысить эффективность работы с данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция внешних источников данных

Как подключить внешние данные к вашему расширению? Статья рассказывает о том, какие шаги необходимо предпринять для успешной интеграции и какие преимущества это может принести. Развивайте ваше приложение с помощью дополнительных данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.


Читать: https://habr.com/ru/companies/T1Holding/articles/903546/

#ru

@big_data_analysis | Другие наши каналы
Geeks do it better: как прошла конференция GoCloud 2025 от Cloud.ru

Недавно мы побывали на большой конференции по облакам и искусственному интеллекту GoCloud, которую ежегодно проводит Cloud.ru. Делимся итогами конференции и рассказываем, как компании удается создавать топовые облачные сервисы и драйвить коммьюнити.

Читать: «Geeks do it better: как прошла конференция GoCloud 2025 от Cloud.ru»

#ru

@big_data_analysis | Другие наши каналы
История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных. Специалисты разработали передовые инструменты для обработки огромных массивов разнообразных данных, которые генерируются с невероятной скоростью.

Для работы с данными и их структурой используются технологии, которые позволяют эффективно обрабатывать и анализировать большие объёмы информации.

Тем не менее, при внедрении таких аналитических инструментов компании всё ещё сталкивались с определёнными трудностями.

Архитектура сохраняла свою целостность, и одна команда специалистов занималась созданием платформы и интеграцией данных.

В крупных компаниях такой метод сразу же вызывал формирование значительных очередей за услугами по интеграции и аналитическими инструментами.

В данном контексте централизация оказалась ахиллесовой пятой крупных корпораций.

В крупных организациях попытка сосредоточить все усилия по интеграции данных в одной группе может оказаться неэффективной. Зачастую источники информации находятся в разных местах, не имея единого центра управления, что затрудняет поиск ответственных лиц. Такой подход не приводит к нужным результатам.
Подробный текст статьи

Читать: https://habr.com/ru/articles/903822/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация стратегии взыскания с помощью ML-моделей

Привет! Меня зовут Мария Шпак, я лидер команды collection стрима моделирования розничного бизнеса в Департаменте анализа данных и моделирования банка ВТБ. Наша команда занимается разработкой моделей машинного обучения для различных процессов, в совокупности служащих для финансового урегулирования. Основной заказчик этих моделей – соответствующий департамент банка, целью которого является помощь клиентам, допустившим просрочку платежа или находящимся в графике, но имеющим риск просрочки (Pre-Collection). Наши коллеги предлагают клиентам различные инструменты урегулирования этой проблемы и в большинстве случаев добиваются скорейшего возврата клиента в график платежей и в статус добросовестного заемщика. Оптимизация стратегий финансового урегулирования предполагает учёт разных параметров ситуации клиента: причины возникновения просрочки, степени серьезности возникших у него проблем, а также наиболее удобных и эффективных способов установить с ним контакт.


Читать: https://habr.com/ru/companies/vtb/articles/903496/

#ru

@big_data_analysis | Другие наши каналы
Как тестировать AI-агентов, чтобы не было больно

AI-агенты трансформируют индустрии — от чат-ботов в службе поддержки до продвинутых ассистентов для программирования. Однако, чтобы они действительно были эффективными и заслуживающими доверия, необходимо их тщательное тестирование. Строгая процедура тестирования и оценки позволяет оценить производительность агента, адаптивность к новым сценариям и соответствие требованиям безопасности.

В этой статье изложены структурированные шаги для тестирования и оценки AI-агентов с точки зрения надежности, устойчивости к сбоям и общего воздействия.


Читать: https://habr.com/ru/articles/902598/

#ru

@big_data_analysis | Другие наши каналы
Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.


Читать: https://habr.com/ru/companies/rshb/articles/904072/

#ru

@big_data_analysis | Другие наши каналы
Эра Big Data: новые возможности в принятии решений

Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.

Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).

Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.

Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.
Подробнее читать статью

Читать: https://habr.com/ru/articles/904108/

#ru

@big_data_analysis | Другие наши каналы
Байесовские А/Б-тесты: множественные сравнения

Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.
Читать

Читать: https://habr.com/ru/articles/903820/

#ru

@big_data_analysis | Другие наши каналы
Full-stack в аналитике: почему это будущее Data Science?

Привет.

Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:


Читать: https://habr.com/ru/articles/904376/

#ru

@big_data_analysis | Другие наши каналы
Хочешь умного агента? Научись оценивать его правильно

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.

Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.

Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.


Читать: https://habr.com/ru/articles/902608/

#ru

@big_data_analysis | Другие наши каналы
Новая эра анализа данных с Oracle FDI

Oracle Fusion Data Intelligence представила динамические агрегатные таблицы — инновационное решение для улучшения отчетности и анализа данных. Этот инструмент оптимизирует агрегацию данных, делая запросы более эффективными и быстрыми. Узнайте, как это может преобразить ваш бизнес.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Новинки Oracle Analytics Cloud: Обновление мая 2025

Oracle Analytics Cloud выпустил майское обновление 2025 года, представив ряд новых функций. Они нацелены на улучшение аналитических возможностей и повышение удобства использования платформы, предлагая пользователям более глубокий анализ данных и улучшенные инструменты визуализации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Оптимизация работы с данными в Oracle Analytics

Oracle Analytics AI Assistant предлагает новый способ взаимодействия с наборами данных, облегчая их понимание, обмен и поиск. Оцените преимущества этой функции и как она может улучшить ваш опыт работы с Oracle Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?


Читать: https://habr.com/ru/articles/905434/

#ru

@big_data_analysis | Другие наши каналы
Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных

Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но – давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах!  Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.

Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.

Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.

Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!

Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем – PIX BI. Открываем двери нового, яркого мира аналитики!


Читать: https://habr.com/ru/companies/pix_robotics/articles/905188/

#ru

@big_data_analysis | Другие наши каналы
Как из аналитики данных перейти в дата-сайентисты

Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.

В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.


Читать: https://habr.com/ru/companies/netologyru/articles/905206/

#ru

@big_data_analysis | Другие наши каналы
2