Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Что такое SOC (Security Operations Center) и как он защищает данные

Что такое Security Operations Center. Показываем, как SOC защищает данные. Рассматриваем основные метрики и нюансы Tproger

Читать: «Что такое SOC (Security Operations Center) и как он защищает данные»

#ru

@big_data_analysis | Другие наши каналы
Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.

В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению.


Читать: https://habr.com/ru/companies/otus/articles/910490/

#ru

@big_data_analysis | Другие наши каналы
SRE в инженерии данных: профессия и ее перспективы

Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в области обработки данных - SRE Data Engineer: кто это такой, чем занимается, как им стать, куда развиваться и какие перспективы у этой профессии.


Читать: https://habr.com/ru/articles/911656/

#ru

@big_data_analysis | Другие наши каналы
Переосмысляя Serverless. Парадигма хранения и обработки данных

Много было сказано про Serverless в нагрузках без сохранения состояния. Действительно, когда у вас есть контейнеры или функции их легко почти мгновенно масштабировать и нет большой разницы, на какой именно машине это делать.

Но данные имеют очень конкретную привязку к диску, на котором размещены. Что создает немало сложностей к самой концепции бессерверных вычислений.

В этой статье я хочу показать, где бессерверная архитектура может быть применима, и рассмотрю несколько новых, и весьма перспективных решений в этой области.


Читать: https://habr.com/ru/companies/amvera/articles/912114/

#ru

@big_data_analysis | Другие наши каналы
RAG‑агент для автоматизации инцидент‑менеджмента

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.


Читать: https://habr.com/ru/companies/otus/articles/912228/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще.

Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов.

Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье!


Читать: https://habr.com/ru/companies/datafeel/articles/908770/

#ru

@big_data_analysis | Другие наши каналы
Интеграция OpenAI LLM с Oracle Analytics

Статья рассказывает, как подключить модели OpenAI к Oracle Analytics и получить API ключи на платформе OpenAI. Подробные инструкции помогут упростить работу с большими языковыми моделями и расширить возможности аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Автоматизация назначений безопасности данных в Fusion HCM Analytics

Статья рассказывает о том, как автоматизировать назначения безопасности данных в Fusion HCM Analytics, используя функционал AOR и загрузку автоматизированных назначений для предустановленных контекстов безопасности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Автоматизация экспорта аудита Oracle Identity and Access Management и создание отчетов в Oracle Analytics Cloud позволяют повысить эффективность контроля безопасности и упростить анализ данных. Узнайте, как эти технологии интегрируются для оптимизации процессов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Секреты Oracle Analytics: как искусственный интеллект преобразует ваши вопросы в наглядные визуализации. В статье раскрывается, как технологии помогают быстро получать ответы и принимать решения на основе данных без сложных настроек.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Эффективное использование DESCRIPTOR_IDOF с функциями LOOKUP раскрывает новые возможности в расчетах. В статье подробно рассматриваются лучшие практики, которые помогут повысить точность и удобство работы с данными. Полезно для всех, кто работает с аналитикой и расчетами.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обзор серии по нагрузочному тестированию Apache JMeter с OAC

В статье представлен обзор и лендинг-пейдж серии материалов по нагрузочному тестированию с использованием Apache JMeter и Oracle Analytics Cloud. Полезно для тех, кто изучает производительность систем.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle Analytics Cloud в центре внимания на Gartner 2025

Oracle Analytics Cloud привлек внимание на конкурсе Gartner 2025 благодаря впечатляющим AI-возможностям и живой оценке экспертов. Статья раскрывает, как технологии Oracle меняют взгляд на аналитику и BI.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
85 вопросов на собеседовании разработчика QlikView/Qlik Sense (с ответами)

Всем привет! Меня зовут Александр Андреев, я старший SRE дата-инженер и бывший BI/DWH-разработчик с многолетним опытом работы с BI-платформой QlikView/Qlik Sense. В своей статье-шпаргалке я хочу поделиться с вами практически всеми возможными вопросами и ответами с собеседований на должность Qlik-разработчика. Данная шпаргалка гарантированно закроет 99% возможных вопросов на собеседованиях на позиции, где упоминается Qlik в качестве BI-системы. Таких позиций с каждым годом все больше, причем знание Qlik в качестве BI-системы требуют как с чистых "биайщиков", так и с дата-инженеров на некоторых сеньорских и lead позициях.

Подготовка к собеседованию на позицию с QlikView/Qlik Sense в качестве BI-системы требует глубокого понимания как базовых концепций, так и продвинутых техник работы с платформой. В этой статье я собрал 85 наиболее важных вопросов, которые помогут вам систематизировать знания и успешно пройти техническое интервью.


Читать: https://habr.com/ru/articles/912504/

#ru

@big_data_analysis | Другие наши каналы
Как в Почтатех внедряли отчетность на Luxms BI: интервью тимлида

Когда в 2022 году в ИТ-системах Почты России стартовал масштабный проект по импортозамещению, команде BI-направления в дочерней компании «Почтатех» предстояло внедрить отечественную альтернативу привычным зарубежным аналитическим решениям – Luxms BI. О том, как проходил процесс внедрения, с какими трудностями столкнулись и какие возможности открылись перед командой — мы поговорили с Евгением Дрензелевым, техлидом BI-направления в Почтатех.

Далее он расскажет о задачах, которые предстояло решить в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые были получены в результате.


Читать: https://habr.com/ru/companies/luxms_bi/articles/912784/

#ru

@big_data_analysis | Другие наши каналы
Иногда приходится¹ копаться² в кишках³ Apache Spark

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует.
² и да, довольно-таки глубоко.
³ нет, серьёзно!
Давайте рассмотрим следующий бизнесовый кейс.
Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю.
Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций.
Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.


Читать: https://habr.com/ru/articles/913244/

#ru

@big_data_analysis | Другие наши каналы
AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.


Читать: https://habr.com/ru/articles/913222/

#ru

@big_data_analysis | Другие наши каналы
# Автоматизация цифрового маркетинга с помощью ИИ: системный подход, который работает

ИИ уже управляет рекламой, воронками и контентом. Петр Жогов показывает, как построить рост без лишней ручной работы.


Читать: https://habr.com/ru/articles/913856/

#ru

@big_data_analysis | Другие наши каналы
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы.

В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение.

В нашем семантическом слое данных больше  20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.


Читать: https://habr.com/ru/companies/avito/articles/913694/

#ru

@big_data_analysis | Другие наши каналы
От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.
Читать кейс

Читать: https://habr.com/ru/companies/arenadata/articles/913478/

#ru

@big_data_analysis | Другие наши каналы