Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Автоматизация экспорта аудита Oracle Identity and Access Management и создание отчетов в Oracle Analytics Cloud позволяют повысить эффективность контроля безопасности и упростить анализ данных. Узнайте, как эти технологии интегрируются для оптимизации процессов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Секреты Oracle Analytics: как искусственный интеллект преобразует ваши вопросы в наглядные визуализации. В статье раскрывается, как технологии помогают быстро получать ответы и принимать решения на основе данных без сложных настроек.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Эффективное использование DESCRIPTOR_IDOF с функциями LOOKUP раскрывает новые возможности в расчетах. В статье подробно рассматриваются лучшие практики, которые помогут повысить точность и удобство работы с данными. Полезно для всех, кто работает с аналитикой и расчетами.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Обзор серии по нагрузочному тестированию Apache JMeter с OAC

В статье представлен обзор и лендинг-пейдж серии материалов по нагрузочному тестированию с использованием Apache JMeter и Oracle Analytics Cloud. Полезно для тех, кто изучает производительность систем.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle Analytics Cloud в центре внимания на Gartner 2025

Oracle Analytics Cloud привлек внимание на конкурсе Gartner 2025 благодаря впечатляющим AI-возможностям и живой оценке экспертов. Статья раскрывает, как технологии Oracle меняют взгляд на аналитику и BI.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
85 вопросов на собеседовании разработчика QlikView/Qlik Sense (с ответами)

Всем привет! Меня зовут Александр Андреев, я старший SRE дата-инженер и бывший BI/DWH-разработчик с многолетним опытом работы с BI-платформой QlikView/Qlik Sense. В своей статье-шпаргалке я хочу поделиться с вами практически всеми возможными вопросами и ответами с собеседований на должность Qlik-разработчика. Данная шпаргалка гарантированно закроет 99% возможных вопросов на собеседованиях на позиции, где упоминается Qlik в качестве BI-системы. Таких позиций с каждым годом все больше, причем знание Qlik в качестве BI-системы требуют как с чистых "биайщиков", так и с дата-инженеров на некоторых сеньорских и lead позициях.

Подготовка к собеседованию на позицию с QlikView/Qlik Sense в качестве BI-системы требует глубокого понимания как базовых концепций, так и продвинутых техник работы с платформой. В этой статье я собрал 85 наиболее важных вопросов, которые помогут вам систематизировать знания и успешно пройти техническое интервью.


Читать: https://habr.com/ru/articles/912504/

#ru

@big_data_analysis | Другие наши каналы
Как в Почтатех внедряли отчетность на Luxms BI: интервью тимлида

Когда в 2022 году в ИТ-системах Почты России стартовал масштабный проект по импортозамещению, команде BI-направления в дочерней компании «Почтатех» предстояло внедрить отечественную альтернативу привычным зарубежным аналитическим решениям – Luxms BI. О том, как проходил процесс внедрения, с какими трудностями столкнулись и какие возможности открылись перед командой — мы поговорили с Евгением Дрензелевым, техлидом BI-направления в Почтатех.

Далее он расскажет о задачах, которые предстояло решить в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые были получены в результате.


Читать: https://habr.com/ru/companies/luxms_bi/articles/912784/

#ru

@big_data_analysis | Другие наши каналы
Иногда приходится¹ копаться² в кишках³ Apache Spark

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует.
² и да, довольно-таки глубоко.
³ нет, серьёзно!
Давайте рассмотрим следующий бизнесовый кейс.
Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю.
Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций.
Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.


Читать: https://habr.com/ru/articles/913244/

#ru

@big_data_analysis | Другие наши каналы
AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.


Читать: https://habr.com/ru/articles/913222/

#ru

@big_data_analysis | Другие наши каналы
# Автоматизация цифрового маркетинга с помощью ИИ: системный подход, который работает

ИИ уже управляет рекламой, воронками и контентом. Петр Жогов показывает, как построить рост без лишней ручной работы.


Читать: https://habr.com/ru/articles/913856/

#ru

@big_data_analysis | Другие наши каналы
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы.

В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение.

В нашем семантическом слое данных больше  20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.


Читать: https://habr.com/ru/companies/avito/articles/913694/

#ru

@big_data_analysis | Другие наши каналы
От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.
Читать кейс

Читать: https://habr.com/ru/companies/arenadata/articles/913478/

#ru

@big_data_analysis | Другие наши каналы
Массивы вместо self-join: как писать быстрые запросы в ClickHouse

Привет, Хабр! Я — Максим Шитилов, продуктовый аналитик в каршеринг-сервисе Ситидрайв. Каждый день мы обрабатываем большие объёмы данных, и ClickHouse — один из наших ключевых инструментов. Если вы когда-либо пытались связать события с временными интервалами или рассчитать метрику за определённое окно после события, то наверняка сталкивались с типичной конструкцией на self-join. Вроде бы работает, но запрос становится громоздким, ресурсоёмким и плохо масштабируется.

В этой статье я расскажу, как решать такие задачи проще и эффективнее — с помощью массивов, arrayFilter и arrayMap. Покажу, как отказаться от self-join’ов без потери точности, ускорить обработку и упростить код. Примеры — из реальных бизнес-кейсов: телеметрия, аренды, GMV и события, которые нужно связать между собой по времени. Так как схожих решений на просторах интернета я не нашёл, предлагаю назвать этот подход “Array Join Pattern”. Если метод окажется полезным для сообщества, то такой паттерн легко будет найти другим аналитикам и девам.


Читать: https://habr.com/ru/companies/citydrive/articles/913866/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Шпаргалка по установке драйверов NVIDIA на ML сервер

Данный материал предназначен для быстрой и последовательной установки драйверов NVIDIA, в том числе для видеокарт 50xx серии, а также настройки NVIDIA Container Toolkit. Эта инструкция актуальна для Linux-систем на базе Ubuntu и других Debian-совместимых дистрибутивов.


Читать: https://habr.com/ru/articles/913988/

#ru

@big_data_analysis | Другие наши каналы
Новая статья раскрывает, как с помощью Semantic Model Extension в Oracle Fusion Data Intelligence создать альтернативную иерархию презентаций. Это помогает упростить навигацию по сложным иерархиям и повысить удобство работы с данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как правильно менять владельцев объектов в Oracle Analytics

В статье объясняется, как и почему важно менять владельцев объектов в каталоге при уходе сотрудников или изменениях в компании, чтобы сохранить целостность данных и избежать проблем с доступом в Oracle Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создайте собственный словарь данных для удобного отображения функциональных областей, предметных зон и объектов в ADW. Это поможет систематизировать информацию на уровне таблиц и столбцов, улучшая понимание и управление данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как Oracle Analytics меняет управление платежами

В статье рассказывается о демонстрации возможностей Oracle Analytics в сфере интеллектуальных платежных операций. Использование ИИ и анализ данных в реальном времени помогает объединить разрозненную информацию, снижая риски и улучшая принятие решений.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
С помощью чего выучить SQL в 2025 году?

Как выучить SQL с нуля в 2025? Сравниваем 6 платформ: SYNC STUDY, SQL Academy, Karpov Courses и другие. Бесплатные и платные курсы, задачи из реальной аналитики, поддержка PostgreSQL. Советы по выбору для новичков и профессионалов.

Читать: «С помощью чего выучить SQL в 2025 году?»

#ru

@big_data_analysis | Другие наши каналы
Apache Flink для начинающих: архитектура, библиотеки и применение

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.


Читать: https://habr.com/ru/articles/914836/

#ru

@big_data_analysis | Другие наши каналы
Что скрывается за MCP-сервером и почему он может заменить RAG

Область искусственного интеллекта стремительно развивается, открывая новые способы повышения эффективности их работы и интеграции с данными в реальном времени. Одним из последних достижений стал Model Context Protocol (MCP) — открытый стандарт, позволяющий AI-моделям напрямую обращаться к файлам, API и инструментам без необходимости в промежуточных этапах, таких как создание эмбеддингов или векторный поиск. В этой статье мы рассмотрим, что такое MCP-сервер, как он работает и почему он может изменить будущее AI.


Читать: https://habr.com/ru/articles/914768/

#ru

@big_data_analysis | Другие наши каналы