Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Кто в IT зарабатывает больше всех: статистика 2025 года

Кто в ИТ имеет самый высокий доход. Рейтинг специальностей с самыми высокими зарплатами в 2025. Какие профессии стоит освоить.

Читать: «Кто в IT зарабатывает больше всех: статистика 2025 года»

#ru

@big_data_analysis | Другие наши каналы
Как использовать seed из другого dbt-проекта?

В вашей компании несколько dbt-проектов? Узнайте, как задействовать seed данные из одного проекта в другом. Статья объясняет, как создать и хранить dbt-пакеты, а также как использовать зависимости между проектами и хранить данные в хранилище.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Apache Flink: тестирование собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитика. Это мой одиннадцатый пост про Apache Flink. В предыдущей части мы рассмотрели сериализацию данных во Flink, написали сериализатор, поддерживающий эволюцию схемы для Flink-состояния в операторе на основе Jackson.

В этой части мы научимся писать тесты на эволюцию схемы состояния при использовании своего сериализатора.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Этот материал соответствует релизной ветке с названием release/10_test_JacksonStateSerializer.


Читать: https://habr.com/ru/companies/ru_mts/articles/873436/

#ru

@big_data_analysis | Другие наши каналы
Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/872744/

#ru

@big_data_analysis | Другие наши каналы
Жизнь после ухода западных вендоров: адаптация и новые возможности

Привет, Хабр! Меня зовут Александр Тарасов, я архитектор департамента поддержки продаж Arenadata. Уход крупных зарубежных вендоров, таких как Oracle и Microsoft, заставил нас переосмыслить подходы к управлению данными и освоить альтернативные решения. Если с транзакционной нагрузкой всё относительно ясно благодаря PostgreSQL, то в аналитике дела обстоят сложнее, и здесь особенно важно адаптироваться к новым инструментам. Сейчас на первый план выходят системы с открытым исходным кодом, которые не только поддерживаются сообществом, но и открывают новые возможности для роста и экспериментов, оставаясь актуальными в условиях меняющегося рынка.

В этой статье я расскажу, как разработчикам и архитекторам адаптироваться к новым условиям, какие технологии стали достойной заменой западным решениям и какие шаги помогут специалистам эффективно использовать открытые платформы для укрепления своего карьерного трека.
Выход есть

Читать: https://habr.com/ru/companies/arenadata/articles/867476/

#ru

@big_data_analysis | Другие наши каналы
Как сгладить облачные турбулентности

В условиях ограничения доступа к самым современным технологиям компании всё чаще стремятся переложить заботу о поддержании работоспособности ИТ-инфраструктуры на профессионалов. И вариантов тут два: либо консолидировать вычислительные ресурсы на собственной технологической площадке, развитием которой будут заниматься своя ИТ-служба, либо отдавать вычислительные ресурсы на аутсорсинг, то есть пользоваться услугами облачных провайдеров. Проще, конечно же, доверить управление ИТ-инфраструктурой сторонним профессионалам, однако надежнее и безопаснее развивать собственные компетенции за счет внедрения современных средств автоматизации управления Центрами обработки данных (ЦОД).


Читать: https://habr.com/ru/companies/usetech/articles/873902/

#ru

@big_data_analysis | Другие наши каналы
ПИКантная миграция: путь от Tableau к FineBI

Хабр, привет! Сегодня вашему вниманию представляю статью активиста нашего сообщества FineBI GlowByte, администратора системы FineBI в компании «ПИК Диджитал» и просто классного специалиста Сергея Усова. Он расскажет об особенностях перехода компании ПИК на новую систему бизнес-аналитики и поделится очень крутыми инсайтами. Приятного прочтения!


Читать: https://habr.com/ru/companies/glowbyte/articles/873922/

#ru

@big_data_analysis | Другие наши каналы
Новогодние обновления в Oracle Analytics Cloud

Oracle Analytics Cloud в январе 2025 года получает обновления: улучшен ИИ-анализ, расширено моделирование данных, ускорен импорт данных, добавлены новые возможности для дашбордов и улучшены инструменты для совместной работы. Узнайте больше о возможностях аналитики нового уровня!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Отслеживание использования в Fusion Analytics

Пост: Статья демонстрирует, как эффективно использовать отслеживание данных в Fusion Analytics. Узнайте о возможностях предметной области и загрузите рабочую книгу для применения в любой инстанции Fusion Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как настроить Rclone для работы с OCI и Hadoop

Хотите узнать, как эффективно использовать Rclone для передачи данных в OCI Object Storage и Hadoop Distributed File System? В статье рассматриваются ключевые шаги по настройке и конфигурации, которые помогут вам быстро справиться с этой задачей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы:

Что такое метрики оценки LLM, как их можно использовать для оценки систем LLM, а также распространенные ошибки и что делает метрики отличными.

Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным.

Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval (GitHub: DeepEval).


Читать: https://habr.com/ru/articles/873332/

#ru

@big_data_analysis | Другие наши каналы
Подходы к архитектуре и принципам проектирования хранилищ данных

Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей OLAP.


Читать: https://habr.com/ru/articles/874086/

#ru

@big_data_analysis | Другие наши каналы
Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты

Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы?

В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.


Читать: https://habr.com/ru/companies/X5Tech/articles/874190/

#ru

@big_data_analysis | Другие наши каналы
Data-driven культура и подход по версии аналитика

Привет!
Я работаю в аналитике и с данными уже 13+ лет.
Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет.
И очень разные интерпретации этого явления встречал.
Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven.
Хочу рассказать о том, какой data-driven = хорошо, а какой != хорошо.

Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".)

!= хорошо

Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки.

При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта.

Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven:


Читать: https://habr.com/ru/articles/874206/

#ru

@big_data_analysis | Другие наши каналы
Путь к миру без страданий: как оформить исследовательский проект

Всем привет. Меня зовут Владислав Козлов, я тимлид аналитиков в кластере Антифрод в Авито. В этой статье я поделюсь опытом оформления исследовательских проектов, который помогает сохранять свое и чужое душевное равновесие.


Читать: https://habr.com/ru/companies/avito/articles/873856/

#ru

@big_data_analysis | Другие наши каналы
СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.


Читать: https://habr.com/ru/articles/874262/

#ru

@big_data_analysis | Другие наши каналы
👎21
Киберэкономика. Пределы роста

В современном мире цифровая киберэкономика становится неотъемлемой частью глобальной экономики, трансформируя способы ведения бизнеса, взаимодействия и обмена информацией. С развитием технологий, таких как искусственный интеллект и нейросети, открываются новые горизонты для инноваций и оптимизации процессов. Однако с этими возможностями приходят и серьезные вызовы, среди которых одной из наиболее актуальных проблем является фальсификация цифровой информации. Нейросети, обладая способностью генерировать убедительные тексты, изображения и даже видео, которые с каждым днем становятся все более реалистичными даже для экспертов, ставят под угрозу достоверность данных, доверие к цифровым ресурсам и репутацию лиц, принимающих решения.


Читать: https://habr.com/ru/articles/874440/

#ru

@big_data_analysis | Другие наши каналы
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024.

Единый центр BI для всего Транспортного комплекса

Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений.

В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, -  создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.


Читать: https://habr.com/ru/articles/874448/

#ru

@big_data_analysis | Другие наши каналы
Планы и факты: работаем с денормализованной таблицей

Привет, Хабр! В этой статье я хотел бы поговорить про особенности план-факт анализа, а также о работе с денормализованной таблицей, которая «была, есть и будет использоваться», потому что оказывается удобной для некоторых приемов работы с BI. Под катом вы найдете 7 примеров решения типовых задач план-факт анализа, включая расчет долей, отображение данных с учетом иерархии, разбивку по регионам и так далее. Всех, кому интересны эти практические аспекты, жду под катом :)


Читать: https://habr.com/ru/companies/visiology/articles/874500/

#ru

@big_data_analysis | Другие наши каналы
На что способен Bard или случайные совпадения

Предыстория. Если, ради уменьшения объема этой статьи и её чисто прикладного характера, не вдаваться в собственные разработки теории общего искусственного интеллекта и решения проблемы выравнивания (Возможно что об этом, с большими подробностями и в общих чертах, что, зачем, почем и как, будет в следующей статье. А забегая вперед скажу, что современные теоретические представления об общем/сильном ИИ, не основанные на интегративности и синергии будут иметь куда меньше общего, как с самой общностью, так и с силой и с самим интеллектом, в отличии от тех что исповедают такие подходы. Но и теории декларирующие обозначенные выше подходы могут так же не иметь потенциал), но в рамках которых и проходил описанный здесь эксперимент при непосредственном участии Барда, то началось всё с банального, а именно с тестирования возможностей современных ЛЛМ.
Углубиться

Читать: https://habr.com/ru/articles/874676/

#ru

@big_data_analysis | Другие наши каналы
Этика представления данных в примерах: как нами манипулируют

Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.

Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.


Читать: https://habr.com/ru/articles/875050/

#ru

@big_data_analysis | Другие наши каналы