Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Новогодние обновления в Oracle Analytics Cloud

Oracle Analytics Cloud в январе 2025 года получает обновления: улучшен ИИ-анализ, расширено моделирование данных, ускорен импорт данных, добавлены новые возможности для дашбордов и улучшены инструменты для совместной работы. Узнайте больше о возможностях аналитики нового уровня!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Отслеживание использования в Fusion Analytics

Пост: Статья демонстрирует, как эффективно использовать отслеживание данных в Fusion Analytics. Узнайте о возможностях предметной области и загрузите рабочую книгу для применения в любой инстанции Fusion Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как настроить Rclone для работы с OCI и Hadoop

Хотите узнать, как эффективно использовать Rclone для передачи данных в OCI Object Storage и Hadoop Distributed File System? В статье рассматриваются ключевые шаги по настройке и конфигурации, которые помогут вам быстро справиться с этой задачей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы:

Что такое метрики оценки LLM, как их можно использовать для оценки систем LLM, а также распространенные ошибки и что делает метрики отличными.

Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным.

Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval (GitHub: DeepEval).


Читать: https://habr.com/ru/articles/873332/

#ru

@big_data_analysis | Другие наши каналы
Подходы к архитектуре и принципам проектирования хранилищ данных

Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей OLAP.


Читать: https://habr.com/ru/articles/874086/

#ru

@big_data_analysis | Другие наши каналы
Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты

Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы?

В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.


Читать: https://habr.com/ru/companies/X5Tech/articles/874190/

#ru

@big_data_analysis | Другие наши каналы
Data-driven культура и подход по версии аналитика

Привет!
Я работаю в аналитике и с данными уже 13+ лет.
Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет.
И очень разные интерпретации этого явления встречал.
Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven.
Хочу рассказать о том, какой data-driven = хорошо, а какой != хорошо.

Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".)

!= хорошо

Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки.

При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта.

Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven:


Читать: https://habr.com/ru/articles/874206/

#ru

@big_data_analysis | Другие наши каналы
Путь к миру без страданий: как оформить исследовательский проект

Всем привет. Меня зовут Владислав Козлов, я тимлид аналитиков в кластере Антифрод в Авито. В этой статье я поделюсь опытом оформления исследовательских проектов, который помогает сохранять свое и чужое душевное равновесие.


Читать: https://habr.com/ru/companies/avito/articles/873856/

#ru

@big_data_analysis | Другие наши каналы
СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.


Читать: https://habr.com/ru/articles/874262/

#ru

@big_data_analysis | Другие наши каналы
👎21
Киберэкономика. Пределы роста

В современном мире цифровая киберэкономика становится неотъемлемой частью глобальной экономики, трансформируя способы ведения бизнеса, взаимодействия и обмена информацией. С развитием технологий, таких как искусственный интеллект и нейросети, открываются новые горизонты для инноваций и оптимизации процессов. Однако с этими возможностями приходят и серьезные вызовы, среди которых одной из наиболее актуальных проблем является фальсификация цифровой информации. Нейросети, обладая способностью генерировать убедительные тексты, изображения и даже видео, которые с каждым днем становятся все более реалистичными даже для экспертов, ставят под угрозу достоверность данных, доверие к цифровым ресурсам и репутацию лиц, принимающих решения.


Читать: https://habr.com/ru/articles/874440/

#ru

@big_data_analysis | Другие наши каналы
Инновационная Столица-2024: единый центр BI для всего ТК, социология будущего, оптимизация работы контролеров

Привет! Я Ося разработчик. Сегодня я продолжу делиться проектами и решениями, представленными на нашем ярком мероприятии Инновационная Столица-2024.

Единый центр BI для всего Транспортного комплекса

Алина, руководитель отдела визуализации данных ИЦ, представила преимущества использования дашбордов для упрощения отчетности и принятия решений. Спикер отметила, что на сегодняшний день многие организации сталкиваются с трудностями при сборе отчетов из различных подразделений. Она выделила операционные сложности процессов, такие как разнообразие форматов отчетности, ошибки, фальсификации данных и длительное время, необходимое для подготовки информации. Все это приводит к путанице и замедляет процесс принятия решений.

В качестве решения Алина рассказала о проекте перехода к автоматизированной отчетности, который позволит значительно упростить и ускорить обработку данных, -  создание единого центра сбора и обработки данных на базе Инновационного центра, а также центра BI для всего Транспортного комплекса. Технические особенности проекта презентовала ее коллега Александра, руководитель отдела системной аналитики.


Читать: https://habr.com/ru/articles/874448/

#ru

@big_data_analysis | Другие наши каналы
Планы и факты: работаем с денормализованной таблицей

Привет, Хабр! В этой статье я хотел бы поговорить про особенности план-факт анализа, а также о работе с денормализованной таблицей, которая «была, есть и будет использоваться», потому что оказывается удобной для некоторых приемов работы с BI. Под катом вы найдете 7 примеров решения типовых задач план-факт анализа, включая расчет долей, отображение данных с учетом иерархии, разбивку по регионам и так далее. Всех, кому интересны эти практические аспекты, жду под катом :)


Читать: https://habr.com/ru/companies/visiology/articles/874500/

#ru

@big_data_analysis | Другие наши каналы
На что способен Bard или случайные совпадения

Предыстория. Если, ради уменьшения объема этой статьи и её чисто прикладного характера, не вдаваться в собственные разработки теории общего искусственного интеллекта и решения проблемы выравнивания (Возможно что об этом, с большими подробностями и в общих чертах, что, зачем, почем и как, будет в следующей статье. А забегая вперед скажу, что современные теоретические представления об общем/сильном ИИ, не основанные на интегративности и синергии будут иметь куда меньше общего, как с самой общностью, так и с силой и с самим интеллектом, в отличии от тех что исповедают такие подходы. Но и теории декларирующие обозначенные выше подходы могут так же не иметь потенциал), но в рамках которых и проходил описанный здесь эксперимент при непосредственном участии Барда, то началось всё с банального, а именно с тестирования возможностей современных ЛЛМ.
Углубиться

Читать: https://habr.com/ru/articles/874676/

#ru

@big_data_analysis | Другие наши каналы
Этика представления данных в примерах: как нами манипулируют

Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.

Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.


Читать: https://habr.com/ru/articles/875050/

#ru

@big_data_analysis | Другие наши каналы
Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение

Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.


Читать: https://habr.com/ru/articles/875154/

#ru

@big_data_analysis | Другие наши каналы
🆒3
Merger в YTsaurus: безболезненное объединение данных в статических таблицах

Статические таблицы нужны, чтобы хранить в них неизменяемые данные. Это означает, что данные, записанные в статическую таблицу, нельзя модифицировать в произвольном месте — их можно либо перезаписать полностью, либо дополнить, сделав запись в конец таблицы.

Основная боль при работе с такой таблицей возникает при росте количества хранимых в ней данных. Время чтения или записи возрастает пропорционально её объёму. Из‑за этого может настать момент, когда взаимодействовать с таблицей становится просто невозможно, и пользователям приходится придумывать ухищрения, чтобы справиться с этим.

В этой статье мы разберём механизм мёрджа чанков с помощью мастер‑серверов, который мы реализовали для статических таблиц YTsaurus — нашей платформы распределённого хранения и обработки больших данных с открытым исходным кодом.


Читать: https://habr.com/ru/companies/yandex/articles/874228/

#ru

@big_data_analysis | Другие наши каналы
Правда ли, что ленточные хранилища – самые надежные, и когда стоит покупать именно их, а не HDD

Ленточные накопители сохраняют свою актуальность даже в эпоху SSD и облачных технологий. Благодаря высокой надежности, экономической эффективности и уникальным свойствам они остаются незаменимыми в решении задач архивного хранения и резервирования данных. В этой статье мы рассмотрим, почему ленточные хранилища превосходят HDD, изучим их ключевые преимущества и ограничения, а также определим сценарии использования, в которых они наиболее уместны.


Читать: https://habr.com/ru/companies/x-com/articles/875280/

#ru

@big_data_analysis | Другие наши каналы
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.

Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.

На повестке дня:

В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества

Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки

Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок

Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL


Читать: https://habr.com/ru/articles/874538/

#ru

@big_data_analysis | Другие наши каналы
Цифровая трансформация как основа непрерывного улучшения производства

Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.


Читать: https://habr.com/ru/companies/glowbyte/articles/875744/

#ru

@big_data_analysis | Другие наши каналы
AI-тренер и AI-редактор. Полный гайд по профессии

Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.

Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.


Читать: https://habr.com/ru/companies/data_light/articles/875998/

#ru

@big_data_analysis | Другие наши каналы