Data Analysis / Big Data
2.84K subscribers
573 photos
4 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Особенности REMOVEFILTERS в DAX из Power BI

Привет, Хабр! Одной из важных функций-модификаторов в DAX является REMOVEFILTERS, он позволяет, например, убрать фильтр для расчета знаменателя в доле. Однако логика REMOVEFILTERS для столбцов может выглядеть неочевидной, например, REMOVEFILTERS только для одного поля, по которому есть условие в FILTER, не влияет на результат DAX запроса. Так, REMOVEFILTERS(customer[customer_id]) не влияет на FILTER в SUMMARIZECOLUMNS вида FILTER(customer, customer[customer_id] > 2) и для сброса фильтра нужен REMOVEFILTERS(customer) по всей таблице. В связи с этим удобно представить принципы работы REMOVEFILTERS более формально, например, в виде ER диаграммы с подписанными связями. Для построения ER диаграммы был выбран Mermaid и генерация кода диаграммы реализована на C#. Интересующимся особенностями REMOVEFILTERS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/948294/

#ru

@big_data_analysis | Другие наши каналы
Анализируем тренд: почему игрушки Фиксики Digital Collectible неожиданно стали объектом инвестиций?

От цифрового искусства к физическим активам: как NFT меняют парадигму коллекционирования и куда движется рынок.

Внезапный ажиотаж вокруг seemingly обычных детских игрушек — персонажей мультфильма «Фиксики» Digital Collectible — на маркетплейсе Ozon заставляет задуматься: мы наблюдаем спонтанный всплеск ностальгии или первый признак формирования принципиально нового инвестиционного тренда?

Всё указывает на последнее, и вот почему.


Читать: https://habr.com/ru/articles/949020/

#ru

@big_data_analysis | Другие наши каналы
End-to-end вместо трёх костылей: как мы обошли OCR и выиграли по скорости и точности

Ребята, вы когда-нибудь сталкивались с тем, что ваш шикарный AI-пайплайн для обработки документов спотыкается на самом простом — на чтении текста с картинки? OCR выдает абракадабру, цифры перепутаны, а дальше по цепочке летит вся ваша безупречная логика. Знакомо? У нас была точно такая же боль.


Читать: https://habr.com/ru/companies/datafeel/articles/948380/

#ru

@big_data_analysis | Другие наши каналы
Практика alignment: данные, RLHF и UX как конкурентное преимущество

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.


Читать: https://habr.com/ru/articles/948412/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.


Читать: https://habr.com/ru/articles/949338/

#ru

@big_data_analysis | Другие наши каналы
ИИ-психопрофиль аудитории: как анализировать подписчиков в соцсетях с помощью GPT

Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.

Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.


Читать: https://habr.com/ru/articles/949416/

#ru

@big_data_analysis | Другие наши каналы
Как мы наводим порядок в BI: опыт внедрения процесса ревью отчётов

В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?

Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.

В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.

Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.


Читать: https://habr.com/ru/articles/948004/

#ru

@big_data_analysis | Другие наши каналы
MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM

Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.

Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.

Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.


Читать: https://habr.com/ru/companies/vk/articles/947892/

#ru

@big_data_analysis | Другие наши каналы
Нейтральное сравнение StarRocks и Apache Doris

Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.


Читать: https://habr.com/ru/articles/950214/

#ru

@big_data_analysis | Другие наши каналы
Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.

В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.

Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.


Читать: https://habr.com/ru/companies/kryptonite/articles/950236/

#ru

@big_data_analysis | Другие наши каналы
📊 Data Governance Meetup: точные данные для вашего бизнеса

Устали от хаоса в данных?

📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.

В программе:

⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB

Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.

👉 Подробности и регистрация.
👍1
Без тренировки, но с обучением: имплицитная динамика in-context learning

Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.


Читать: https://habr.com/ru/articles/949064/

#ru

@big_data_analysis | Другие наши каналы
Создаем тест производительности для Oracle Analytics Cloud с помощью Apache JMeter. В статье подробно описан процесс подготовки и настройки тест-плана, который поможет оценить и улучшить работу аналитической платформы. Полезно для тех, кто работает с нагрузочным тестированием.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создайте адаптивные дашборды в Oracle Analytics, которые автоматически подстраиваются под любой экран. В статье рассказывается о лучших подходах к дизайну, оптимизации визуализаций и настройке точек перелома для удобства на десктопе, планшете и мобильных устройствах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Вдохновляющая история Майлса Гиленана: от тенниса до руководителя направления данных и искусственного интеллекта в Apps Associates. Узнайте, как разные этапы карьеры привели его к вершинам в сфере аналитики и ИИ.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Почему в космосе (пока) нет дата-центров. Часть третья: какие вычисления уже работают

Привет, Хабр! На связи снова Александр Токарев. И это третья часть из серии статей о том, почему в космосе нет дата-центров.

Во второй части мы разобрались, что главные барьеры для космических ЦОДов — вовсе не процессоры, а энергия, охлаждение, радиация и отсутствие устойчивых сетей. Но пока проекты с «настоящими» дата-центрами остаются в рендерах, в космосе уже крутятся рабочие вычисления. Давайте посмотрим, что из этого реально работает сегодня и какие горизонты впереди.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/947134/

#ru

@big_data_analysis | Другие наши каналы
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными.

Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты.

Обо всем это и хочется рассказать.


Читать: https://habr.com/ru/articles/950874/

#ru

@big_data_analysis | Другие наши каналы
Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.

Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала.

В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.


Читать: https://habr.com/ru/articles/951016/

#ru

@big_data_analysis | Другие наши каналы
Гайд по созданию качественных дата-продуктов от SYNQ: топ-4 советов

Принцип «тестируй все» не повышает, а разрушает качество данных. Сотни бесполезных алертов создают шум, в котором тонут действительно важные сигналы, а команда перестает на них реагировать. В Google и Monzo от этого уже отказались. Рассказываем, как перейти от тотального тестирования к точечным проверкам узлов с максимальным радиусом влияния и почему один правильный тест на источник важнее сотни проверок в витринах.


Читать: https://habr.com/ru/companies/postgrespro/articles/951048/

#ru

@big_data_analysis | Другие наши каналы