Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Как не потеряться в данных для аналитики?

Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно).

Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать.

Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности.

Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.


Читать: https://habr.com/ru/companies/sravni/articles/844016/

#ru

@big_data_analysis | Другие наши каналы
Pet-проекты и данные для Data-Engineer

При изучении дата-инжиниринга часто возникает вопрос: "откуда брать данные?"

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet-проекты c использованием разнообразных данных.


Читать: https://habr.com/ru/articles/841940/

#ru

@big_data_analysis | Другие наши каналы
Полезные Youtube-каналы

Сегодня хотим поделиться с вами подборкой Youtube-каналов по ИИ, машинному обучению и математике. Если у вас есть еще рекомендации, обязательно дополняйте пост в комментариях!

ИИ и машинное обучение


Читать: https://habr.com/ru/articles/844818/

#ru

@big_data_analysis | Другие наши каналы
Пример DAX с точки зрения реляционной алгебры

Привет, Хабр!

Существует множество инструментов для решения задач Business Intelligence, одним из удобных инструментов является функциональный язык DAX, позволяющий работать с различными СУБД и выполнять достаточно сложные аналитические расчеты.

Поскольку язык DAX в рамках Power BI способен работать со множеством различных СУБД (например Oracle, MS SQL, MySQL, PostgresQL, ClickHouse и т.д.), т.е. работает со множеством диалектов SQL, то в некотором смысле DAX является "надмножеством SQL" и приближается в этом смысле к реляционной алгебре. В данной статье приводится разбор типичного DAX для получения записи этого DAX в нотации реляционной алгебры. Интересующимся погружением в DAX и его реляционное представление - добро пожаловать :)


Читать: https://habr.com/ru/articles/845236/

#ru

@big_data_analysis | Другие наши каналы
Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:
* «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
* Способы передачи входных промтов в LLM
* Способы интерпретации/сбора ответов
* Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!


Читать: https://habr.com/ru/articles/844974/

#ru

@big_data_analysis | Другие наши каналы
Цифровые двойники: от истока к будущему

Не так давно термин «цифровой двойник» был передовой, меняющей парадигму, но лишь концепцией, которая обещала произвести революцию в отраслях, предоставив динамическое цифровое зеркало физических систем. Сегодня эта инновация вышла далеко за рамки своей первоначальной предпосылки. Она созрела и превратилась в тонкую экосистему.


Читать: https://habr.com/ru/companies/sberbank/articles/845350/

#ru

@big_data_analysis | Другие наши каналы
2
Быстрое развертывание Oracle Analytics Cloud

Текст поста: Узнайте, как легко и быстро развернуть две примера среды Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Подробное руководство поможет вам понять ключевые шаги и упростить процесс. Не пропустите!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Рекомендательные системы и реализация Content-based системы

Введение в рекомендательные системы: идеи, типы, метрики, преимущества и недостатки. Реализация content based системы для аниме

Читать: «Рекомендательные системы и реализация Content-based системы»

#ru

@big_data_analysis | Другие наши каналы
FineBI 6: Обработка данных для начинающих пользователей — 2

Команда Business Intelligence GlowByte приветствует всех читателей сегодняшнего гайда по обработке данных в FineBI 6 версии. Меня зовут Александр Ларин,  руководитель центра поддержки и обучения BI-решений в GlowByte, и в этой статье я поделюсь полезными функциями, которые облегчат вашу работу по подготовке данных для их последующего анализа.

Гайд включает в себя 5 уроков, которые помогут вам ближе познакомиться с инструментами подготовки данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.


Читать: https://habr.com/ru/companies/glowbyte/articles/845622/

#ru

@big_data_analysis | Другие наши каналы
❤‍🔥1
Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.


Читать: https://habr.com/ru/articles/845510/

#ru

@big_data_analysis | Другие наши каналы
Как выбрать проект для портфолио по работе с данными?

Выбор проекта для портфолио — это ключевое решение для повышения ваших навыков и улучшения шансов на трудоустройство. В статье описаны шаги от исследования вакансий до визуализации данных, чтобы продемонстрировать вашу экспертизу. Изучите инструменты, найдите или создайте наборы данных, и представьте проект красиво и понятно.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Collection. Темная сторона Data Science

Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!


Читать: https://habr.com/ru/companies/oleg-bunin/articles/845686/

#ru

@big_data_analysis | Другие наши каналы
👍2
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).

Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.


Читать: https://habr.com/ru/articles/846296/

#ru

@big_data_analysis | Другие наши каналы
Что такое Big Data | Биг Дата?

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.


Читать: https://habr.com/ru/articles/845536/

#ru

@big_data_analysis | Другие наши каналы
50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.


Читать: https://habr.com/ru/companies/X5Tech/articles/846298/

#ru

@big_data_analysis | Другие наши каналы
Кластеризация для души или как порадовать пользователя музыкального стриминга на старте

Всем привет! Меня зовут Татьяна Онофрюк, я аналитик в команде персонализации HiFi-стриминга Звук, и сегодня я расскажу про работу нашей команды с рекомендательными системами и кластеризацией по исполнителям и жанрам стриминга.


Читать: https://habr.com/ru/companies/zvuk/articles/846274/

#ru

@big_data_analysis | Другие наши каналы
Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.

На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.


Читать: https://habr.com/ru/articles/846932/

#ru

@big_data_analysis | Другие наши каналы
«Магнит» совершенствует сервис доставки: новые алгоритмы определяют лучший магазин для вашего заказа

Когда вы заказываете товары на сайте и в приложении, сервис доставки привозит их из магазинов «Магнит». Раньше для сборки заказов выбирался ближайший к покупателю магазин. Причём ближайший в буквальном смысле — по прямой. Это позволяло экономить на курьерах, но во всех магазинах разное количество сотрудников и ассортимент: где-то заказы собирали дольше, а где-то, из-за отсутствия определенных товаров, позиции в заказе меняли на аналоги. Поэтому мы решили поменять логику выбора магазинов, провели в нескольких городах пилотный проект и делимся первыми результатами.


Читать: https://habr.com/ru/companies/magnit/articles/847072/

#ru

@big_data_analysis | Другие наши каналы
Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:
* Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
* LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
* LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.


Читать: https://habr.com/ru/articles/846748/

#ru

@big_data_analysis | Другие наши каналы
🔍 Развертывание Oracle Analytics Cloud с использованием Terraform

Узнайте, как развернуть два примера каналов частного доступа в Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Пошаговое руководство и советы экспертов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы