Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.


Читать: https://habr.com/ru/articles/845510/

#ru

@big_data_analysis | Другие наши каналы
Как выбрать проект для портфолио по работе с данными?

Выбор проекта для портфолио — это ключевое решение для повышения ваших навыков и улучшения шансов на трудоустройство. В статье описаны шаги от исследования вакансий до визуализации данных, чтобы продемонстрировать вашу экспертизу. Изучите инструменты, найдите или создайте наборы данных, и представьте проект красиво и понятно.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Collection. Темная сторона Data Science

Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!


Читать: https://habr.com/ru/companies/oleg-bunin/articles/845686/

#ru

@big_data_analysis | Другие наши каналы
👍2
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).

Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.


Читать: https://habr.com/ru/articles/846296/

#ru

@big_data_analysis | Другие наши каналы
Что такое Big Data | Биг Дата?

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.


Читать: https://habr.com/ru/articles/845536/

#ru

@big_data_analysis | Другие наши каналы
50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.


Читать: https://habr.com/ru/companies/X5Tech/articles/846298/

#ru

@big_data_analysis | Другие наши каналы
Кластеризация для души или как порадовать пользователя музыкального стриминга на старте

Всем привет! Меня зовут Татьяна Онофрюк, я аналитик в команде персонализации HiFi-стриминга Звук, и сегодня я расскажу про работу нашей команды с рекомендательными системами и кластеризацией по исполнителям и жанрам стриминга.


Читать: https://habr.com/ru/companies/zvuk/articles/846274/

#ru

@big_data_analysis | Другие наши каналы
Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.

На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.


Читать: https://habr.com/ru/articles/846932/

#ru

@big_data_analysis | Другие наши каналы
«Магнит» совершенствует сервис доставки: новые алгоритмы определяют лучший магазин для вашего заказа

Когда вы заказываете товары на сайте и в приложении, сервис доставки привозит их из магазинов «Магнит». Раньше для сборки заказов выбирался ближайший к покупателю магазин. Причём ближайший в буквальном смысле — по прямой. Это позволяло экономить на курьерах, но во всех магазинах разное количество сотрудников и ассортимент: где-то заказы собирали дольше, а где-то, из-за отсутствия определенных товаров, позиции в заказе меняли на аналоги. Поэтому мы решили поменять логику выбора магазинов, провели в нескольких городах пилотный проект и делимся первыми результатами.


Читать: https://habr.com/ru/companies/magnit/articles/847072/

#ru

@big_data_analysis | Другие наши каналы
Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:
* Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
* LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
* LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.


Читать: https://habr.com/ru/articles/846748/

#ru

@big_data_analysis | Другие наши каналы
🔍 Развертывание Oracle Analytics Cloud с использованием Terraform

Узнайте, как развернуть два примера каналов частного доступа в Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Пошаговое руководство и советы экспертов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
🔍 Настройка Oracle Analytics Cloud с приватными каналами

С помощью Oracle Cloud Shell и провайдера OCI Terraform можно легко развернуть два примера приватных каналов доступа для Oracle Analytics Cloud. В статье описывается пошаговый процесс настройки и основные преимущества использования подобных каналов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Поиск дубликатов в клиентском MDM на миллиард записей

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.


Читать: https://habr.com/ru/companies/hflabs/articles/847012/

#ru

@big_data_analysis | Другие наши каналы
От проваленного пилота до идеальной системы — как мы научились работать с LLM проектами

LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах.

Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.

Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться.


Читать: https://habr.com/ru/companies/data_light/articles/847170/

#ru

@big_data_analysis | Другие наши каналы
Подсчет уникальных значений поля в ClickHouse

Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов.

Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse.

Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :)


Читать: https://habr.com/ru/articles/847458/

#ru

@big_data_analysis | Другие наши каналы
Дашборд как инструмент взаимодействия с бизнесом

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.


Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/

#ru

@big_data_analysis | Другие наши каналы
Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.


Читать: https://habr.com/ru/articles/847770/

#ru

@big_data_analysis | Другие наши каналы
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.


Читать: https://habr.com/ru/articles/847780/

#ru

@big_data_analysis | Другие наши каналы
Настройка Oracle Analytics Cloud в сложной архитектуре

Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Мощь предсказательной аналитики с Oracle Analytics Cloud

Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы