Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
🔍 Настройка Oracle Analytics Cloud с приватными каналами

С помощью Oracle Cloud Shell и провайдера OCI Terraform можно легко развернуть два примера приватных каналов доступа для Oracle Analytics Cloud. В статье описывается пошаговый процесс настройки и основные преимущества использования подобных каналов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Поиск дубликатов в клиентском MDM на миллиард записей

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.


Читать: https://habr.com/ru/companies/hflabs/articles/847012/

#ru

@big_data_analysis | Другие наши каналы
От проваленного пилота до идеальной системы — как мы научились работать с LLM проектами

LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах.

Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.

Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться.


Читать: https://habr.com/ru/companies/data_light/articles/847170/

#ru

@big_data_analysis | Другие наши каналы
Подсчет уникальных значений поля в ClickHouse

Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов.

Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse.

Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :)


Читать: https://habr.com/ru/articles/847458/

#ru

@big_data_analysis | Другие наши каналы
Дашборд как инструмент взаимодействия с бизнесом

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.


Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/

#ru

@big_data_analysis | Другие наши каналы
Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.


Читать: https://habr.com/ru/articles/847770/

#ru

@big_data_analysis | Другие наши каналы
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.


Читать: https://habr.com/ru/articles/847780/

#ru

@big_data_analysis | Другие наши каналы
Настройка Oracle Analytics Cloud в сложной архитектуре

Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Мощь предсказательной аналитики с Oracle Analytics Cloud

Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer ClickHouse

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.


Читать: https://habr.com/ru/articles/842818/

#ru

@big_data_analysis | Другие наши каналы
Контроль качества разметки на проекте: делай как ОКК

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.


Читать: https://habr.com/ru/companies/data_light/articles/848234/

#ru

@big_data_analysis | Другие наши каналы
«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы»

Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.


Читать: https://habr.com/ru/companies/X5Tech/articles/848280/

#ru

@big_data_analysis | Другие наши каналы
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.


Читать: https://habr.com/ru/companies/sberbank/articles/748406/
👍1
Бутстрап в PySpark

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.


Читать: https://habr.com/ru/companies/X5Tech/articles/849322/

#ru

@big_data_analysis | Другие наши каналы
Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.


Читать: https://habr.com/ru/companies/data_light/articles/849384/

#ru

@big_data_analysis | Другие наши каналы
Разработка пакетов на языке R (бесплатный видео курс)

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.


Читать: https://habr.com/ru/articles/849440/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация аналитики с Oracle
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Данные – это новая нефть

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.


Читать: https://habr.com/ru/articles/849066/

#ru

@big_data_analysis | Другие наши каналы
Lamoda Tech Data Science Meetup #2: материалы встречи

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.
Смотреть записи докладов и презентации

Читать: https://habr.com/ru/companies/lamoda/articles/849398/

#ru

@big_data_analysis | Другие наши каналы
Эксперты объяснили необходимость перехода к цифровой трансформации государства и экономике данных

В МТУСИ объяснили необходимость перехода к цифровой трансформации государства и экономике данных

Сегодня наблюдается постоянный рост объема информации и повышение требований к скорости ее передачи и разработки. Динамизм процессов цифровизации всех видов деятельности и использование большого объема информации диктуют необходимость радикального преобразования способов и технологий управления производством и потреблением на основе цифровых технологий и данных. Группа ученых МТУСИ проанализировала проблему и определила причины и факторы перехода к цифровой трансформации государства и экономике данных.


Читать: https://habr.com/ru/companies/mtuci/articles/849912/

#ru

@big_data_analysis | Другие наши каналы
Data Ocean Nova. Next-gen платформа данных класса Lakehouse

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке


Читать: https://habr.com/ru/companies/glowbyte/articles/850034/

#ru

@big_data_analysis | Другие наши каналы