Data Analysis / Big Data

🔍 Настройка Oracle Analytics Cloud с приватными каналами

С помощью Oracle Cloud Shell и провайдера OCI Terraform можно легко развернуть два примера приватных каналов доступа для Oracle Analytics Cloud. В статье описывается пошаговый процесс настройки и основные преимущества использования подобных каналов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Deploy Example Oracle Analytics Cloud Vanity URLs using the OCI Terraform Provider

Deploy two example Oracle Analytics Cloud private access channels using Oracle Cloud Shell and the OCI Terraform provider.

378 views16:52

Data Analysis / Big Data

Поиск дубликатов в клиентском MDM на миллиард записей

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

Читать: https://habr.com/ru/companies/hflabs/articles/847012/

#ru

@big_data_analysis | Другие наши каналы

400 views08:00

Data Analysis / Big Data

От проваленного пилота до идеальной системы — как мы научились работать с LLM проектами

LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах.

Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.

Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться.

Читать: https://habr.com/ru/companies/data_light/articles/847170/

#ru

@big_data_analysis | Другие наши каналы

383 views10:01

Data Analysis / Big Data

Подсчет уникальных значений поля в ClickHouse

Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов.

Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse.

Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :)

Читать: https://habr.com/ru/articles/847458/

#ru

@big_data_analysis | Другие наши каналы

400 views17:30

Data Analysis / Big Data

Дашборд как инструмент взаимодействия с бизнесом

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.

Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/

#ru

@big_data_analysis | Другие наши каналы

418 views10:53

Data Analysis / Big Data

Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.

Читать: https://habr.com/ru/articles/847770/

#ru

@big_data_analysis | Другие наши каналы

467 views20:35

Data Analysis / Big Data

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать: https://habr.com/ru/articles/847780/

#ru

@big_data_analysis | Другие наши каналы

445 views09:04

Data Analysis / Big Data

Настройка Oracle Analytics Cloud в сложной архитектуре

Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Set up Oracle Analytics Cloud in a multi-Virtual Cloud Network architecture.

424 views16:28

Data Analysis / Big Data

Мощь предсказательной аналитики с Oracle Analytics Cloud

Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

437 views16:28

Data Analysis / Big Data

Инфраструктура для Data-Engineer ClickHouse

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать: https://habr.com/ru/articles/842818/

#ru

@big_data_analysis | Другие наши каналы

522 views06:05

Data Analysis / Big Data

Контроль качества разметки на проекте: делай как ОКК

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.

Читать: https://habr.com/ru/companies/data_light/articles/848234/

#ru

@big_data_analysis | Другие наши каналы

511 views11:20

Data Analysis / Big Data

«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы»

Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.

Читать: https://habr.com/ru/companies/X5Tech/articles/848280/

#ru

@big_data_analysis | Другие наши каналы

503 views13:47

Data Analysis / Big Data

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.

Читать: https://habr.com/ru/companies/sberbank/articles/748406/

👍1

408 views05:49

Data Analysis / Big Data

Бутстрап в PySpark

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Читать: https://habr.com/ru/companies/X5Tech/articles/849322/

#ru

@big_data_analysis | Другие наши каналы

467 views09:52

Data Analysis / Big Data

Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.

Читать: https://habr.com/ru/companies/data_light/articles/849384/

#ru

@big_data_analysis | Другие наши каналы

416 views11:55

Data Analysis / Big Data

Разработка пакетов на языке R (бесплатный видео курс)

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать: https://habr.com/ru/articles/849440/

#ru

@big_data_analysis | Другие наши каналы

382 views14:12

Data Analysis / Big Data

Оптимизация аналитики с Oracle
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Connect Oracle Analytics Cloud to Oracle Big Data Service with Hive and Spark for Enhanced Data Insights

409 views03:20

Data Analysis / Big Data

Данные – это новая нефть

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Читать: https://habr.com/ru/articles/849066/

#ru

@big_data_analysis | Другие наши каналы

370 views06:02

Data Analysis / Big Data

Lamoda Tech Data Science Meetup #2: материалы встречи

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.
Смотреть записи докладов и презентации

Читать: https://habr.com/ru/companies/lamoda/articles/849398/

#ru

@big_data_analysis | Другие наши каналы

395 views07:15

Data Analysis / Big Data

Эксперты объяснили необходимость перехода к цифровой трансформации государства и экономике данных

В МТУСИ объяснили необходимость перехода к цифровой трансформации государства и экономике данных

Сегодня наблюдается постоянный рост объема информации и повышение требований к скорости ее передачи и разработки. Динамизм процессов цифровизации всех видов деятельности и использование большого объема информации диктуют необходимость радикального преобразования способов и технологий управления производством и потреблением на основе цифровых технологий и данных. Группа ученых МТУСИ проанализировала проблему и определила причины и факторы перехода к цифровой трансформации государства и экономике данных.

Читать: https://habr.com/ru/companies/mtuci/articles/849912/

#ru

@big_data_analysis | Другие наши каналы

374 views08:30

Data Analysis / Big Data

Data Ocean Nova. Next-gen платформа данных класса Lakehouse

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Читать: https://habr.com/ru/companies/glowbyte/articles/850034/

#ru

@big_data_analysis | Другие наши каналы

396 views12:30

About

Blog

Apps

Platform