Data Analysis / Big Data

Data Lineage из топора

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.
Разные самопальные data lineages

Читать: https://habr.com/ru/articles/836648/

#ru

@big_data_analysis | Другие наши каналы

657 views23:49

Инфраструктура для data engineer Kafka

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать: https://habr.com/ru/articles/836302/

#ru

@big_data_analysis | Другие наши каналы

602 views05:10

Data Analysis / Big Data

Делаем своего AI стилиста на python

Привет, чемпионы!

AI решение, которые я разберу в этой статье - после запуска в телеграм привлекло почти органически внимание 70 000 новых пользователей за месяц, а всего было произведено 400 000 генераций. Разбираю, как реализовал сама ML модель. Погнали!
Переодеть коллег

Читать: https://habr.com/ru/articles/832850/

#ru

@big_data_analysis | Другие наши каналы

562 views10:45

Data Analysis / Big Data

Оптимизируем Shuffle в Spark

Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов –- это терабайты данных, поэтому наш инструмент разработан на Spark.

В последнее время мы заметили, что существенную часть времени работы наших Spark-приложений занимает обмен данными (Shuffle) между исполнителями. В этой статье я расскажу о том, какие оптимизации помогли нам избавиться от самых тяжёлых операций Shuffle. Речь пойдёт не только о BroadcastJoin, но и о двух других неочевидных методах – предварительное репартицирование и бакетирование.

Читать: https://habr.com/ru/companies/X5Tech/articles/837348/

#ru

@big_data_analysis | Другие наши каналы

533 views10:36

Data Analysis / Big Data

Инструменты для улучшения ритейла от Oracle Analytics

Oracle Analytics предлагает розничным компаниям инструменты для управления запасами, оптимизации трудовых затрат, улучшения клиентского опыта и прогнозирования будущих результатов. Узнайте, как эти решения могут повысить эффективность вашего бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Optimize Retail Businesses with Oracle Analytics

The use and understanding of analytics enable the optimization of retail businesses. Oracle Analytics provides tools for retailers to manage their inventory, improve labor costs, provide an enriched customer experience, and use forecasting to predict future…

480 views13:16

Data Analysis / Big Data

Oracle CloudWorld: Виртуально и в реальном времени

Не упустите важные моменты Oracle CloudWorld! Если у вас нет возможности присутствовать на мероприятии, смотрите выступление Т.К. Ананда онлайн и общайтесь с сообществом - обновления и обмен мнениями доступны в режиме реального времени.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

CloudWorld is coming! See all the great ways you can be an Analytics master in Las Vegas

A killer keynote, community events, Analytics for Breakfast, roadmap sessions, and countless other ways to connect data, analytics, and your experience - Oracle CloudWorld has it all. And if you're not going to the show, don't feel left out! You can see…

525 views13:17

Data Analysis / Big Data

Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 • 6 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в собственный диалект SQL поддержку процедур. Например,

-- library.tdl

CREATE PROCEDURE dwellTimeByMode(@signals, @target, @outPrefix,
  @modes = ['pedestrian', 'non_pedestrian', 'car', 'bike'],
  @groupid='cell10') AS BEGIN
    LOOP $mode IN $modes BEGIN
        SELECT * FROM $signals INTO "{$signals}/{$mode}" WHERE mode=$mode;

        CALL dwellTime(@signals_userid_attr=userid,
            @target_userid_attr=userid,
            @target_grouping_attr=$groupid
        ) INPUT signals FROM "{$signals}/{$mode}", target FROM $target
        OUTPUT INTO "{$outPrefix}/{$mode}";

        ANALYZE "{$signals}/{$mode}";
        ANALYZE "{$outPrefix}/{$mode}";
    END;
END;

--- ... --- ... --- ... ---

-- script.tdl

CALL dwellTimeByMode(@signals=$this_month, @target=$population, @outPrefix=$this_month);

Нафига это надо?
Ну, допустим, у нас уже есть некоторое количество SQL ETL кода, наработанного за время эксплуатации инструмента в продакшене, и становится заметно, что значительная часть скриптов на разных проектах совпадает, и из раза в раз повторяется. Логично было бы вынести все эти совпадающие куски в библиотеку, чтобы держать в одном месте, да и вызывать с какими надо параметрами, когда надо. Вот прям как на примере выше.

Читать: https://habr.com/ru/articles/838034/

#ru

@big_data_analysis | Другие наши каналы

684 views10:29

Data Analysis / Big Data

Excel — самый опасный софт на планете

В 80-е годы компании покупали компьютеры, чтобы запустить электронные таблицы. Автоматический расчёт налогов и зарплат казался чудом. Тысячи бухгалтеров оказались на улице, остальным пришлось осваивать работу ПК, а конкретно — Excel.

И до сих пор Excel играет важнейшую роль в бизнесе многих компаний. Без электронных таблиц у них просто всё развалится. Сложно найти на компьютере другую программу настолько древнюю и настолько важную, от которой столько всего зависит. И в такой ситуации факапы неизбежны.

Читать: https://habr.com/ru/companies/ruvds/articles/835390/

#ru

@big_data_analysis | Другие наши каналы

🔥2

598 views09:16

Data Analysis / Big Data

Преимущества DAX на примерах

Популярным языком запросов от Microsoft является DAX. В отличие от диалектов SQL, DAX позволяет аналитикам сфокусироваться на решении задач бизнес-аналитики, вместо того, чтобы заниматься рутинными техническими задачами (например, вопросами производительности).

Безусловно, DAX не является панацеей для решения любых задач, но, если честно, ознакомление с этим функциональным языком может быть своего рода открытием, что создать единый язык для всех SQL диалектов - это вообще "doable", причем поддерживаются практически все имеющиеся базы данных многих видов (например, реляционные, колоночные), а также обеспечивается высокая производительность запросов.

В этой статье рассматриваются преимущества DAX на конкретных примерах, таким образом, если Вам интересен Business Intelligence на DAX - добро пожаловать :)

Читать: https://habr.com/ru/articles/838018/

#ru

@big_data_analysis | Другие наши каналы

546 views23:41

Data Analysis / Big Data

Сверточные нейронные сети (CNN)

Простым языком пытаемся объяснить начинающим программистам, что такое сверточные нейронные сети. В этом нам помогла одна из преподавательниц наших буткемпов, Полунина Полина.

Сверточные нейронные сети (CNN) – это класс глубоких нейронных сетей, которые обладают специализированной архитектурой для обработки данных, имеющих пространственную структуру, таких как изображения. Они широко применяются в компьютерном зрении, распознавании образов, анализе временных рядов и других задачах, где важно учитывать пространственные зависимости между данными.

Основными строительными блоками CNN являются сверточные слои, пулинг-слои и полносвязанные слои. Сверточные слои состоят из фильтров (ядер), которые скользят по входным данным и вычисляют локальные признаки. Пулинг-слои уменьшают размерность данных, сохраняя важные признаки. Полносвязанные слои объединяют все признаки для принятия окончательного решения.

Для обучения CNN используется метод обратного распространения ошибки, который позволяет оптимизировать веса сети с целью минимизации ошибки на обучающем наборе данных. При этом часто применяются функции активации, такие как ReLU (Rectified Linear Unit), которые помогают улучшить скорость обучения и предотвратить проблему затухания градиента.

Одной из ключевых особенностей CNN является возможность извлечения иерархии признаков на разных уровнях абстракции. Более низкие слои могут выделять простые фичи, такие как грани и углы, в то время как более высокие слои могут распознавать более сложные паттерны, например, лица или объекты.

Читать: https://habr.com/ru/articles/838892/

#ru

@big_data_analysis | Другие наши каналы

👍2

477 views11:07

Data Analysis / Big Data

🔍 Подготовка OCI для Oracle Analytics

Узнайте, как настроить начальные компоненты OCI для использования сервисов Oracle Analytics. В статье объясняются ключевые шаги и необходимые ресурсы для успешной интеграции. Откройте новые возможности аналитики с помощью простых инструкций.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Prepare OCI Identity Components Before Provisioning Oracle Analytics Services

This post guides you through preparing initial OCI components for Oracle Analytics services.

❤1

459 views11:42

Data Analysis / Big Data

Мы ищем менеджера по продажам в команду Tproger

Всё как у людей: хорошая зарплата, гибрид и дружный коллектив. Оставляйте заявку и смотрите подробности: https://tprg.ru/l1rP

#вакансии #работа

491 viewsedited 13:01

Data Analysis / Big Data

Интеграция Apache NiFi и Atlas: Настройка в Docker и Создание Пользовательского Репортера

В этой статье представлен кейс по интеграции Apache NiFi с Apache Atlas с использованием Docker. В процессе развертывания и настройки системы возникли проблемы с загрузкой образов и установкой необходимых пакетов. Основное внимание уделяется созданию и настройке пользовательского репортера, который позволяет фильтровать и отображать только те компоненты DAG в Atlas, которые соответствуют заданным критериям. В статье подробно описаны шаги по созданию и сборке .nar архива, добавлению его в NiFi и настройке фильтрации с использованием кастомных классов.

Читать: https://habr.com/ru/articles/839060/

#ru

@big_data_analysis | Другие наши каналы

544 views11:51

Data Analysis / Big Data

Отправка уведомлений по таймеру в Apache Flink

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущих постах я рассказал, как собрать первое приложение Flink со Spring, реализовав пайплайн дедупликации сообщений Kafka-to-Kafka. В этом примере погружусь в использование таймеров в Flink, а в следующих статьях расскажу, как работать с более сложными состояниями, эволюционировать их схему и покрыть это все тестами.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/7_Trigger_Flink_Job.

Это восьмой материал из моей серии про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Читать: https://habr.com/ru/companies/ru_mts/articles/839520/

#ru

@big_data_analysis | Другие наши каналы

480 views13:12

Data Analysis / Big Data

Как мы искали альтернативу иностранному ПО

Привет, друзья! Я — Василь Фатихов, работаю в ИТ подразделении ВТБ. Одной из моих повседневных задач является загрузка данных в корпоративное хранилище. Именно с этими данными работают потом «колдуны — аналитики», извлекая из них новые возможности для бизнеса.

Сейчас многие сталкиваются с проблемами, связанными с переходом на альтернативное программное обеспечение. Именно по этой причине мы с коллегами решили написать эту статью, чтобы показать возможные варианты решений и предупредить о трудностях.

Читать: https://habr.com/ru/companies/vtb/articles/839312/

#ru

@big_data_analysis | Другие наши каналы

❤1👍1

462 views08:24

Data Analysis / Big Data

Forwarded from MaaS — meme as a service (ex. Представляешь, )

LLM считают, что в слове strawberry две R

Открываются новые нюансы работы с большими языковыми моделями. Например, на вопрос «сколько R в слове Strawberry?» GPT-4o и Claude отвечают, что две.

Дело в том, что эти ЯМ построены на архитектуре трансформера. Текст разбивается на токены, которые могут быть словами, слогами или буквами, в зависимости от модели. GPT-4o и Claude воспринимают токены straw и berry, но не учитывают, что слово состоит из таких букв, расположенных именно в таком порядке.

«Сложно определить, что именно должно считаться словом для языковой модели, и даже если бы мы собрали экспертов, чтобы согласовать идеальный словарь токенов, модели, вероятно, всё равно считали бы полезным разбивать слова на ещё более мелкие части, — объясняет Шеридан Фойхт (Sheridan Feucht), аспирант Северо-восточного университета (Массачусетс, США), изучающий интерпретируемость LLM. — Я думаю, что идеального токенизатора не существует из-за этой нечёткости».

Можно, конечно, и напрямую анализировать символы, но вычислительных мощностей на это вряд ли хватит.

Так что пока просто смеемся, дальше клепаем мемы и не забываем перепроверять полученные ответы.

@your_tech

👍1

486 views13:25

Data Analysis / Big Data

Streaming 101 (Основы потоковой обработки)

Обработка потоковых данных стала крайне важна в настоящее время. И на это есть веские причины, такие как:

Компании жаждут получать данный как можно быстрее, и переход на потоковую обработку будет хорошим способом уменьшить задержки.

Объемные неограниченные наборы данных, все чаще встречающиеся в современных бизнес процессах, могут быть легче обузданы применением систем, специально спроектированных для таких объемов информации

Обработка данных по мере их поступления распределяет нагрузку более равномерно по времени, приводя с стабильному и предсказуемому потреблению вычислительных ресурсов.

Несмотря на существенный интерес к потоковой обработке данных со стороны бизнеса, львиная доля таких систем оставалась относительно незрелой по сравнению с аналогичными системами, ориентированными на пакетную обработку данных, так что это привело к недавнему всплеску вдохновляющих разработок в этой сфере.

Как тот, кто работал над крупно‑масштабной системой потоковой обработки в Google на протяжении последний пяти с лишним лет (MillWheel, Cloud Dataflow), я, мягко говоря, в восторге от сложившихся тенденций. Я все также заинтересован в том, чтобы люди понимали, что именно системы потоковой обработки в состоянии выполнять, и как их использовать наилучшим образом, в частности, закрыв нехватку знаний, оставшуюся между существующими системами пакетной обработки и потоковыми. С этой целью замечательные ребята из O»Reilly пригласили меня предоставить письменную версию моего доклада «Say Goodbye to Batch» с конференции Strata + Hadoop World London 2015.

Читать: https://habr.com/ru/articles/839938/

#ru

@big_data_analysis | Другие наши каналы

545 views20:22

Data Analysis / Big Data

Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt

В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание проектов, управление зависимостями, локальное тестирование, компиляцию и развертывание проекта Spark на кластере.

Это руководство было тщательно продумано, чтобы помочь новичкам, так что даже те, кто только начинает изучать Spark, смогут легко ему следовать. Более того, эта статья послужит ценным пособием для тех, кто хочет создавать, тестировать и развертывать пакетные задания Spark в среде JVM.

Цель этой статьи — предоставить вам подробное руководство по инициализации проекта Spark, в котором будут подробно рассмотрены все ключевые идеи. В руководстве будет рассмотрен пошаговый процесс создания проектов с помощью Scala Build Tool (SBT), а также продемонстрировано управление зависимостями, локальное тестирование, компиляция и развертывание проекта Spark на кластере.

Читать: https://habr.com/ru/companies/otus/articles/840362/

#ru

@big_data_analysis | Другие наши каналы

480 views15:20

Data Analysis / Big Data

Ускорьте развёртывание Oracle Analytics с Oracle Cloud Shell

Теперь вы можете за считанные минуты развернуть начальные компоненты для Oracle Analytics с использованием Oracle Cloud Shell и OCI Terraform provider. Этот метод значительно упрощает и ускоряет процесс настройки. Узнайте больше в статье!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Deploy OCI Identity Components Before Provisioning Oracle Analytics Services

Deploy in minutes the initial components recommended for Oracle Analytics services using Oracle Cloud Shell and the OCI Terraform provider.

492 views19:49

Data Analysis / Big Data

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов.

В каталоге Lamoda в наличии более полумиллиона модных товаров, однако 95% пользователей не просматривают больше первых 120 карточек. Поэтому в первую очередь важно показывать только самую релевантную подборку, для этого мы развиваем персональное ранжирование каталога. С его помощью каждый пользователь видит свою уникальную выдачу, которая собирается на основе его поведения, популярности товаров и других параметров.

Организовать такое ранжирование можно разными способами. Мы развивались поэтапно: в течение нескольких лет переходили от эвристик к внедрению ML, улучшая пайплайн ранжирования.

В этой статье поподробнее раскроем наш подход.

Читать: https://habr.com/ru/companies/lamoda/articles/840370/

#ru

@big_data_analysis | Другие наши каналы

👍1

512 views09:14

About

Blog

Apps

Platform