Data Analysis / Big Data

Provide Personalization in Workbooks in Oracle Analytics Cloud

This article explains how to provide a personalized workbook experience to end users in Oracle Analytics Cloud through filter selection persistence.

Read: https://blogs.oracle.com/analytics/post/enabling-end-user-personalization-in-oac-workbooks

Oracle

Enabling end user personalization in OAC Workbooks

This article explains how to provide personalized workbook experience to end users through filter selection persistence.

684 views21:51

Data Analysis / Big Data

Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completion

Automating the refresh of materialized views after the Oracle Fusion Analytics pipeline completes saves time and reduces the likelihood of scheduling errors.

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-refresh-materialized-views-via-custom-function-after-pipeline-completes

Oracle

Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completes

As businesses expand and develop, the importance of automation in managing data and analytics applications also grows. In this blog we will demonstrate how to create a custom function that will be called as an action by the Fusion Analytics Event Producer…

❤1

725 views21:06

Data Analysis / Big Data

Как работает дедупликация данных в потоке Kafka-to-Kafka?

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.

Читать: https://habr.com/ru/companies/ru_mts/articles/786012/

✍2

737 views11:52

Data Analysis / Big Data

Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.

Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.

Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.

Читать: https://habr.com/ru/articles/786220/

719 views07:40

Data Analysis / Big Data

Визуализация статистики о том, что и так все знают

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям.

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

Читать: https://habr.com/ru/companies/alfa/articles/786524/

👍1

647 views14:25

Data Analysis / Big Data

Forecasting Mini-Course Sales или же Прогнозирование продаж мини-курсов по нашему на Kaggle

Привет читатель,эта стать является переводом решений соревнования Forecasting Mini‑Course Sales на Kaggle и дополнениями от автора данной статьи.

Новички и уже хлебавшие данные люди могут найти здесь что-то интересное или новое,да и в принципе провести время полезнее ,чем листать ленту в тиктоке или запрещенных сетях.

Приятного прочтения.
погрузись в пучину алгоритмических мыслей

Читать: https://habr.com/ru/articles/786574/

⚡2

621 views15:27

Data Analysis / Big Data

Spark не для чайников: где???

Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.

В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.
А в чем, собственно, проблема то ===>

Читать: https://habr.com/ru/articles/784848/

❤3

711 views07:48

Data Analysis / Big Data

Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?

Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.

Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.

Читать: https://habr.com/ru/articles/786822/

649 views12:58

Data Analysis / Big Data

Forwarded from Нейроканал

10 библиотек, которые сэкономят вам часы работы над EDA

Разведочный анализ данных (EDA) — один из важнейших начальных этапов работы с данными. Он позволяет выявить скрытые закономерности, тенденции, аномалии и сформировать гипотезы для дальнейших исследований.

В данной статье представлены 10 библиотек, способных автоматизировать этот процесс с помощью нескольких строк кода на Python.

#статья #eda

❤2👍1

584 views08:02

Data Analysis / Big Data

Основы обработки радиолокационных данных дистанционного зондирования Земли

В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.

Читать: https://habr.com/ru/articles/787074/

618 views13:41

Data Analysis / Big Data

Улучшаем динамические таблицы YTsaurus с помощью алгоритмов

Динамические таблицы в YTsaurus занимают заметное место во внутренней инфраструктуре Яндекса. В них можно хранить огромные массивы данных, и читать их можно настолько быстро, что многие сервисы Яндекса используют YTsaurus при построении ответа внешним пользователям.

Всё это звучит здорово, но стоять на месте никак нельзя. Поэтому мы постоянно работаем над всякого рода улучшениями и оптимизациями. Зачастую новые фичи хранят под капотом не самую тривиальную идею. И сегодня я хочу рассказать о нескольких таких улучшениях, которые мы затащили в виде новых фич в последнем релизе.

В этой статье разберёмся, как работает xor-фильтр, в чём особенность чанкового хеш-индекса и как overload controller повышает стабильность работы. Все примеры разберём на примере YTsaurus, но они будут полезны любому разработчику СУБД.

Читать: https://habr.com/ru/companies/yandex/articles/785994/

662 views07:14

Data Analysis / Big Data

Исследуем Скрытые Сокровища: Малоизвестные Библиотеки Python для Аналитики Данных

Введение: Привет, Хабр! Сегодня мы исследуем мир менее известных, но чрезвычайно полезных библиотек Python, которые могут значительно обогатить ваш аналитический инструментарий.

Содержание:
Рассматриваем 5 малоизвестных, но полезных библиотек для аналитиков данных. Они помогут вам в машинном обучении, обработке больших данных и визуализации.

Читать: https://habr.com/ru/articles/787218/

❤2

649 viewsedited 08:44

Data Analysis / Big Data

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть Kubernetes, однако самостоятельно его настраивать и конфигурировать очень сложно. Чтобы упростить ситуацию и помочь пользоваться всеми преимуществами технологий, не сталкиваясь с трудностями, мы сделали в VK Cloud Spark в Kubernetes. Для работы с ним не нужна глубокая экспертиза в K8s.

Меня зовут Алексей Матюнин, я ведущий программист команды разработки ML Platform в компании VK Cloud. Расскажу, почему мы решили делать Spark в Kubernetes, с какими сложностями столкнулись и как их обходили, а также что получили в итоге.

Материал подготовлен по мотивам моего выступления на конференции VK Data Meetup.

Читать: https://habr.com/ru/companies/vk/articles/776722/

579 views11:14

Data Analysis / Big Data

17 мгновений миграции DWH X5 Group

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.

Читать: https://habr.com/ru/companies/X5Tech/articles/787334/

❤1

720 views12:22

Data Analysis / Big Data

Революция в аналитике данных: погружение в мир NoSQL

Привет, Хабр! Сегодня мы исследуем мир NoSQL – технологии, которая радикально изменяет подходы к аналитике данных. В этой статье мы углубимся в особенности NoSQL, сравним его с традиционными SQL-базами данных и исследуем, как NoSQL преобразует сферу аналитики данных. Для более глубокого погружения в тему, присоединяйтесь к нашему обсуждению на DataTechCommunity.

Читать: https://habr.com/ru/articles/787574/

800 views11:28

Data Analysis / Big Data

Uplevel your dbt workflow with these tools and techniques

Read: https://www.startdataengineering.com/post/uplevel-dbt-workflow/

760 views13:04

Data Analysis / Big Data

Какие ML-платформы нужны бизнесу, и кто их может сделать

Привет, Хабр! Меня зовут Виктор Кантор, я директор Big Data МТС. Около 14 лет я работаю с технологиями, связанными с Machine Learning, Big Data, Data Science. Но есть одна проблема, с которой я постоянно сталкиваюсь. Например, поставлена задача, которую нужно решить при помощи ML-моделей. А потом появляется новая, с аналогичным процессом разработки и кодом. А затем ещё одна, вторая, третья…

В итоге я решил всё это формализовать, структурировать, привести к состоянию платформ, которые можно использовать повторно. Зачем? Чтобы специалисты по ML, Data Science и из смежных отраслей не писали один и тот же код много раз. В статье об этом и поговорим. Если тема вас заинтересовала, прошу под кат.

Читать: https://habr.com/ru/companies/ru_mts/articles/787726/

778 views10:24

Data Analysis / Big Data

Анализ объявлений Airbnb в Нью-Йорке за 2019 год

Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.

В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.

Читать: https://habr.com/ru/articles/787982/

720 views08:56

Data Analysis / Big Data

Enabling OCI Notifications for Data Flows in Oracle Analytics Cloud

Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-data-flow-notification-system

Oracle

Enabling OCI Notifications for Data Flows in Oracle Analytics Cloud

Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.

658 views22:40

Data Analysis / Big Data

Deploy Network Components for Oracle Fusion Analytics Service Endpoints

Deploy in minutes the initial network components for Oracle Fusion Analytics service endpoints using Oracle Cloud Shell and the Terraform OCI provider.

Read: https://blogs.oracle.com/analytics/post/deploy-network-components-for-oracle-fusion-analytics-service-endpoints

Oracle

Deploy Initial Network Components for Oracle Fusion Analytics Service Endpoints

This post guides you through deploying initial network components for Oracle Fusion Analytics service endpoints.

737 views22:41

Data Analysis / Big Data

Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей компании перейти на автоматическую маршрутизацию курьеров.

Мы умеем отслеживать прохождение грузом всей транспортной цепочки, включая промежуточные склады. Но посылку нужно ставить на конкретный маршрут до того, как весь груз придет на склад доставки. И даже до того, как он попадет в ERP‑систему СDEK (посылки оформят в офисах). То есть задача такая: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут!

Читать: https://habr.com/ru/companies/cdek_blog/articles/788816/

👍1

811 views13:19

About

Blog

Apps

Platform