Data Analysis / Big Data

A Pepsi Challenge for Analytics & BI? Gartner’s 2024 Analytics & BI Bake-Off

Find out why Oracle Analytics Cloud got such a positive reaction from Gartner BI Bake-off attendees in Orlando and London.

Read: https://blogs.oracle.com/analytics/post/a-pepsi-challenge-for-analytics-bi-gartners-2024-analytics-bi-bakeoff

@big_data_analysis

Oracle

A Pepsi Challenge for Analytics & BI? Gartner’s 2024 Analytics & BI Bake-Off

Find out why Oracle Analytics Cloud got such a positive reaction from Gartner BI Bake-off attendees in Orlando and London.

👍1

473 views15:11

Data Analysis / Big Data

Кто такой Head of Profession и зачем он нужен компании

Head of Profession — это суперквалифицированный инженер. У него достаточно знаний по теме, большой опыт, есть определённые успехи, он уже запускал какие-то крупные продукты. И что важно — готов и умеет делиться опытом и знаниями с другими.

Если вы обладаете вышеописанными качествами и вас интересует такой трек развития, рекомендуем ознакомиться с этой статьёй. Там детально разобрали его роль и навыки. А также показали на примере команды системных аналитиков, насколько появление такого специалиста повлияло на рабочие процессы.

#советы

👍1

460 views07:09

Data Analysis / Big Data

Оптимизация настроек Kafka кластера. Часть 1. Механизмы управления пропускной способностью

Привет, Хабр! Представляю вам перевод технического документа от Confluent, который посвящен тому, как определить, что именно нужно оптимизировать (пропускная способность, задержка, надежность или доступность), как настроить развертывание Kafka в соответствии с этими целями и убедиться в их достижении с помощью мониторинга. Сегодня я выкладываю первую часть, в которой обсуждается, как определить цели оптимизации и улучшить пропускную способность Kafka. Последующие статьи будут посвящены задержке, надежности, доступности, мониторингу и бенчмаркингу.

Читать: https://habr.com/ru/articles/818007/

@big_data_analysis
___
Другие наши проекты

502 views10:51

Data Analysis / Big Data

Midjourney и пиксельные арты

Привет, чемпионы!

Часто ли вы обращаетесь к Midjourney или Stable Diffusion, чтобы нарисовать фантастический арт? Я да - нравится позалипать пару минут на фантастический арт. Давайте сегодня учиться генерировать подобные пикчи за пару кликов:
Посмотреть промпты

Читать: https://habr.com/ru/articles/818345/

@big_data_analysis
___
Другие наши проекты

494 views12:37

Data Analysis / Big Data

Building cost effective data pipelines with Python & DuckDB

Read: https://www.startdataengineering.com/post/cost-effective-pipelines/

@big_data_analysis
___
Другие наши проекты

514 views18:07

Data Analysis / Big Data

Reformer на TRAX?

Что такое Reformer и почему он круче Transformer’a (GPT-4...)?

Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов.

В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности.

Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.

Читать: https://habr.com/ru/articles/818521/

@big_data_analysis
___
Другие наши проекты

👍2

543 views00:12

Data Analysis / Big Data

Разработка системы отчётности и BI: вопросы производительности

Мы в компании «Магнит» много лет строим и эксплуатируем корпоративное хранилище данных и занимаемся различными задачами, связанными с этим. В частности, разрабатываем инструмент для конечного пользователя — систему отчётности и BI.

В статье рассмотрим вопросы оптимизации производительности системы.

Читать: https://habr.com/ru/companies/magnit/articles/815667/

@big_data_analysis
___
Другие наши проекты

536 views05:15

Data Analysis / Big Data

dbt(Data Build Tool) Tutorial

Read: https://www.startdataengineering.com/post/dbt-data-build-tool-tutorial/

@big_data_analysis
___
Другие наши проекты

🙏2⚡1👍1

508 views20:09

Data Analysis / Big Data

Как построить AI-сервис и не прогореть на этом

Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф. Зачастую на старте создания сервисов люди концентрируются на вещах, которые стоит делать в самую последнюю очередь, после чего теряют кучу времени на расхлёбывание проблем.

В нашей статье мы рассказываем о том, как построить сервис с AI, а именно с диффузионной моделью, когда нужно обучать модель, как нужно обучать, и что делать если не можете обучить модель, также делимся ценным опытом предобработки данных и практическими советами, как начать с базовых решений и только при необходимости переходить к более сложным методам.

Узнайте, как существующие ИИ-инструменты могут уже сейчас удовлетворить ваши потребности, сохраняя высокое качество продукта.

Читать: https://habr.com/ru/articles/818825/

@big_data_analysis
___
Другие наши проекты

499 views11:40

Data Analysis / Big Data

Оптимизация настроек Kafka кластера. Часть 2. Механизмы управления задержкой, надежностью и доступностью

Привет, Хабр! Представляю вам вторую часть из серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую часть). Это перевод руководства от Confluent. Сегодняшняя статья посвящена тому, как уменьшить задержку и повысить надежность и доступность. Заключительная третья часть будет посвящена мониторингу и бенчмаркингу.

Читать: https://habr.com/ru/articles/819243/

@big_data_analysis
___
Другие наши проекты

504 views18:50

Data Analysis / Big Data

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function по генерации UID. Это, конечно, здорово, но вот только данная функция не принимает аргументы на вход, в то время как в реальной практике нам требуются обычно функции, которым надо передать на вход 1, 2 или 3 аргумента. Такие случаи не рассматриваются в упомянутой выше переводной статье - ну что ж, попробуем восполнить этот пробел!

Ниже я предлагаю вашему вниманию результаты своих изысканий по созданию собственных Spark Native Functions, которые бы принимали на вход несколько аргументов.

Читать: https://habr.com/ru/articles/816997/

@big_data_analysis
___
Другие наши проекты

👍1

503 views04:51

Data Analysis / Big Data

Usage Insights for Oracle Analytics Cloud using OCI Logging

Read this article to gain insights about Oracle Analytics Cloud usage with OCI Logging.

Read: https://blogs.oracle.com/analytics/post/insights-of-oracle-analytics-cloud-usage-via-oci-logging

@big_data_analysis
___
Другие наши проекты

Oracle

Insights of Oracle Analytics Cloud Usage via OCI Logging

This blogs for Insights of Oracle Analytics Cloud Usage via OCI Logging

404 views07:37

Data Analysis / Big Data

Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud

This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.

Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4py-and-deploying-in-oracle-analytics-cloud

@big_data_analysis
___
Другие наши проекты

Oracle

Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud

This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.

434 views07:37

Data Analysis / Big Data

Incremental Migration of Catalog Objects in Oracle Analytics

This blog describes how you can migrate catalog objects incrementally using Oracle Analytics Web services and a handy Python script.

Read: https://blogs.oracle.com/analytics/post/incremental-migration-of-catalog-objects-in-oracle-analytics

@big_data_analysis
___
Другие наши проекты

393 views07:37

Data Analysis / Big Data

Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored in OCI Object Storage

In this post, I provide an overview and examples of creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.

Read: https://blogs.oracle.com/analytics/post/unlock-the-power-of-your-data-seamlessly-create-and-refresh-datasets-from-files-stored-oci-object-storage

@big_data_analysis
___
Другие наши проекты

Oracle

Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored OCI Object Storage

In this post I will provide an overview and examples on creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.

444 views07:38

Data Analysis / Big Data

Книга: «Антипаттерны SQL. Как избежать ловушек при работе с базами данных»

Привет, Хаброжители!

Язык SQL необходим для работы со структурированными данными. Программисты, прекрасно знающие свой любимый язык (Java, Python или Go), не могут разбираться во всем, и часто не являются экспертами в SQL. Это приводит к появлению антипаттернов — решений, которые на первый взгляд кажутся правильными, но со временем создают все больше проблем.

Научитесь выявлять и обходить многие из этих распространенных ловушек! Проведите рефакторинг унаследованного кошмара и превратите его в жизнеспособную модель данных!

Примеры SQL-кода основаны на версии MySQL 8.0, но в тексте также упоминаются другие популярные РСУБД. В примерах кода используется Python 3.9+ или Ruby 2.7+.

Читать: https://habr.com/ru/companies/piter/articles/819423/

@big_data_analysis
___
Другие наши проекты

572 views14:52

Data Analysis / Big Data

Python Essentials for Data Engineers

Read: https://www.startdataengineering.com/post/python-for-de/

@big_data_analysis
___
Другие наши проекты

522 views19:13

Data Analysis / Big Data

Коннектор ADB-TO-ADB

По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum.

Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.

В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых, гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами.

Но обо всем по порядку.

Читать: https://habr.com/ru/companies/arenadata/articles/818733/

@big_data_analysis
___
Другие наши проекты

529 views06:36

Data Analysis / Big Data

Оптимизация настроек Kafka кластера. Часть 3. Сравнительное тестирование, мониторинг и тонкая настройка Kafka кластера

Привет, Хабр! Представляю вам третью (заключительную) часть серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую и вторую части). Это перевод руководства от Confluent. Сегодняшняя статья посвящена сравнительному тестированию настроек и мониторингу Kafka кластера.

Читать: https://habr.com/ru/articles/819677/

@big_data_analysis
___
Другие наши проекты

480 views11:02

Data Analysis / Big Data

E2E-тестирование Flink Job с Kafka

Привет, Хабр! С вами Александр Бобряков, техлид в команде МТС Аналитики. Я к вам с новой статьёй из цикла про фреймворк Apache Flink.

В предыдущей части я рассказал, как создать Unit-тест на полноценную джобу Flink и отдельные stateful-операторы с использованием Flink MiniCluster. Ещё мы научились запускать мини-кластер один раз перед всеми тестовыми классами, которые нуждаются в нём. В дополнение создали вспомогательные абстракции и аннотации, значительно разделяя ответственность в тестах и упрощая логику написания новых тестов.

В предыдущих тестах на джобу мы не затрагивали интеграцию с Kafka, ведь нам были не важны реальные source и sink. В этой статье продолжим разбираться в тестировании и напишем полноценный E2E-тест, который охватит Kafka и Flink вместе с использованием Testcontainers. Также рассмотрим неочевидные проблемы в тестировании и новые универсальные абстракции.

Читать: https://habr.com/ru/companies/ru_mts/articles/819681/

@big_data_analysis
___
Другие наши проекты

560 views11:19

About

Blog

Apps

Platform