Usage Insights for Oracle Analytics Cloud using OCI Logging
Read this article to gain insights about Oracle Analytics Cloud usage with OCI Logging.
Read: https://blogs.oracle.com/analytics/post/insights-of-oracle-analytics-cloud-usage-via-oci-logging
@big_data_analysis
___
Другие наши проекты
Read this article to gain insights about Oracle Analytics Cloud usage with OCI Logging.
Read: https://blogs.oracle.com/analytics/post/insights-of-oracle-analytics-cloud-usage-via-oci-logging
@big_data_analysis
___
Другие наши проекты
Oracle
Insights of Oracle Analytics Cloud Usage via OCI Logging
This blogs for Insights of Oracle Analytics Cloud Usage via OCI Logging
Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4py-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4py-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты
Oracle
Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Incremental Migration of Catalog Objects in Oracle Analytics
This blog describes how you can migrate catalog objects incrementally using Oracle Analytics Web services and a handy Python script.
Read: https://blogs.oracle.com/analytics/post/incremental-migration-of-catalog-objects-in-oracle-analytics
@big_data_analysis
___
Другие наши проекты
This blog describes how you can migrate catalog objects incrementally using Oracle Analytics Web services and a handy Python script.
Read: https://blogs.oracle.com/analytics/post/incremental-migration-of-catalog-objects-in-oracle-analytics
@big_data_analysis
___
Другие наши проекты
Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored in OCI Object Storage
In this post, I provide an overview and examples of creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Read: https://blogs.oracle.com/analytics/post/unlock-the-power-of-your-data-seamlessly-create-and-refresh-datasets-from-files-stored-oci-object-storage
@big_data_analysis
___
Другие наши проекты
In this post, I provide an overview and examples of creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Read: https://blogs.oracle.com/analytics/post/unlock-the-power-of-your-data-seamlessly-create-and-refresh-datasets-from-files-stored-oci-object-storage
@big_data_analysis
___
Другие наши проекты
Oracle
Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored OCI Object Storage
In this post I will provide an overview and examples on creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Книга: «Антипаттерны SQL. Как избежать ловушек при работе с базами данных»
Привет, Хаброжители!
Язык SQL необходим для работы со структурированными данными. Программисты, прекрасно знающие свой любимый язык (Java, Python или Go), не могут разбираться во всем, и часто не являются экспертами в SQL. Это приводит к появлению антипаттернов — решений, которые на первый взгляд кажутся правильными, но со временем создают все больше проблем.
Научитесь выявлять и обходить многие из этих распространенных ловушек! Проведите рефакторинг унаследованного кошмара и превратите его в жизнеспособную модель данных!
Примеры SQL-кода основаны на версии MySQL 8.0, но в тексте также упоминаются другие популярные РСУБД. В примерах кода используется Python 3.9+ или Ruby 2.7+.
Читать: https://habr.com/ru/companies/piter/articles/819423/
@big_data_analysis
___
Другие наши проекты
Привет, Хаброжители!
Язык SQL необходим для работы со структурированными данными. Программисты, прекрасно знающие свой любимый язык (Java, Python или Go), не могут разбираться во всем, и часто не являются экспертами в SQL. Это приводит к появлению антипаттернов — решений, которые на первый взгляд кажутся правильными, но со временем создают все больше проблем.
Научитесь выявлять и обходить многие из этих распространенных ловушек! Проведите рефакторинг унаследованного кошмара и превратите его в жизнеспособную модель данных!
Примеры SQL-кода основаны на версии MySQL 8.0, но в тексте также упоминаются другие популярные РСУБД. В примерах кода используется Python 3.9+ или Ruby 2.7+.
Читать: https://habr.com/ru/companies/piter/articles/819423/
@big_data_analysis
___
Другие наши проекты
Python Essentials for Data Engineers
Read: https://www.startdataengineering.com/post/python-for-de/
@big_data_analysis
___
Другие наши проекты
Read: https://www.startdataengineering.com/post/python-for-de/
@big_data_analysis
___
Другие наши проекты
Коннектор ADB-TO-ADB
По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum.
Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.
В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых, гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами.
Но обо всем по порядку.
Читать: https://habr.com/ru/companies/arenadata/articles/818733/
@big_data_analysis
___
Другие наши проекты
По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum.
Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.
В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых, гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами.
Но обо всем по порядку.
Читать: https://habr.com/ru/companies/arenadata/articles/818733/
@big_data_analysis
___
Другие наши проекты
Оптимизация настроек Kafka кластера. Часть 3. Сравнительное тестирование, мониторинг и тонкая настройка Kafka кластера
Привет, Хабр! Представляю вам третью (заключительную) часть серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую и вторую части). Это перевод руководства от Confluent. Сегодняшняя статья посвящена сравнительному тестированию настроек и мониторингу Kafka кластера.
Читать: https://habr.com/ru/articles/819677/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Представляю вам третью (заключительную) часть серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую и вторую части). Это перевод руководства от Confluent. Сегодняшняя статья посвящена сравнительному тестированию настроек и мониторингу Kafka кластера.
Читать: https://habr.com/ru/articles/819677/
@big_data_analysis
___
Другие наши проекты
E2E-тестирование Flink Job с Kafka
Привет, Хабр! С вами Александр Бобряков, техлид в команде МТС Аналитики. Я к вам с новой статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как создать Unit-тест на полноценную джобу Flink и отдельные stateful-операторы с использованием Flink MiniCluster. Ещё мы научились запускать мини-кластер один раз перед всеми тестовыми классами, которые нуждаются в нём. В дополнение создали вспомогательные абстракции и аннотации, значительно разделяя ответственность в тестах и упрощая логику написания новых тестов.
В предыдущих тестах на джобу мы не затрагивали интеграцию с Kafka, ведь нам были не важны реальные source и sink. В этой статье продолжим разбираться в тестировании и напишем полноценный E2E-тест, который охватит Kafka и Flink вместе с использованием Testcontainers. Также рассмотрим неочевидные проблемы в тестировании и новые универсальные абстракции.
Читать: https://habr.com/ru/companies/ru_mts/articles/819681/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! С вами Александр Бобряков, техлид в команде МТС Аналитики. Я к вам с новой статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как создать Unit-тест на полноценную джобу Flink и отдельные stateful-операторы с использованием Flink MiniCluster. Ещё мы научились запускать мини-кластер один раз перед всеми тестовыми классами, которые нуждаются в нём. В дополнение создали вспомогательные абстракции и аннотации, значительно разделяя ответственность в тестах и упрощая логику написания новых тестов.
В предыдущих тестах на джобу мы не затрагивали интеграцию с Kafka, ведь нам были не важны реальные source и sink. В этой статье продолжим разбираться в тестировании и напишем полноценный E2E-тест, который охватит Kafka и Flink вместе с использованием Testcontainers. Также рассмотрим неочевидные проблемы в тестировании и новые универсальные абстракции.
Читать: https://habr.com/ru/companies/ru_mts/articles/819681/
@big_data_analysis
___
Другие наши проекты
Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и в этой статье я расскажу про разные способы векторизации текстов.
Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе.
О чем эта статья:
Читать: https://habr.com/ru/articles/820159/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и в этой статье я расскажу про разные способы векторизации текстов.
Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе.
О чем эта статья:
Читать: https://habr.com/ru/articles/820159/
@big_data_analysis
___
Другие наши проекты
Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.
Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.
Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:
1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.
К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.
Читать: https://habr.com/ru/articles/820411/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.
Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.
Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:
1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.
К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.
Читать: https://habr.com/ru/articles/820411/
@big_data_analysis
___
Другие наши проекты
Как маскировка данных спасает вашу приватность
Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.
Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.
Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.
Читать: https://habr.com/ru/companies/neoflex/articles/820333/
@big_data_analysis
___
Другие наши проекты
Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.
Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.
Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.
Читать: https://habr.com/ru/companies/neoflex/articles/820333/
@big_data_analysis
___
Другие наши проекты
OCI AI Vision Facial Detection in Oracle Analytics Cloud
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты
Open source GreenPlum: а что дальше?
Наверняка, многие уже слышали, что новый правообладатель GreenPlum – компания Broadcom – перевела репозитории с открытым исходным кодом на GitHub в архивный статус.
Новые версии оригинального ядра, вероятнее всего, уже не будут выкладываться в публичный доступ, а начнут появляться только в коммерческой версии продукта. Это касается и 6-й, и 7-й версии.
Версии ядра, которые были выложены в open source на момент закрытия репозитория, остались под лицензией Apache 2.0, и их можно легально использовать. Но в оригинальном репозитории не осталось веток, тегов и дистрибутивов.
Мы – ГК “ГлоуБайт” – уже больше двух лет развиваем инструменты над open source GreenPlum 6 и выкладываем их в открытый доступ под лицензией Apache 2.0. Об это мы писали статью, в которой прикладывали ссылки на все наши open source репозитории.
Для сборки исходных кодов GreenPlum и дополнительных утилит мы использовали свои пайплайны и зеркала оригинального репозитория GreenPlum.
Сегодня мы решили перевести эти репозитории в открытый доступ на нашем GitLab.
Читать: https://habr.com/ru/companies/glowbyte/articles/821001/
@big_data_analysis
___
Другие наши проекты
Наверняка, многие уже слышали, что новый правообладатель GreenPlum – компания Broadcom – перевела репозитории с открытым исходным кодом на GitHub в архивный статус.
Новые версии оригинального ядра, вероятнее всего, уже не будут выкладываться в публичный доступ, а начнут появляться только в коммерческой версии продукта. Это касается и 6-й, и 7-й версии.
Версии ядра, которые были выложены в open source на момент закрытия репозитория, остались под лицензией Apache 2.0, и их можно легально использовать. Но в оригинальном репозитории не осталось веток, тегов и дистрибутивов.
Мы – ГК “ГлоуБайт” – уже больше двух лет развиваем инструменты над open source GreenPlum 6 и выкладываем их в открытый доступ под лицензией Apache 2.0. Об это мы писали статью, в которой прикладывали ссылки на все наши open source репозитории.
Для сборки исходных кодов GreenPlum и дополнительных утилит мы использовали свои пайплайны и зеркала оригинального репозитория GreenPlum.
Сегодня мы решили перевести эти репозитории в открытый доступ на нашем GitLab.
Читать: https://habr.com/ru/companies/glowbyte/articles/821001/
@big_data_analysis
___
Другие наши проекты
MCD-rPPG: на одной волне с телемедициной
Современные методы бесконтактной оценки медицинских параметров позволяют по видеопотоку с камеры определять, какой у человека пульс. Для решения таких задач методами машинного обучения нужны данные, и коллеги из СамГМУ подготовили уникальный датасет MCD-rPPG, который содержит видеозаписи людей и их фотоплетизмограммы, а также сопутствующую информацию медицинского характера. Я подробно расскажу про эти данные и покажу первые результаты простых моделей, которые были получены в рамках моей стажировки в центре медицины Sber AI Lab.
Надеюсь, что всем ML-исследователям, и особенно тем, кто увлекается компьютерным зрением, будет интересно поэкспериментировать с этим датасетом и сравнить результаты с нашими бейзлайнами.
Читать: https://habr.com/ru/articles/821015/
@big_data_analysis
___
Другие наши проекты
Современные методы бесконтактной оценки медицинских параметров позволяют по видеопотоку с камеры определять, какой у человека пульс. Для решения таких задач методами машинного обучения нужны данные, и коллеги из СамГМУ подготовили уникальный датасет MCD-rPPG, который содержит видеозаписи людей и их фотоплетизмограммы, а также сопутствующую информацию медицинского характера. Я подробно расскажу про эти данные и покажу первые результаты простых моделей, которые были получены в рамках моей стажировки в центре медицины Sber AI Lab.
Надеюсь, что всем ML-исследователям, и особенно тем, кто увлекается компьютерным зрением, будет интересно поэкспериментировать с этим датасетом и сравнить результаты с нашими бейзлайнами.
Читать: https://habr.com/ru/articles/821015/
@big_data_analysis
___
Другие наши проекты
Decision-making Apps to Help You Decrease Noise and Bias
Although noise and bias in decision-making can’t be avoided completely, they can be effectively minimized with the help of mobile apps.
Read: https://www.scnsoft.com/software-development/decreasing-noise-and-bias-in-business-decision-making-with-a-mobile-app
@big_data_analysis
___
Другие наши проекты
Although noise and bias in decision-making can’t be avoided completely, they can be effectively minimized with the help of mobile apps.
Read: https://www.scnsoft.com/software-development/decreasing-noise-and-bias-in-business-decision-making-with-a-mobile-app
@big_data_analysis
___
Другие наши проекты
Build Data Engineering Projects, with Free Template
Read: https://www.startdataengineering.com/post/data-engineering-projects-with-free-template/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Read: https://www.startdataengineering.com/post/data-engineering-projects-with-free-template/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma
В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.
Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.
Коротко о чем статья:
Читать: https://habr.com/ru/companies/itsumma/articles/821377/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.
Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.
Коротко о чем статья:
Читать: https://habr.com/ru/companies/itsumma/articles/821377/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?
Читать: https://habr.com/ru/companies/uchi_ru/articles/821463/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?
Читать: https://habr.com/ru/companies/uchi_ru/articles/821463/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Простая документация с dbt: Упрощение документирования хранилищ данных
Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы
К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.
Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе
Читать: https://habr.com/ru/articles/821503/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы
orders_final_v1
? Или как отличить user_uuid
от user_id
? Любой специалист по данным может понять эти ощущения.К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.
Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе
Читать: https://habr.com/ru/articles/821503/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
👍1