Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma
В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.
Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.
Коротко о чем статья:
Читать: https://habr.com/ru/companies/itsumma/articles/821377/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.
Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.
Коротко о чем статья:
Читать: https://habr.com/ru/companies/itsumma/articles/821377/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?
Читать: https://habr.com/ru/companies/uchi_ru/articles/821463/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?
Читать: https://habr.com/ru/companies/uchi_ru/articles/821463/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Простая документация с dbt: Упрощение документирования хранилищ данных
Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы
К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.
Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе
Читать: https://habr.com/ru/articles/821503/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы
orders_final_v1
? Или как отличить user_uuid
от user_id
? Любой специалист по данным может понять эти ощущения.К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.
Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе
Читать: https://habr.com/ru/articles/821503/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
👍1
Автопереобучение моделей в Production
Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое переобучение моделей в продакшене решает эту проблему, обеспечивая обновление и улучшение моделей без значительных временных затрат.
В этой статье мы рассмотрим процесс автоматического переобучения моделей ML в продакшене, используя инструменты MLOps. Обсудим интеграцию таких инструментов, как AirFlow и Spark, с CI/CD пайплайнами, а также создание конфигурационного модуля, позволяющего разработчикам сосредоточиться на моделях, не углубляясь в инфраструктурные детали.
Читать: https://habr.com/ru/companies/alfa/articles/821447/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое переобучение моделей в продакшене решает эту проблему, обеспечивая обновление и улучшение моделей без значительных временных затрат.
В этой статье мы рассмотрим процесс автоматического переобучения моделей ML в продакшене, используя инструменты MLOps. Обсудим интеграцию таких инструментов, как AirFlow и Spark, с CI/CD пайплайнами, а также создание конфигурационного модуля, позволяющего разработчикам сосредоточиться на моделях, не углубляясь в инфраструктурные детали.
Читать: https://habr.com/ru/companies/alfa/articles/821447/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Data Engineering Project for Beginners - Batch edition
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-batch-edition/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Read: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-batch-edition/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Лучшие библиотеки Python для Data Science в 2024 году
Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию.
Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.
Читать: https://habr.com/ru/companies/productstar/articles/821847/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию.
Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.
Читать: https://habr.com/ru/companies/productstar/articles/821847/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
OCI AI Vision Facial Detection in Oracle Analytics Cloud
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Краеугольные камни ClickHouse
Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.
Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?
Статья рассчитана на тех, кто только знакомится с ClickHouse.
Читать: https://habr.com/ru/companies/wildberries/articles/821865/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.
Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?
Статья рассчитана на тех, кто только знакомится с ClickHouse.
Читать: https://habr.com/ru/companies/wildberries/articles/821865/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Data Engineering Projects
Read: https://www.startdataengineering.com/post/data-engineering-projects/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Read: https://www.startdataengineering.com/post/data-engineering-projects/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Интеграция LLM в корпоративное хранилище данных
В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.
Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.
Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.
Читать: https://habr.com/ru/articles/822771/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.
Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.
Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.
Читать: https://habr.com/ru/articles/822771/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Повышаем Data Quality: щепотка Soda для ваших данных
Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.
Читать: https://habr.com/ru/companies/banki/articles/822601/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.
Читать: https://habr.com/ru/companies/banki/articles/822601/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Building Models with OML4R and Deploying them in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4r-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4r-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle
Building Oracle Machine Learning Models with OML4R and Deploying in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test…
Use Custom Hostnames for Oracle Fusion Analytics
Custom hostnames for Oracle Fusion Analytics series overview.
Read: https://blogs.oracle.com/analytics/post/use-custom-hostnames-for-oracle-fusion-analytics
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Custom hostnames for Oracle Fusion Analytics series overview.
Read: https://blogs.oracle.com/analytics/post/use-custom-hostnames-for-oracle-fusion-analytics
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Get Started with Oracle Analytics Cloud APIs
Learn how to use the OAC Public REST APIs with a Postman Collection.
Read: https://blogs.oracle.com/analytics/post/get-started-with-oracle-analytics-cloud-apis
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Learn how to use the OAC Public REST APIs with a Postman Collection.
Read: https://blogs.oracle.com/analytics/post/get-started-with-oracle-analytics-cloud-apis
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle
Get Started with Oracle Analytics Cloud APIs
Learn how to use the OAC Public REST APIs with a Postman Collection.
Внедрение Business Intelligence с нуля — первые шаги
Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)
В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.
Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".
Популярным подходом к управлению по KPI является сбалансированная система показателей (Balances Scorecards, BCS), предложенная Р. Капланом и Д. Нортоном "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.
Читать: https://habr.com/ru/articles/824268/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)
В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.
Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".
Популярным подходом к управлению по KPI является сбалансированная система показателей (Balances Scorecards, BCS), предложенная Р. Капланом и Д. Нортоном "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.
Читать: https://habr.com/ru/articles/824268/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
👍3
Почему Starburst Icehouse подходит не всем
Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она отличается от любой другой архитектуры Data Lakehouse?». Команда VK Cloud перевела статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и почему она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.
Читать: https://habr.com/ru/companies/vk/articles/824258/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она отличается от любой другой архитектуры Data Lakehouse?». Команда VK Cloud перевела статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и почему она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.
Читать: https://habr.com/ru/companies/vk/articles/824258/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Почему стоит использовать Apache Airflow?
Apache Airflow — это мощный инструмент для управления сложными данными. Он позволяет удобно планировать задачи, упорядочивать их выполненеие и анализировать результаты с помощью визуального интерфейса. Узнайте больше о фичах, которые помогут эффективно управлять данными!
Читать подробнее
___
Другие наши проекты
Apache Airflow — это мощный инструмент для управления сложными данными. Он позволяет удобно планировать задачи, упорядочивать их выполненеие и анализировать результаты с помощью визуального интерфейса. Узнайте больше о фичах, которые помогут эффективно управлять данными!
Читать подробнее
___
Другие наши проекты
👍1
Создание и обработка Excel файлов с использованием Python
Всем привет! Работа с Excel файлами — одна из частых задач, встречающихся в повседневной разработке. В этой статье рассмотрим, как с помощью Python можно создавать, заполнять, и стилизовать Excel файлы. Для этого мы будем использовать библиотеки pandas, openpyxl и faker (для тестов).
Читать: https://habr.com/ru/articles/824050/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Всем привет! Работа с Excel файлами — одна из частых задач, встречающихся в повседневной разработке. В этой статье рассмотрим, как с помощью Python можно создавать, заполнять, и стилизовать Excel файлы. Для этого мы будем использовать библиотеки pandas, openpyxl и faker (для тестов).
Читать: https://habr.com/ru/articles/824050/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
strtree — классификатор строк на основе регулярных выражений
Вы хотите найти короткие регулярные выражения, полно и точно отделяющие один класс строк от другого? Это статья для вас. Мы поговорим про задачу классификации строк с помощью автоматически определяемых паттернов, а в конце я предоставлю пример такой процедуры с кодом на Python. Пользоваться мы будем небольшой open-source библиотекой strtree.
Читать: https://habr.com/ru/articles/824544/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Вы хотите найти короткие регулярные выражения, полно и точно отделяющие один класс строк от другого? Это статья для вас. Мы поговорим про задачу классификации строк с помощью автоматически определяемых паттернов, а в конце я предоставлю пример такой процедуры с кодом на Python. Пользоваться мы будем небольшой open-source библиотекой strtree.
Читать: https://habr.com/ru/articles/824544/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Восстановление после сбоев Oracle Analytics Server на Oracle Cloud
В статье обсуждается использование инструмента OCI Full Stack Disaster Recovery для обеспечения непрерывной работы Oracle Analytics Server в облаке Oracle. Решение позволяет быстро восстановить данные и минимизировать потери при сбоях.
Читать подробнее
___
Другие наши проекты
В статье обсуждается использование инструмента OCI Full Stack Disaster Recovery для обеспечения непрерывной работы Oracle Analytics Server в облаке Oracle. Решение позволяет быстро восстановить данные и минимизировать потери при сбоях.
Читать подробнее
___
Другие наши проекты
Oracle
Disaster Recovery of Oracle Analytics Server on Oracle Cloud using OCI Full Stack Disaster Recovery