Как настроить Source коннекторы Kafka Connect для оптимизации пропускной способности
Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.
Читать: https://habr.com/ru/articles/809191/
@big_data_analysis
Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.
Читать: https://habr.com/ru/articles/809191/
@big_data_analysis
Гайд на собеседования
Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание?
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание?
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных
Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/809417/
@big_data_analysis
Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/809417/
@big_data_analysis
👍1
Почему решения принимаются не на основе дашбордов?
Чем похожи дашборд и рекламный баннер?
У нас упала конверсия из просмотров в клики! У нас не продаются товары! Два йогурта по цене одного! Оба привлекают внимание, содержат и картинки, и текст и реже, чем хотелось бы, приводят к действию.
Читать: https://habr.com/ru/articles/809449/
@big_data_analysis
Чем похожи дашборд и рекламный баннер?
У нас упала конверсия из просмотров в клики! У нас не продаются товары! Два йогурта по цене одного! Оба привлекают внимание, содержат и картинки, и текст и реже, чем хотелось бы, приводят к действию.
Читать: https://habr.com/ru/articles/809449/
@big_data_analysis
❤1
Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@big_data_analysis
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@big_data_analysis
Docker Fundamentals for Data Engineers
Read: https://www.startdataengineering.com/post/docker-for-de/
@big_data_analysis
Read: https://www.startdataengineering.com/post/docker-for-de/
@big_data_analysis
👍1
«Я знаю о тебе все и даже больше»: как создать единый профиль клиента с помощью IDGraph
Как часто вы совершаете спонтанные покупки или, увидев неожиданное приятное предложение от банка, соглашаетесь на кредитную карту (а ведь еще недавно погасили задолженность и зарекались не брать новую)? Финансовая организация точно рассчитала время, когда предложить вам кредитку. Кажется, это всего лишь совпадение: оффер от банка совпал с поломкой вашего автомобиля и покупкой дорогостоящих деталей. Но поспешим вас огорчить, а если вы маркетолог, то, наоборот, порадовать. Перед нами лишь результат глубокого анализа данных. Как это работает на практике, в новой статье CleverData под катом.
Читать: https://habr.com/ru/companies/lanit/articles/807765/
@big_data_analysis
Как часто вы совершаете спонтанные покупки или, увидев неожиданное приятное предложение от банка, соглашаетесь на кредитную карту (а ведь еще недавно погасили задолженность и зарекались не брать новую)? Финансовая организация точно рассчитала время, когда предложить вам кредитку. Кажется, это всего лишь совпадение: оффер от банка совпал с поломкой вашего автомобиля и покупкой дорогостоящих деталей. Но поспешим вас огорчить, а если вы маркетолог, то, наоборот, порадовать. Перед нами лишь результат глубокого анализа данных. Как это работает на практике, в новой статье CleverData под катом.
Читать: https://habr.com/ru/companies/lanit/articles/807765/
@big_data_analysis
Векторные базы данных: простым языком про устройство и принцип работы
Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.
Читать: https://habr.com/ru/companies/tochka/articles/809493/
@big_data_analysis
Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.
Читать: https://habr.com/ru/companies/tochka/articles/809493/
@big_data_analysis
How to test PySpark code with pytest
Read: https://www.startdataengineering.com/post/test-pyspark/
@big_data_analysis
Read: https://www.startdataengineering.com/post/test-pyspark/
@big_data_analysis
Towards optimal experimentation in online systems
Read: https://www.unofficialgoogledatascience.com/2024/04/towards-optimal-experimentation-in.html
@big_data_analysis
Read: https://www.unofficialgoogledatascience.com/2024/04/towards-optimal-experimentation-in.html
@big_data_analysis
Почему стоит начать писать собственные Spark Native Functions?
Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.
Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.
Кому интересно узнать, как писать Spark native функции - прошу под кат.
Читать: https://habr.com/ru/articles/809293/
@big_data_analysis
Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.
Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.
Кому интересно узнать, как писать Spark native функции - прошу под кат.
Читать: https://habr.com/ru/articles/809293/
@big_data_analysis
Яндекс Data Proc для ML: ускоряем Embedding на Spark
Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.
Читать: https://habr.com/ru/companies/banki/articles/810245/
@big_data_analysis
Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.
Читать: https://habr.com/ru/companies/banki/articles/810245/
@big_data_analysis
Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@big_data_analysis
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@big_data_analysis
Как настроить ETL с json’ами в Apache NiFi
Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи.
Что делает наша команда
Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию.
Описание задачи
У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить.
Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато.
Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации.
Читать: https://habr.com/ru/companies/beeline_tech/articles/809949/
@big_data_analysis
Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи.
Что делает наша команда
Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию.
Описание задачи
У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить.
Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато.
Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации.
Читать: https://habr.com/ru/companies/beeline_tech/articles/809949/
@big_data_analysis
👍2
Чтение на выходные: «Искусство быть невидимым. Как сохранить приватность в эпоху Big Data» Кевина Митника
Спойлер к проблеме из сегодняшнего заголовка: «Никак». Об этом мы и поговорим.
Кевин Митник — специалист по компьютерной безопасности. Тот самый человек, который способен научить сохранять конфиденциальность в интернете настолько, насколько это возможно. В свое время как хакер совершил ряд преступлений в сети, отсидел и вышел на свободу, поэтому почитать его будет особенно интересно.
Читать: https://habr.com/ru/companies/onlinepatent/articles/810765/
@big_data_analysis
Спойлер к проблеме из сегодняшнего заголовка: «Никак». Об этом мы и поговорим.
Кевин Митник — специалист по компьютерной безопасности. Тот самый человек, который способен научить сохранять конфиденциальность в интернете настолько, насколько это возможно. В свое время как хакер совершил ряд преступлений в сети, отсидел и вышел на свободу, поэтому почитать его будет особенно интересно.
Читать: https://habr.com/ru/companies/onlinepatent/articles/810765/
@big_data_analysis
👍2
Demystifying Machine Learning Algorithms in Oracle Analytics: a Guide to Choosing the Right Approach
This blog delves into the intricacies of these algorithms and describes when and how to use them effectively.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-ml-models
@big_data_analysis
This blog delves into the intricacies of these algorithms and describes when and how to use them effectively.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-ml-models
@big_data_analysis
Oracle
Demystifying Machine Learning Algorithms in Oracle Analytics: A Guide to Choosing the Right Approach
This blog delves into the intricacies of these algorithms and describes when and how to use them effectively.
Oracle Analytics Mobile Application for Oracle Analytics Server Configured with Single Sign-On using IAM App Gateway
Oracle Analytics mobile application for Oracle Analytics Server configured with single sign-on (SSO) using IAM App Gateway in OCI.
Read: https://blogs.oracle.com/analytics/post/oa-mob-app-for-oas-with-ag-sso
@big_data_analysis
Oracle Analytics mobile application for Oracle Analytics Server configured with single sign-on (SSO) using IAM App Gateway in OCI.
Read: https://blogs.oracle.com/analytics/post/oa-mob-app-for-oas-with-ag-sso
@big_data_analysis
Oracle
Oracle Analytics Mobile App for Oracle Analytics Server configured with Single Sign-On using IAM App Gateway
Oracle Analytics Mobile app for Oracle Analytics Server configured with single sign-on (SSO) using IAM App Gateway in OCI.
Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API
Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API
Read: https://blogs.oracle.com/analytics/post/oas-oap-run-schedule-rest-api
@big_data_analysis
Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API
Read: https://blogs.oracle.com/analytics/post/oas-oap-run-schedule-rest-api
@big_data_analysis
Oracle
Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API
Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration
Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration
Read: https://blogs.oracle.com/analytics/post/oas-silent-install-config
@big_data_analysis
Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration
Read: https://blogs.oracle.com/analytics/post/oas-silent-install-config
@big_data_analysis
Oracle
Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration
AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?
Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое?
Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.
Читать: https://habr.com/ru/articles/811037/
@big_data_analysis
Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое?
Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.
Читать: https://habr.com/ru/articles/811037/
@big_data_analysis