Building cost effective data pipelines with Python & DuckDB
Read: https://www.startdataengineering.com/post/cost-effective-pipelines/
@big_data_analysis
___
Другие наши проекты
Read: https://www.startdataengineering.com/post/cost-effective-pipelines/
@big_data_analysis
___
Другие наши проекты
Reformer на TRAX?
Что такое Reformer и почему он круче Transformer’a (GPT-4...)?
Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов.
В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности.
Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.
Читать: https://habr.com/ru/articles/818521/
@big_data_analysis
___
Другие наши проекты
Что такое Reformer и почему он круче Transformer’a (GPT-4...)?
Давайте предварительно начнем с того, что же такой Reformer и почему благодаря ему мы можем рассчитывать на расширение контекстов вплоть до десятков тысяч слов.
В классической архитектуре Transformer механизм внимания работает со сложностью, которая масштабируется квадратично с увеличением длины последовательности.
Это происходит потому, что каждый токен в последовательности должен вычислять оценки внимания со всеми другими токенами, что приводит к плотной матрице внимания, размер которой растет с квадратом длины последовательности – мрак для вычислительных способностей наших TPU и GPU.
Читать: https://habr.com/ru/articles/818521/
@big_data_analysis
___
Другие наши проекты
👍2
Разработка системы отчётности и BI: вопросы производительности
Мы в компании «Магнит» много лет строим и эксплуатируем корпоративное хранилище данных и занимаемся различными задачами, связанными с этим. В частности, разрабатываем инструмент для конечного пользователя — систему отчётности и BI.
В статье рассмотрим вопросы оптимизации производительности системы.
Читать: https://habr.com/ru/companies/magnit/articles/815667/
@big_data_analysis
___
Другие наши проекты
Мы в компании «Магнит» много лет строим и эксплуатируем корпоративное хранилище данных и занимаемся различными задачами, связанными с этим. В частности, разрабатываем инструмент для конечного пользователя — систему отчётности и BI.
В статье рассмотрим вопросы оптимизации производительности системы.
Читать: https://habr.com/ru/companies/magnit/articles/815667/
@big_data_analysis
___
Другие наши проекты
dbt(Data Build Tool) Tutorial
Read: https://www.startdataengineering.com/post/dbt-data-build-tool-tutorial/
@big_data_analysis
___
Другие наши проекты
Read: https://www.startdataengineering.com/post/dbt-data-build-tool-tutorial/
@big_data_analysis
___
Другие наши проекты
🙏2⚡1👍1
Как построить AI-сервис и не прогореть на этом
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф. Зачастую на старте создания сервисов люди концентрируются на вещах, которые стоит делать в самую последнюю очередь, после чего теряют кучу времени на расхлёбывание проблем.
В нашей статье мы рассказываем о том, как построить сервис с AI, а именно с диффузионной моделью, когда нужно обучать модель, как нужно обучать, и что делать если не можете обучить модель, также делимся ценным опытом предобработки данных и практическими советами, как начать с базовых решений и только при необходимости переходить к более сложным методам.
Узнайте, как существующие ИИ-инструменты могут уже сейчас удовлетворить ваши потребности, сохраняя высокое качество продукта.
Читать: https://habr.com/ru/articles/818825/
@big_data_analysis
___
Другие наши проекты
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф. Зачастую на старте создания сервисов люди концентрируются на вещах, которые стоит делать в самую последнюю очередь, после чего теряют кучу времени на расхлёбывание проблем.
В нашей статье мы рассказываем о том, как построить сервис с AI, а именно с диффузионной моделью, когда нужно обучать модель, как нужно обучать, и что делать если не можете обучить модель, также делимся ценным опытом предобработки данных и практическими советами, как начать с базовых решений и только при необходимости переходить к более сложным методам.
Узнайте, как существующие ИИ-инструменты могут уже сейчас удовлетворить ваши потребности, сохраняя высокое качество продукта.
Читать: https://habr.com/ru/articles/818825/
@big_data_analysis
___
Другие наши проекты
Оптимизация настроек Kafka кластера. Часть 2. Механизмы управления задержкой, надежностью и доступностью
Привет, Хабр! Представляю вам вторую часть из серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую часть). Это перевод руководства от Confluent. Сегодняшняя статья посвящена тому, как уменьшить задержку и повысить надежность и доступность. Заключительная третья часть будет посвящена мониторингу и бенчмаркингу.
Читать: https://habr.com/ru/articles/819243/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Представляю вам вторую часть из серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую часть). Это перевод руководства от Confluent. Сегодняшняя статья посвящена тому, как уменьшить задержку и повысить надежность и доступность. Заключительная третья часть будет посвящена мониторингу и бенчмаркингу.
Читать: https://habr.com/ru/articles/819243/
@big_data_analysis
___
Другие наши проекты
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function по генерации
Ниже я предлагаю вашему вниманию результаты своих изысканий по созданию собственных Spark Native Functions, которые бы принимали на вход несколько аргументов.
Читать: https://habr.com/ru/articles/816997/
@big_data_analysis
___
Другие наши проекты
В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function по генерации
UID
. Это, конечно, здорово, но вот только данная функция не принимает аргументы на вход, в то время как в реальной практике нам требуются обычно функции, которым надо передать на вход 1, 2 или 3 аргумента. Такие случаи не рассматриваются в упомянутой выше переводной статье - ну что ж, попробуем восполнить этот пробел!Ниже я предлагаю вашему вниманию результаты своих изысканий по созданию собственных Spark Native Functions, которые бы принимали на вход несколько аргументов.
Читать: https://habr.com/ru/articles/816997/
@big_data_analysis
___
Другие наши проекты
👍1
Usage Insights for Oracle Analytics Cloud using OCI Logging
Read this article to gain insights about Oracle Analytics Cloud usage with OCI Logging.
Read: https://blogs.oracle.com/analytics/post/insights-of-oracle-analytics-cloud-usage-via-oci-logging
@big_data_analysis
___
Другие наши проекты
Read this article to gain insights about Oracle Analytics Cloud usage with OCI Logging.
Read: https://blogs.oracle.com/analytics/post/insights-of-oracle-analytics-cloud-usage-via-oci-logging
@big_data_analysis
___
Другие наши проекты
Oracle
Insights of Oracle Analytics Cloud Usage via OCI Logging
This blogs for Insights of Oracle Analytics Cloud Usage via OCI Logging
Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4py-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4py-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты
Oracle
Building Oracle Machine Learning Models with OML4Py and Deploying in Oracle Analytics Cloud
This article guides you through the second approach (Oracle Machine Learning Models). Specifically, how to use Oracle Machine Learning for Python (OML4Py) to train and test models in the database and deploy them in OAC.
Incremental Migration of Catalog Objects in Oracle Analytics
This blog describes how you can migrate catalog objects incrementally using Oracle Analytics Web services and a handy Python script.
Read: https://blogs.oracle.com/analytics/post/incremental-migration-of-catalog-objects-in-oracle-analytics
@big_data_analysis
___
Другие наши проекты
This blog describes how you can migrate catalog objects incrementally using Oracle Analytics Web services and a handy Python script.
Read: https://blogs.oracle.com/analytics/post/incremental-migration-of-catalog-objects-in-oracle-analytics
@big_data_analysis
___
Другие наши проекты
Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored in OCI Object Storage
In this post, I provide an overview and examples of creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Read: https://blogs.oracle.com/analytics/post/unlock-the-power-of-your-data-seamlessly-create-and-refresh-datasets-from-files-stored-oci-object-storage
@big_data_analysis
___
Другие наши проекты
In this post, I provide an overview and examples of creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Read: https://blogs.oracle.com/analytics/post/unlock-the-power-of-your-data-seamlessly-create-and-refresh-datasets-from-files-stored-oci-object-storage
@big_data_analysis
___
Другие наши проекты
Oracle
Unlock the Power of Your Data: Seamlessly Create and Refresh Datasets from Files Stored OCI Object Storage
In this post I will provide an overview and examples on creating datasets from files stored in Oracle Cloud Infrastructure (OCI) Object Storage.
Книга: «Антипаттерны SQL. Как избежать ловушек при работе с базами данных»
Привет, Хаброжители!
Язык SQL необходим для работы со структурированными данными. Программисты, прекрасно знающие свой любимый язык (Java, Python или Go), не могут разбираться во всем, и часто не являются экспертами в SQL. Это приводит к появлению антипаттернов — решений, которые на первый взгляд кажутся правильными, но со временем создают все больше проблем.
Научитесь выявлять и обходить многие из этих распространенных ловушек! Проведите рефакторинг унаследованного кошмара и превратите его в жизнеспособную модель данных!
Примеры SQL-кода основаны на версии MySQL 8.0, но в тексте также упоминаются другие популярные РСУБД. В примерах кода используется Python 3.9+ или Ruby 2.7+.
Читать: https://habr.com/ru/companies/piter/articles/819423/
@big_data_analysis
___
Другие наши проекты
Привет, Хаброжители!
Язык SQL необходим для работы со структурированными данными. Программисты, прекрасно знающие свой любимый язык (Java, Python или Go), не могут разбираться во всем, и часто не являются экспертами в SQL. Это приводит к появлению антипаттернов — решений, которые на первый взгляд кажутся правильными, но со временем создают все больше проблем.
Научитесь выявлять и обходить многие из этих распространенных ловушек! Проведите рефакторинг унаследованного кошмара и превратите его в жизнеспособную модель данных!
Примеры SQL-кода основаны на версии MySQL 8.0, но в тексте также упоминаются другие популярные РСУБД. В примерах кода используется Python 3.9+ или Ruby 2.7+.
Читать: https://habr.com/ru/companies/piter/articles/819423/
@big_data_analysis
___
Другие наши проекты
Python Essentials for Data Engineers
Read: https://www.startdataengineering.com/post/python-for-de/
@big_data_analysis
___
Другие наши проекты
Read: https://www.startdataengineering.com/post/python-for-de/
@big_data_analysis
___
Другие наши проекты
Коннектор ADB-TO-ADB
По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum.
Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.
В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых, гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами.
Но обо всем по порядку.
Читать: https://habr.com/ru/companies/arenadata/articles/818733/
@big_data_analysis
___
Другие наши проекты
По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum.
Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.
В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых, гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами.
Но обо всем по порядку.
Читать: https://habr.com/ru/companies/arenadata/articles/818733/
@big_data_analysis
___
Другие наши проекты
Оптимизация настроек Kafka кластера. Часть 3. Сравнительное тестирование, мониторинг и тонкая настройка Kafka кластера
Привет, Хабр! Представляю вам третью (заключительную) часть серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую и вторую части). Это перевод руководства от Confluent. Сегодняшняя статья посвящена сравнительному тестированию настроек и мониторингу Kafka кластера.
Читать: https://habr.com/ru/articles/819677/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Представляю вам третью (заключительную) часть серии статей, посвященных оптимизации развертывания Kafka кластера (ссылка на первую и вторую части). Это перевод руководства от Confluent. Сегодняшняя статья посвящена сравнительному тестированию настроек и мониторингу Kafka кластера.
Читать: https://habr.com/ru/articles/819677/
@big_data_analysis
___
Другие наши проекты
E2E-тестирование Flink Job с Kafka
Привет, Хабр! С вами Александр Бобряков, техлид в команде МТС Аналитики. Я к вам с новой статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как создать Unit-тест на полноценную джобу Flink и отдельные stateful-операторы с использованием Flink MiniCluster. Ещё мы научились запускать мини-кластер один раз перед всеми тестовыми классами, которые нуждаются в нём. В дополнение создали вспомогательные абстракции и аннотации, значительно разделяя ответственность в тестах и упрощая логику написания новых тестов.
В предыдущих тестах на джобу мы не затрагивали интеграцию с Kafka, ведь нам были не важны реальные source и sink. В этой статье продолжим разбираться в тестировании и напишем полноценный E2E-тест, который охватит Kafka и Flink вместе с использованием Testcontainers. Также рассмотрим неочевидные проблемы в тестировании и новые универсальные абстракции.
Читать: https://habr.com/ru/companies/ru_mts/articles/819681/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! С вами Александр Бобряков, техлид в команде МТС Аналитики. Я к вам с новой статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как создать Unit-тест на полноценную джобу Flink и отдельные stateful-операторы с использованием Flink MiniCluster. Ещё мы научились запускать мини-кластер один раз перед всеми тестовыми классами, которые нуждаются в нём. В дополнение создали вспомогательные абстракции и аннотации, значительно разделяя ответственность в тестах и упрощая логику написания новых тестов.
В предыдущих тестах на джобу мы не затрагивали интеграцию с Kafka, ведь нам были не важны реальные source и sink. В этой статье продолжим разбираться в тестировании и напишем полноценный E2E-тест, который охватит Kafka и Flink вместе с использованием Testcontainers. Также рассмотрим неочевидные проблемы в тестировании и новые универсальные абстракции.
Читать: https://habr.com/ru/companies/ru_mts/articles/819681/
@big_data_analysis
___
Другие наши проекты
Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и в этой статье я расскажу про разные способы векторизации текстов.
Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе.
О чем эта статья:
Читать: https://habr.com/ru/articles/820159/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и в этой статье я расскажу про разные способы векторизации текстов.
Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе.
О чем эта статья:
Читать: https://habr.com/ru/articles/820159/
@big_data_analysis
___
Другие наши проекты
Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.
Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.
Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:
1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.
К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.
Читать: https://habr.com/ru/articles/820411/
@big_data_analysis
___
Другие наши проекты
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.
Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.
Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:
1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.
К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.
Читать: https://habr.com/ru/articles/820411/
@big_data_analysis
___
Другие наши проекты
Как маскировка данных спасает вашу приватность
Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.
Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.
Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.
Читать: https://habr.com/ru/companies/neoflex/articles/820333/
@big_data_analysis
___
Другие наши проекты
Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.
Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.
Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.
Читать: https://habr.com/ru/companies/neoflex/articles/820333/
@big_data_analysis
___
Другие наши проекты
OCI AI Vision Facial Detection in Oracle Analytics Cloud
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты
This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.
Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac
@big_data_analysis
___
Другие наши проекты