Forwarded from Школа Больших Данных
#Потоковая #обработка #EDA #LLM
Потоковая обработка данных и EDA-архитектура для LLM-систем
Почему генеративный ИИ основан на потоковой обработке данных и EDA-архитектуре, для чего оценивать качество LLM-модели и как построить такую систему мониторинга: подходы и технологии.
О важности потоковой обработки данных и EDA-архитектуры для LLM-систем
Все больше современных бизнес-приложений включают в себя большие языковые модели (LLM, Large Language Model), чтобы автоматизировать поддержку клиентов, анализ пользовательского поведения и работу с документацией.
Статья
Курсы: MLOPS PRUS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Потоковая обработка данных и EDA-архитектура для LLM-систем
Почему генеративный ИИ основан на потоковой обработке данных и EDA-архитектуре, для чего оценивать качество LLM-модели и как построить такую систему мониторинга: подходы и технологии.
О важности потоковой обработки данных и EDA-архитектуры для LLM-систем
Все больше современных бизнес-приложений включают в себя большие языковые модели (LLM, Large Language Model), чтобы автоматизировать поддержку клиентов, анализ пользовательского поведения и работу с документацией.
Статья
Курсы: MLOPS PRUS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Forwarded from Школа Больших Данных
ClickHouse vs Apache Doris: что выбрать для хранилища данных
Что такое Apache Doris, как его использовать для построения хранилища данных и чем это отличается от ClickHouse. Сценарии применения и критерии выбора основы DWH.
Что такое Apache Doris
Недавно мы рассматривали, почему ClickHouse подходит для реализации хранилища данных на основе эталонной архитектуры Medallion благодаря поддержке более 70 форматов файлов, материализованным представлениям и интеграциями со множеством внешних систем и ETL-инструментов.
Статья
Курсы: CLICH ARMG
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Что такое Apache Doris, как его использовать для построения хранилища данных и чем это отличается от ClickHouse. Сценарии применения и критерии выбора основы DWH.
Что такое Apache Doris
Недавно мы рассматривали, почему ClickHouse подходит для реализации хранилища данных на основе эталонной архитектуры Medallion благодаря поддержке более 70 форматов файлов, материализованным представлениям и интеграциями со множеством внешних систем и ETL-инструментов.
Статья
Курсы: CLICH ARMG
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Forwarded from Технологический Болт Генона
1 февраля начинается FOSDEM 2025
Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа.
> This edition features 1158 speakers, 1095 events, and 79 tracks.
Семьдесят девять треков!
Полный список
https://fosdem.org/2025/schedule/events/
Этот же список, но сгруппированный по тематике (там чего только нет, начиная от Ada и NixOS и заканчивая LLVM и железными дорогами)
https://fosdem.org/2025/schedule/tracks/
Список на все трансляции доступен тут
https://fosdem.org/2025/schedule/streaming/
Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа.
> This edition features 1158 speakers, 1095 events, and 79 tracks.
Семьдесят девять треков!
Полный список
https://fosdem.org/2025/schedule/events/
Этот же список, но сгруппированный по тематике (там чего только нет, начиная от Ada и NixOS и заканчивая LLVM и железными дорогами)
https://fosdem.org/2025/schedule/tracks/
Список на все трансляции доступен тут
https://fosdem.org/2025/schedule/streaming/
Forwarded from Технологический Болт Генона
Технологический Болт Генона
1 февраля начинается FOSDEM 2025 Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа. > This edition features 1158 speakers, 1095 events, and 79 tracks. Семьдесят девять треков! Полный список https://fo…
Начали выкладывать доклады с FOSDEM 2025 (https://video.fosdem.org/2025/)
И вот первый доклад про который хотелось бы рассказать
Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4
Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse
Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.
Основные моменты я прицепил слайдами к посту
Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse
Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html
И вот первый доклад про который хотелось бы рассказать
Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4
Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse
Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.
Основные моменты я прицепил слайдами к посту
Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse
Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html
Forwarded from Аналитика данных / Data Study
Media is too big
VIEW IN TELEGRAM
#dbtVault / #automate_dv tg-"fast start tutorial": https://t.iss.one/dbt_users/22064?thread=22060 #thread
#dbt+#DataVault
#dbt+#DataVault
Telegram
Alex. Seconds. in dbt & modern data stack
ух... все-таки тема большая и правильный ответ будет пойти по всему туториалу https://automate-dv.readthedocs.io/en/latest/tutorial/
но если максимально упрощенно, то можно начать с написания следующего минимума.
1. staging модель для генерации ключей и…
но если максимально упрощенно, то можно начать с написания следующего минимума.
1. staging модель для генерации ключей и…
Forwarded from Анастасия Дроздова
Forwarded from 5 minutes of data
Apache Airflow® Best Practices: ETL & ELT Pipelines
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
Forwarded from GitHub Trends
#python #cleandata #data_engineering #data_profilers #data_profiling #data_quality #data_science #data_unit_tests #datacleaner #datacleaning #dataquality #dataunittest #eda #exploratory_analysis #exploratory_data_analysis #exploratorydataanalysis #mlops #pipeline #pipeline_debt #pipeline_testing #pipeline_tests
GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.
https://github.com/great-expectations/great_expectations
GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.
https://github.com/great-expectations/great_expectations
GitHub
GitHub - great-expectations/great_expectations: Always know what to expect from your data.
Always know what to expect from your data. Contribute to great-expectations/great_expectations development by creating an account on GitHub.