Как мы мигрировали на новый шардированный кластер ClickHouse
Всем привет! Меня зовут Мурад Арфанян, я разработчик информационных систем в Ozon Tech. Наша команда работает с данными жизненного цикла товаров в логистике. Объём продаж растет стремительными темпами и нешардированный ClickHouse уже не справляется с постоянно увеличивающимися потоками данных. Чтобы решить эту задачу, мы построили шардированный кластер, преодолев на пути несколько интересных технических вызовов. В этой статье я расскажу о нашем опыте и решениях, которые помогли масштабировать систему и обеспечить стабильную работу при росте нагрузки.
Читать: https://habr.com/ru/companies/ozontech/articles/932434/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Мурад Арфанян, я разработчик информационных систем в Ozon Tech. Наша команда работает с данными жизненного цикла товаров в логистике. Объём продаж растет стремительными темпами и нешардированный ClickHouse уже не справляется с постоянно увеличивающимися потоками данных. Чтобы решить эту задачу, мы построили шардированный кластер, преодолев на пути несколько интересных технических вызовов. В этой статье я расскажу о нашем опыте и решениях, которые помогли масштабировать систему и обеспечить стабильную работу при росте нагрузки.
Читать: https://habr.com/ru/companies/ozontech/articles/932434/
#ru
@big_data_analysis | Другие наши каналы
🔥3
Реализация А/Б-тестов
Для А/Б-тестов в вебе показаны случайный выбор групп, хэширование, логика на бэкэнде и фронтэнде, логирование событий, одновременные эксперименты и админка. Примеры демонстрируют реализацию А/Б-тестов и устройство платформ экспериментов.
Читать
Читать: https://habr.com/ru/articles/940118/
#ru
@big_data_analysis | Другие наши каналы
Для А/Б-тестов в вебе показаны случайный выбор групп, хэширование, логика на бэкэнде и фронтэнде, логирование событий, одновременные эксперименты и админка. Примеры демонстрируют реализацию А/Б-тестов и устройство платформ экспериментов.
Читать
Читать: https://habr.com/ru/articles/940118/
#ru
@big_data_analysis | Другие наши каналы
Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные
tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.
Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.
Читать: https://habr.com/ru/articles/937278/
#ru
@big_data_analysis | Другие наши каналы
tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.
Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.
Читать: https://habr.com/ru/articles/937278/
#ru
@big_data_analysis | Другие наши каналы
❤1
Устраиваем свой Data QA с PyTest и фикстурами
Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.
Читать: «Устраиваем свой Data QA с PyTest и фикстурами»
#ru
@big_data_analysis | Другие наши каналы
Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.
Читать: «Устраиваем свой Data QA с PyTest и фикстурами»
#ru
@big_data_analysis | Другие наши каналы
Обзор UDTF в PySpark
Привет, Хабр!
Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции
UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл
Читать: https://habr.com/ru/companies/otus/articles/942148/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции
FROM
запроса и возвращает как бы несколько стро» для каждой входной записи Звучит круто.UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл
yield
внутри и выдавать сколько угодно строк. Итак, приступим к делу.Читать: https://habr.com/ru/companies/otus/articles/942148/
#ru
@big_data_analysis | Другие наши каналы