Витрина данных: сверка с эталоном
Одним из этапов разработки витрин данных является тестирование результата и подтверждение корректности разработанного функционала. При этом организовано тестирование может быть по-разному.
Определим несколько видов тестирования:
1. Технические тесты
Техническими тестами легко можно проверить корректность сборки витрины. Из основных видов технических тестов можно выделить:
· Дубли - проверка на наличие дублей по ключу
· Разрывы - проверка на разрывы в истории
· Перекосы - проверка наложения исторических записей друг на друга
· Даты - проверка корректности формирования дат
· NULL в ключе - проверка NULL в ключевых и обязательных к заполнению полях
Подробно на этих тестах останавливаться не будем, информация по ним есть в открытом доступе.
2. Бизнес-тесты
Это набор тестовых запросов, направленных на выявление ошибок в бизнес-данных. Как правило набор бизнес-тестов предоставляет владелец объекта.
Бизнес-тестов может быть великое множество, здесь все зависит от вашего бизнес-домена и от конкретных требований к витрине.
Приведу примеры некоторых бизнес-тестов:
Читать: https://habr.com/ru/companies/neoflex/articles/918628/
#ru
@big_data_analysis | Другие наши каналы
Одним из этапов разработки витрин данных является тестирование результата и подтверждение корректности разработанного функционала. При этом организовано тестирование может быть по-разному.
Определим несколько видов тестирования:
1. Технические тесты
Техническими тестами легко можно проверить корректность сборки витрины. Из основных видов технических тестов можно выделить:
· Дубли - проверка на наличие дублей по ключу
· Разрывы - проверка на разрывы в истории
· Перекосы - проверка наложения исторических записей друг на друга
· Даты - проверка корректности формирования дат
· NULL в ключе - проверка NULL в ключевых и обязательных к заполнению полях
Подробно на этих тестах останавливаться не будем, информация по ним есть в открытом доступе.
2. Бизнес-тесты
Это набор тестовых запросов, направленных на выявление ошибок в бизнес-данных. Как правило набор бизнес-тестов предоставляет владелец объекта.
Бизнес-тестов может быть великое множество, здесь все зависит от вашего бизнес-домена и от конкретных требований к витрине.
Приведу примеры некоторых бизнес-тестов:
Читать: https://habr.com/ru/companies/neoflex/articles/918628/
#ru
@big_data_analysis | Другие наши каналы
👍2
5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2
В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.
В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.
Читать: https://habr.com/ru/companies/otus/articles/918832/
#ru
@big_data_analysis | Другие наши каналы
В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.
В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.
Читать: https://habr.com/ru/companies/otus/articles/918832/
#ru
@big_data_analysis | Другие наши каналы
Самые образованные поколения — самые невежественные?
Образование растёт, но критическое мышление буксует. Почему «самые умные» поколения легко попадаются на дезинформацию? Исследуем парадокс цифрового невежества.
Читать: «Самые образованные поколения — самые невежественные?»
#ru
@big_data_analysis | Другие наши каналы
Образование растёт, но критическое мышление буксует. Почему «самые умные» поколения легко попадаются на дезинформацию? Исследуем парадокс цифрового невежества.
Читать: «Самые образованные поколения — самые невежественные?»
#ru
@big_data_analysis | Другие наши каналы
Управление обувным заводом: от аналогии с автомобилем к рекомендательной системе на основе ИИ
В предыдущей статье мы сравнили управление производством с управлением автомобилем. Сегодня углубимся в детали и покажем, как настроить рекомендательную систему на примере обувного производства. Основными выгодоприобретателями будут начальник цеха и мастер участка.
Читать: https://habr.com/ru/articles/919118/
#ru
@big_data_analysis | Другие наши каналы
В предыдущей статье мы сравнили управление производством с управлением автомобилем. Сегодня углубимся в детали и покажем, как настроить рекомендательную систему на примере обувного производства. Основными выгодоприобретателями будут начальник цеха и мастер участка.
Читать: https://habr.com/ru/articles/919118/
#ru
@big_data_analysis | Другие наши каналы
5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1
В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое.
Читать: https://habr.com/ru/companies/otus/articles/919156/
#ru
@big_data_analysis | Другие наши каналы
В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое.
Читать: https://habr.com/ru/companies/otus/articles/919156/
#ru
@big_data_analysis | Другие наши каналы
❤2
10 телеграм-каналов, которые реально читают сеньоры
Собрали топ-10 каналов для опытных разработчиков, с которыми у вас точно будет что обсудить на дейлике.
Читать: «10 телеграм-каналов, которые реально читают сеньоры»
#ru
@big_data_analysis | Другие наши каналы
Собрали топ-10 каналов для опытных разработчиков, с которыми у вас точно будет что обсудить на дейлике.
Читать: «10 телеграм-каналов, которые реально читают сеньоры»
#ru
@big_data_analysis | Другие наши каналы
Обнаружение аномалий в данных временных рядов с помощью статистического анализа
Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере.
Однако что делать, если необходимо отслеживать поведение пользователей на веб‑сайте? Представьте, что вы управляете интернет‑магазином, где продаете товары. Одним из подходов может быть установка минимального порога для ежедневных продаж и проверка его раз в день. Но что, если вам нужно выявить проблему гораздо раньше, в течение нескольких часов или даже минут? Статичный порог не позволит этого сделать, так как активность пользователей может меняться в течение дня. Именно здесь на помощь приходит обнаружение аномалий.
Читать: https://habr.com/ru/companies/otus/articles/919248/
#ru
@big_data_analysis | Другие наши каналы
Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере.
Однако что делать, если необходимо отслеживать поведение пользователей на веб‑сайте? Представьте, что вы управляете интернет‑магазином, где продаете товары. Одним из подходов может быть установка минимального порога для ежедневных продаж и проверка его раз в день. Но что, если вам нужно выявить проблему гораздо раньше, в течение нескольких часов или даже минут? Статичный порог не позволит этого сделать, так как активность пользователей может меняться в течение дня. Именно здесь на помощь приходит обнаружение аномалий.
Читать: https://habr.com/ru/companies/otus/articles/919248/
#ru
@big_data_analysis | Другие наши каналы
Вселенная на ладони: крупнейший релиз данных JWST открывает космос для всех
В июне 2025 года астрономы всего мира получили доступ к огромному массиву данных от телескопа Джеймс Уэбб (JWST). Проект COSMOS-Web, поддерживаемый NASA, выложил в открытый доступ 1,5 терабайта информации со снимками, фотометрическими каталогами и интерактивными инструментами для изучения глубокого космоса. Open-source-модель исследований, которая лежит в основе проекта, обещает «сделать звезды ближе» для всех нас. Разберемся, что это за данные, почему они важны и как меняют подход к науке.
Читать: https://habr.com/ru/companies/ru_mts/articles/919582/
#ru
@big_data_analysis | Другие наши каналы
В июне 2025 года астрономы всего мира получили доступ к огромному массиву данных от телескопа Джеймс Уэбб (JWST). Проект COSMOS-Web, поддерживаемый NASA, выложил в открытый доступ 1,5 терабайта информации со снимками, фотометрическими каталогами и интерактивными инструментами для изучения глубокого космоса. Open-source-модель исследований, которая лежит в основе проекта, обещает «сделать звезды ближе» для всех нас. Разберемся, что это за данные, почему они важны и как меняют подход к науке.
Читать: https://habr.com/ru/companies/ru_mts/articles/919582/
#ru
@big_data_analysis | Другие наши каналы
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в сложной инфраструктуре и больших проектах простые, на первый взгляд, задачи по работе с данными очень сильно усложняются. В результате возникают ситуации, когда хорошие практики превращаются в плохие решения, а плохие практики как раз могут дать хороший результат.
Мои коллеги уже рассказывали про нашу платформу, ее внедрение внутри экосистемы и наши инструменты для работы с данными. В процессе развития продукта перед нами встала проблема массовых регламентных загрузок данных из реляционных источников. Для этого мы создали внутренний инструмент — библиотеку d-van. В качестве движка в ней используется Apache Spark, с которым она взаимодействует через библиотеку onETL. На примере d-van я покажу нестандартный подход к использованию возможностей Apache Spark. Расскажу, какие задачи можно решить с помощью режима master=local и как свой инструмент может стать альтернативой Apache Nifi или Debezium.
Читать: https://habr.com/ru/companies/ru_mts/articles/919490/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в сложной инфраструктуре и больших проектах простые, на первый взгляд, задачи по работе с данными очень сильно усложняются. В результате возникают ситуации, когда хорошие практики превращаются в плохие решения, а плохие практики как раз могут дать хороший результат.
Мои коллеги уже рассказывали про нашу платформу, ее внедрение внутри экосистемы и наши инструменты для работы с данными. В процессе развития продукта перед нами встала проблема массовых регламентных загрузок данных из реляционных источников. Для этого мы создали внутренний инструмент — библиотеку d-van. В качестве движка в ней используется Apache Spark, с которым она взаимодействует через библиотеку onETL. На примере d-van я покажу нестандартный подход к использованию возможностей Apache Spark. Расскажу, какие задачи можно решить с помощью режима master=local и как свой инструмент может стать альтернативой Apache Nifi или Debezium.
Читать: https://habr.com/ru/companies/ru_mts/articles/919490/
#ru
@big_data_analysis | Другие наши каналы
🔥1
Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports
Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.
Читать: https://habr.com/ru/articles/919774/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.
Читать: https://habr.com/ru/articles/919774/
#ru
@big_data_analysis | Другие наши каналы
Сколько зарабатывает айтишник и как на это живёт: сравниваем 5 стран
Cобрали опыт зарплат айтишников из пяти стран и узнали, как вписаться в местную культуру и где комфортнее жить.
Читать: «Сколько зарабатывает айтишник и как на это живёт: сравниваем 5 стран»
#ru
@big_data_analysis | Другие наши каналы
Cобрали опыт зарплат айтишников из пяти стран и узнали, как вписаться в местную культуру и где комфортнее жить.
Читать: «Сколько зарабатывает айтишник и как на это живёт: сравниваем 5 стран»
#ru
@big_data_analysis | Другие наши каналы
Oracle представила новый AI-агент для Oracle Analytics Cloud. Этот постоянно активный помощник помогает быстро решать задачи и повышает эффективность работы с аналитикой. Инновационное решение упрощает поддержку и делает анализ данных удобнее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics Cloud Gen AI Agent
This blog introduces the Oracle Analytics Cloud Gen AI Agent—a custom, always-on, support-focused AI solution for Oracle Analytics Cloud (OAC). This is not the same as the built-in “AI Assistant” feature inside OAC, which provides natural language analytics.…
Oracle признан лидером в Gartner Magic Quadrant 2025 по аналитике и BI, благодаря инновациям и интеграции AI. Новые функции на базе генеративного ИИ и Fusion Data Intelligence помогают компаниям эффективнее использовать данные для принятия решений.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM
Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.
Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.
Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.
Читать: https://habr.com/ru/articles/920150/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.
Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.
Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.
Читать: https://habr.com/ru/articles/920150/
#ru
@big_data_analysis | Другие наши каналы
Путь к современному MDM на примере клиентского домена данных
Путь к современному MDM на примере клиентского домена данных
Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.
Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.
Читать: https://habr.com/ru/companies/datasapience/articles/920306/
#ru
@big_data_analysis | Другие наши каналы
Путь к современному MDM на примере клиентского домена данных
Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.
Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.
Читать: https://habr.com/ru/companies/datasapience/articles/920306/
#ru
@big_data_analysis | Другие наши каналы
Как бег помогает навести порядок в голове и в коде
Личный опыт о том, как бег помогает держать ум в тонусе, находить фокус, идеи и энергию — и в работе, и в жизни.
Читать: https://habr.com/ru/articles/920730/
#ru
@big_data_analysis | Другие наши каналы
Личный опыт о том, как бег помогает держать ум в тонусе, находить фокус, идеи и энергию — и в работе, и в жизни.
Читать: https://habr.com/ru/articles/920730/
#ru
@big_data_analysis | Другие наши каналы
MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра
С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.
Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.
Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.
Поехали.
Читать: https://habr.com/ru/articles/920972/
#ru
@big_data_analysis | Другие наши каналы
С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.
Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.
Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.
Поехали.
Читать: https://habr.com/ru/articles/920972/
#ru
@big_data_analysis | Другие наши каналы
База про юнит-тесты в C# на xUnit v3
Привет, Хабр!
Сегодня разберёмся с юнит‑тестами в C# на основе xUnit v3 — библиотеки, которая стала практически стандартом де‑факто в.NET‑среде.
Почему именно xUnit? Всё просто: его создали Джим Ньюкирк и Брэд Уилсон — разработчики NUnit. Они решили выкинуть всю архаику вроде
Читать: https://habr.com/ru/companies/otus/articles/918942/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Сегодня разберёмся с юнит‑тестами в C# на основе xUnit v3 — библиотеки, которая стала практически стандартом де‑факто в.NET‑среде.
Почему именно xUnit? Всё просто: его создали Джим Ньюкирк и Брэд Уилсон — разработчики NUnit. Они решили выкинуть всю архаику вроде
[SetUp]
, [TearDown]
и прочих рудиментов и построили фреймворк с нуля, строго под TDD. Весной вышла xUnit v3 2.0.2, в которой завезли Assert.MultipleAsync
, полностью обновили сериализацию. А в.NET 9 уже штатно продвигается Microsoft.Testing.Platform (MTP) — сверхлёгкий тестовый рантайм, с которым xUnit v3 работает прямо из коробки. Короче говоря, это самый нативный выбор под.NET 9 на сегодня.Читать: https://habr.com/ru/companies/otus/articles/918942/
#ru
@big_data_analysis | Другие наши каналы
«Облачные хранилища: как выбрать идеальное решение для бизнеса» (2 часть)
В первой части нашего исследования мы провели сравнительный анализ облачных хранилищ, рассматривая предложения различных провайдеров, включая крупные компании и менее известные игроки на рынке. Мы изучили ключевые аспекты, такие как уровень технической поддержки, доступные конфигурации серверов и дополнительные услуги, что позволило оценить сильные и слабые стороны различных решений в контексте конкурентной среды.
Теперь мы переходим ко второй части нашего анализа, в которой сосредоточимся на ценовой политике облачных хранилищ. Мы сравним тарифные планы различных провайдеров, чтобы выяснить, как они позиционируются на рынке с точки зрения стоимости услуг. Этот анализ поможет понять, насколько конкурентоспособны цены и как они соотносятся с качеством предоставляемых услуг.
Читать: https://habr.com/ru/articles/921518/
#ru
@big_data_analysis | Другие наши каналы
В первой части нашего исследования мы провели сравнительный анализ облачных хранилищ, рассматривая предложения различных провайдеров, включая крупные компании и менее известные игроки на рынке. Мы изучили ключевые аспекты, такие как уровень технической поддержки, доступные конфигурации серверов и дополнительные услуги, что позволило оценить сильные и слабые стороны различных решений в контексте конкурентной среды.
Теперь мы переходим ко второй части нашего анализа, в которой сосредоточимся на ценовой политике облачных хранилищ. Мы сравним тарифные планы различных провайдеров, чтобы выяснить, как они позиционируются на рынке с точки зрения стоимости услуг. Этот анализ поможет понять, насколько конкурентоспособны цены и как они соотносятся с качеством предоставляемых услуг.
Читать: https://habr.com/ru/articles/921518/
#ru
@big_data_analysis | Другие наши каналы
ClearML | Туториал
ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...
ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля
Читать: https://habr.com/ru/articles/691314/
#ru
@big_data_analysis | Другие наши каналы
ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...
ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля
Читать: https://habr.com/ru/articles/691314/
#ru
@big_data_analysis | Другие наши каналы