Введение в синтетические данные для ML: зачем они нужны?
Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?
В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.
Читать: https://habr.com/ru/companies/data_light/articles/860310/
#ru
@big_data_analysis | Другие наши каналы
Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?
В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.
Читать: https://habr.com/ru/companies/data_light/articles/860310/
#ru
@big_data_analysis | Другие наши каналы
🔍 Microsoft Dynamics 365 или Power BI: что выбрать для отчетности?
Когда дело доходит до аналитики, Microsoft Dynamics 365 предлагает базовые отчеты и дашборды. Однако для более глубокой аналитики стоит рассмотреть Power BI. Его инструменты позволяют создавать сложные визуализации и анализировать данные в реальном времени. Выбор зависит от ваших бизнес-задач.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Когда дело доходит до аналитики, Microsoft Dynamics 365 предлагает базовые отчеты и дашборды. Однако для более глубокой аналитики стоит рассмотреть Power BI. Его инструменты позволяют создавать сложные визуализации и анализировать данные в реальном времени. Выбор зависит от ваших бизнес-задач.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API
Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам
Читать: https://habr.com/ru/companies/cedrusdata/articles/860356/
#ru
@big_data_analysis | Другие наши каналы
Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам
Читать: https://habr.com/ru/companies/cedrusdata/articles/860356/
#ru
@big_data_analysis | Другие наши каналы
Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа
Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.
Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.
Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.
В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.
Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.
Читать: https://habr.com/ru/companies/sibur_official/articles/860372/
#ru
@big_data_analysis | Другие наши каналы
Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.
Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.
Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.
В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.
Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.
Читать: https://habr.com/ru/companies/sibur_official/articles/860372/
#ru
@big_data_analysis | Другие наши каналы
Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании
Привет, Хабр! Меня зовут Дмитрий Бодин, в МТС Диджитал я руковожу командой интеграции DataOps Platform — платформы по работе с данными. Мы занимаемся внедрением и сопровождением инструментов DataOps внутри экосистемы МТС.
При запуске DataOps Platform мы увидели слабую заинтересованность в ее сервисах, так как все привыкли работать с инструментами от известных вендоров. В этот момент мы поняли, что очень важно продвигать платформу внутри компании и сопровождать пользователей на всех этапах внедрения.
Ниже я на нашем опыте расскажу, как нам удалось заинтересовать коллег своим продуктом, какие возникали проблемы с ростом числа пользователей и как мы построили внутреннюю систему консалтинга, которая помогает на всех этапах работы с нашими инструментами. Надеюсь, мой опыт будет полезен тем, кто занимается созданием и развитием с нуля внутренних продуктов в своих компаниях.
Читать: https://habr.com/ru/companies/ru_mts/articles/860370/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Дмитрий Бодин, в МТС Диджитал я руковожу командой интеграции DataOps Platform — платформы по работе с данными. Мы занимаемся внедрением и сопровождением инструментов DataOps внутри экосистемы МТС.
При запуске DataOps Platform мы увидели слабую заинтересованность в ее сервисах, так как все привыкли работать с инструментами от известных вендоров. В этот момент мы поняли, что очень важно продвигать платформу внутри компании и сопровождать пользователей на всех этапах внедрения.
Ниже я на нашем опыте расскажу, как нам удалось заинтересовать коллег своим продуктом, какие возникали проблемы с ростом числа пользователей и как мы построили внутреннюю систему консалтинга, которая помогает на всех этапах работы с нашими инструментами. Надеюсь, мой опыт будет полезен тем, кто занимается созданием и развитием с нуля внутренних продуктов в своих компаниях.
Читать: https://habr.com/ru/companies/ru_mts/articles/860370/
#ru
@big_data_analysis | Другие наши каналы
Объединяем фреймы данных в pandas: две самые распространённые операции
Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.
Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:
Читать: https://habr.com/ru/articles/860412/
#ru
@big_data_analysis | Другие наши каналы
Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.
Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:
Читать: https://habr.com/ru/articles/860412/
#ru
@big_data_analysis | Другие наши каналы
Python и SQL: что изучать в первую очередь для анализа данных
Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.
Читать: «Python и SQL: что изучать в первую очередь для анализа данных»
#ru
@big_data_analysis | Другие наши каналы
Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.
Читать: «Python и SQL: что изучать в первую очередь для анализа данных»
#ru
@big_data_analysis | Другие наши каналы
Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги
Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.
Меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и сейчас я вам про этот нюанс расскажу — почему же эта задача не такая тривиальная, как кажется на первый взгляд.
Читать: https://habr.com/ru/companies/alfa/articles/859940/
#ru
@big_data_analysis | Другие наши каналы
Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.
Меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и сейчас я вам про этот нюанс расскажу — почему же эта задача не такая тривиальная, как кажется на первый взгляд.
Читать: https://habr.com/ru/companies/alfa/articles/859940/
#ru
@big_data_analysis | Другие наши каналы
Саммаризация — Как Data Light помогает пользователям находить идеальный товар быстрее
Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.
В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.
Читать: https://habr.com/ru/companies/data_light/articles/860602/
#ru
@big_data_analysis | Другие наши каналы
Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.
В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.
Читать: https://habr.com/ru/companies/data_light/articles/860602/
#ru
@big_data_analysis | Другие наши каналы
Анализ временных рядов: полное руководство для начинающих
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.
Читать: https://habr.com/ru/companies/skillfactory/articles/860660/
#ru
@big_data_analysis | Другие наши каналы
Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.
Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.
Читать: https://habr.com/ru/companies/skillfactory/articles/860660/
#ru
@big_data_analysis | Другие наши каналы
Полное руководство по оценке компонентов системы RAG: что необходимо знать
Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».
Читать: https://habr.com/ru/articles/860390/
#ru
@big_data_analysis | Другие наши каналы
Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».
Читать: https://habr.com/ru/articles/860390/
#ru
@big_data_analysis | Другие наши каналы
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года
Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).
Читать: https://habr.com/ru/articles/860900/
#ru
@big_data_analysis | Другие наши каналы
Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).
Читать: https://habr.com/ru/articles/860900/
#ru
@big_data_analysis | Другие наши каналы
Участвуй в Oracle Analytics Data Visualization Challenge 2025!
Oracle приглашает начинающих специалистов по визуализации данных продемонстрировать свои таланты в новом конкурсе 2025 года. Это отличная возможность проявить себя в мире данных и, возможно, стать лидером в этой области. Не упустите шанс стать лучшим!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle приглашает начинающих специалистов по визуализации данных продемонстрировать свои таланты в новом конкурсе 2025 года. Это отличная возможность проявить себя в мире данных и, возможно, стать лидером в этой области. Не упустите шанс стать лучшим!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
❤1
Настройте модели в OCI для точной обработки документов
Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Create a Custom Document Understanding Model in OCI
Learn how to create a custom model in Oracle Cloud Infrastructure (OCI) Document Understanding service to tailor document extraction to meet specific customer needs.
Как загрузить свою модель в Oracle Analytics Cloud
В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Защити свой Oracle Analytics Cloud
Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Создайте уникальный плагин с нуля
Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Custom Visualizations in Oracle Analytics: A Guide to Building Your First D3.js Bar Chart - Part 1
This blog series provides a step-by-step guide for creating custom plug-ins, designed to empower you to design your own from the ground up. Each article in the series is structured to bring you closer to developing a feature-rich, innovative plug-in.
Безопасность Oracle Analytics Server: Руководство по Zero Trust
Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Secure Oracle Analytics Server using Zero Trust Packet Routing
This post guides you through securing OAS (Oracle Analytics Server) using Zero Trust Packet Routing.
Генерация данных с помощью Python: зачем это нужно и как применять
Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры ✔ Tproger
Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»
#ru
@big_data_analysis | Другие наши каналы
Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры ✔ Tproger
Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»
#ru
@big_data_analysis | Другие наши каналы
От слов к делу: Практические кейсы применения NLP в Ингосстрахе
Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.
Мы рассмотрим варианты решения типовых задач в страховании и не только.
Читать: https://habr.com/ru/companies/ingos_it/articles/862030/
#ru
@big_data_analysis | Другие наши каналы
Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.
Мы рассмотрим варианты решения типовых задач в страховании и не только.
Читать: https://habr.com/ru/companies/ingos_it/articles/862030/
#ru
@big_data_analysis | Другие наши каналы