Созвон про причинно-следственный анализ
▫️ 21 мая (среда), 17:00 МСК
▫️ Google Meet→
По результатам голосования в чате @noml_community на сегодня была выбрана тема причинно-следственного анализа и структурных вероятностных моделей.
— Напомним, что такое графовые вероятностные модели (PGM), какие бывают их виды (байесовские сети (BN), структурные причинные модели (SCM), …), чем они отличаются от традиционных подходов из статистики и машинного обучения и как их дополняют.
— Разберём несколько бизнес приложений этих методов и обсудим, в каких задачах их применение может дать наибольший эффект.
— Пройдемся по некоторым техническим особенностям PGM, таким, например, как: работа с данными, метрики и методы валидации, способы учёта экспертных знаний о предметной области, а также методы оценки устойчивости причинных графов к неточностям и неполноте в этих знаниях.
— Обсудим, какие возникают сложности при внедрении моделей на базе PGM в бизнес-процессы, например, как интерпретировать результаты и как объяснять выводы полученные при проведении причинно-следственного анализа нетехническим специалистам и руководителям, как помочь сконвертировать эти выводы в принятие решений, а также нужны ли в команде отдельные специалисты по PGM, или достаточно “обычных data scientist’ов”.
▫️ 21 мая (среда), 17:00 МСК
▫️ Google Meet→
По результатам голосования в чате @noml_community на сегодня была выбрана тема причинно-следственного анализа и структурных вероятностных моделей.
— Напомним, что такое графовые вероятностные модели (PGM), какие бывают их виды (байесовские сети (BN), структурные причинные модели (SCM), …), чем они отличаются от традиционных подходов из статистики и машинного обучения и как их дополняют.
— Разберём несколько бизнес приложений этих методов и обсудим, в каких задачах их применение может дать наибольший эффект.
— Пройдемся по некоторым техническим особенностям PGM, таким, например, как: работа с данными, метрики и методы валидации, способы учёта экспертных знаний о предметной области, а также методы оценки устойчивости причинных графов к неточностям и неполноте в этих знаниях.
— Обсудим, какие возникают сложности при внедрении моделей на базе PGM в бизнес-процессы, например, как интерпретировать результаты и как объяснять выводы полученные при проведении причинно-следственного анализа нетехническим специалистам и руководителям, как помочь сконвертировать эти выводы в принятие решений, а также нужны ли в команде отдельные специалисты по PGM, или достаточно “обычных data scientist’ов”.
👍8
Созвон про Process Mining
▫️ 28 мая (среда), !! 16:00 МСК
▫️ Google Meet→
Мы недавно обсуждали тренды в области данных и аналитики, и среди трендов NoML отметили процессную аналитику и Process Mining (PM). При этом последний раз доклад про PM у нас был почти год назад. В связи с этим решили вместе с Викторией Красновой из GlowByte Process Intelligence обсудить эту тему.
Так что вспоминаем что такое Process Mining: Альфия Ибрагимова, Тимофей Прибылев, Введение в Process Mining: методы, платформы и кейсы. YouTube | Дзен | RuTube (1 час 30 минут);
И готовимся обсуждать следующие вопросы:
— Какие есть новые интересные бизнес-кейсы применения процессной аналитики?
— Какие задачи решает Process Mining помимо поиска узких горлышек и отклонений в процессах?
— Как эволюционируют технологии и методы PM и что скрывается за термином Process Intelligence (PI)?
— Process Mining вместе или против других технологий: BI, имитационное моделирование, математическая оптимизация и исследование операций, причинно-следственный анализ ML/AI, …?
— Как вообще развитие ML/AI влияет на PM/PI и автоматизацию процессов?
— Нужны ли специальные навыки для работы с Process Mining, или это инструмент для бизнес-пользователей?
— Какие есть особенности и вызовы в части работы с данными в проектах PM/PI?
— Как PM встраивается в общий ландшафт интеллекта принятия решений (Decision Intelligence, DI)?
— Возможна ли полная автономия в data-driven управлении процессами?
— Как преодолеть сопротивление сотрудников при анализе и автоматизации их рабочих процессов?
— Как совместить прозрачность процессов и конфиденциальность данных сотрудников?
— Когда вся рутина будет автоматизирована ИИ, что останется для человека?
▫️ 28 мая (среда), !! 16:00 МСК
▫️ Google Meet→
Мы недавно обсуждали тренды в области данных и аналитики, и среди трендов NoML отметили процессную аналитику и Process Mining (PM). При этом последний раз доклад про PM у нас был почти год назад. В связи с этим решили вместе с Викторией Красновой из GlowByte Process Intelligence обсудить эту тему.
Так что вспоминаем что такое Process Mining: Альфия Ибрагимова, Тимофей Прибылев, Введение в Process Mining: методы, платформы и кейсы. YouTube | Дзен | RuTube (1 час 30 минут);
И готовимся обсуждать следующие вопросы:
— Какие есть новые интересные бизнес-кейсы применения процессной аналитики?
— Какие задачи решает Process Mining помимо поиска узких горлышек и отклонений в процессах?
— Как эволюционируют технологии и методы PM и что скрывается за термином Process Intelligence (PI)?
— Process Mining вместе или против других технологий: BI, имитационное моделирование, математическая оптимизация и исследование операций, причинно-следственный анализ ML/AI, …?
— Как вообще развитие ML/AI влияет на PM/PI и автоматизацию процессов?
— Нужны ли специальные навыки для работы с Process Mining, или это инструмент для бизнес-пользователей?
— Какие есть особенности и вызовы в части работы с данными в проектах PM/PI?
— Как PM встраивается в общий ландшафт интеллекта принятия решений (Decision Intelligence, DI)?
— Возможна ли полная автономия в data-driven управлении процессами?
— Как преодолеть сопротивление сотрудников при анализе и автоматизации их рабочих процессов?
— Как совместить прозрачность процессов и конфиденциальность данных сотрудников?
— Когда вся рутина будет автоматизирована ИИ, что останется для человека?
👍1
Мысли про FL и PPML
Недавно у нас была дискуссия про FL и Privacy-Preserving ML (PPML) вместе с Дмитрием Масловым, Михаилом Фатюхиным, Денисом Афанасьевым, Евгением Поповым и Романом Постниковым: YouTube | Дзен | RuTube. Денис написал отличное саммари, но я может быть где-то дополню.
▫️ Потенциальных бизнес-кейсов объединения данных разных участников много, но оценить эффект от такого объединения заранее очень сложно, а то, что для бизнес-заказчика выглядит как пилот по FL (или другим методам конфиденциальной аналитики), на самом деле является непростым технологическим проектом.
▫️ Вообще ожидания от объединения данных разных владельцев обычно сильно преувеличены. Более того, если говорить про кейсы на табличных (структурированных) данных, то прямое объединение в лоб скорее всего ничего не даст, важны понимание бизнес смысла данных и интеллектуальный feature engineering над объединенными данными. Например, в тех же задачах антифрода большой прирост даёт анализ графа связей и расчет графовых признаков, а в случае федеративных и конфиденциальных вычислений, когда у разных участников есть только локальные части глобального графа, а глобальный граф никто не видит, эта задача непростая (но решаемая).
▫️ В контексте (финансовых) эффектов от объединения данных возникает еще вопрос ценообразования при использовании данных от разных владельцев. Ведь сами по себе данные стоимости не имеют (более того несут затраты: их надо хранить, накапливать и защищать), а стоимость всегда будет зависеть от конкретного бизнес-кейса. Получается, что стоимость может иметь инференс, а задача технологических провайдеров как раз в том, чтобы научиться справедливо разделять и транслировать эту стоимость от поставщиков данных к потребителям.
▫️ В целом если вспоминать разделение на горизонтальное федеративное обучение (HFL) и вертикальное (VFL), то область enterprise кейсов применения FL для безопасной коллаборации данных будет двигать VFL: объединение разных признаков для одного наблюдения, объединение признаков и целевого события, опять же федеративный feature engineering и контроль качества данных, …
▫️ Можно выделить такие два направления задач, которые исследуются в FL:
— FL для массовых распределенных вычислений на устройствах. Причем бывают ситуации, в которых вопросы конфиденциальности вообще остаются за кадром, а важна именно эффективность вычислений на локальных и глобальных сегментах этих устройств (телефоны, беспилотный транспорт, рои дронов и т.д.). Особенности: большое количество устройств (десятки тысяч — миллионы), небольшие наборы данных на каждом устройств, ограничения на доступность устройств и топологию их связности. Здесь одна из основных задач: гарантировать сходимость методов обучения.
— FL для безопасной агрегации данных. В бизнес кейсах применения таких как скоринг или антифрод всё наоборот: небольшое количество участников (десятки), большие датасеты у каждого из участников, и можно считать что инфраструктура участников доступна 24/7. А для обеспечения конфиденциальности потребуется связка FL + что-то еще: FHE, MPC, дифференциальная приватность.
▫️ Для PPML, включая FL, можно выделить такие основные технические сценарии:
— Обогащение данных, и в более широком смысле обогащение информации. Я бы сюда включил и кейс федеративной валидации моделей, т.е. когда модель именно валидируется, а не дообучается на данных одного или нескольких участников.
— Изоляция данных от разработчиков моделей.
— Разделение данных и сред обучения/исполнения.
▫️ Само по себе FL не является средством криптографической защиты информации (СКЗИ). Но для табличных бизнес-кейсов может сработать аргументация, что компрессия данных в передаваемых весах и градиентах настолько высока, что конфиденциальных данных там точно нет. С другой стороны, есть, например, атаки, направленные на восстановления целевой переменной, да и истории про атаки на FL на неструктурированных данных у всех на слуху. А когда в схему добавляется частичное или полное гомоморфное шифрование, то это уже криптография, причём такая, для которой пока нет стандартов.
Недавно у нас была дискуссия про FL и Privacy-Preserving ML (PPML) вместе с Дмитрием Масловым, Михаилом Фатюхиным, Денисом Афанасьевым, Евгением Поповым и Романом Постниковым: YouTube | Дзен | RuTube. Денис написал отличное саммари, но я может быть где-то дополню.
▫️ Потенциальных бизнес-кейсов объединения данных разных участников много, но оценить эффект от такого объединения заранее очень сложно, а то, что для бизнес-заказчика выглядит как пилот по FL (или другим методам конфиденциальной аналитики), на самом деле является непростым технологическим проектом.
▫️ Вообще ожидания от объединения данных разных владельцев обычно сильно преувеличены. Более того, если говорить про кейсы на табличных (структурированных) данных, то прямое объединение в лоб скорее всего ничего не даст, важны понимание бизнес смысла данных и интеллектуальный feature engineering над объединенными данными. Например, в тех же задачах антифрода большой прирост даёт анализ графа связей и расчет графовых признаков, а в случае федеративных и конфиденциальных вычислений, когда у разных участников есть только локальные части глобального графа, а глобальный граф никто не видит, эта задача непростая (но решаемая).
▫️ В контексте (финансовых) эффектов от объединения данных возникает еще вопрос ценообразования при использовании данных от разных владельцев. Ведь сами по себе данные стоимости не имеют (более того несут затраты: их надо хранить, накапливать и защищать), а стоимость всегда будет зависеть от конкретного бизнес-кейса. Получается, что стоимость может иметь инференс, а задача технологических провайдеров как раз в том, чтобы научиться справедливо разделять и транслировать эту стоимость от поставщиков данных к потребителям.
▫️ В целом если вспоминать разделение на горизонтальное федеративное обучение (HFL) и вертикальное (VFL), то область enterprise кейсов применения FL для безопасной коллаборации данных будет двигать VFL: объединение разных признаков для одного наблюдения, объединение признаков и целевого события, опять же федеративный feature engineering и контроль качества данных, …
▫️ Можно выделить такие два направления задач, которые исследуются в FL:
— FL для массовых распределенных вычислений на устройствах. Причем бывают ситуации, в которых вопросы конфиденциальности вообще остаются за кадром, а важна именно эффективность вычислений на локальных и глобальных сегментах этих устройств (телефоны, беспилотный транспорт, рои дронов и т.д.). Особенности: большое количество устройств (десятки тысяч — миллионы), небольшие наборы данных на каждом устройств, ограничения на доступность устройств и топологию их связности. Здесь одна из основных задач: гарантировать сходимость методов обучения.
— FL для безопасной агрегации данных. В бизнес кейсах применения таких как скоринг или антифрод всё наоборот: небольшое количество участников (десятки), большие датасеты у каждого из участников, и можно считать что инфраструктура участников доступна 24/7. А для обеспечения конфиденциальности потребуется связка FL + что-то еще: FHE, MPC, дифференциальная приватность.
▫️ Для PPML, включая FL, можно выделить такие основные технические сценарии:
— Обогащение данных, и в более широком смысле обогащение информации. Я бы сюда включил и кейс федеративной валидации моделей, т.е. когда модель именно валидируется, а не дообучается на данных одного или нескольких участников.
— Изоляция данных от разработчиков моделей.
— Разделение данных и сред обучения/исполнения.
▫️ Само по себе FL не является средством криптографической защиты информации (СКЗИ). Но для табличных бизнес-кейсов может сработать аргументация, что компрессия данных в передаваемых весах и градиентах настолько высока, что конфиденциальных данных там точно нет. С другой стороны, есть, например, атаки, направленные на восстановления целевой переменной, да и истории про атаки на FL на неструктурированных данных у всех на слуху. А когда в схему добавляется частичное или полное гомоморфное шифрование, то это уже криптография, причём такая, для которой пока нет стандартов.
👍2
И еще про FL и конф. вычисления
Также на майском созвоне про FL упоминались следующие материалы:
▫️ Евгений Попов, Что такое федеративное обучение: метод, который приведет к взрывному росту искусственного интеллекта, 2025 (~7 минут).
▫️ Stalactite — опенсорс фреймворк для VFL от ИТМО и Сбера: GitHub, пресс-релиз и материалы конференции ACM RecSys ’24: A. Zakharova et al., Stalactite: toolbox for fast prototyping of vertical federated learning systems, 2024 (~10-20 минут).
▫️ Отчёты-описания по направлениям и технологиям PPML от Ассоциации Больших Данных:
— Общее: Технологии защищенной обработки данных: от защиты данных — к развитию ИИ, партнерским отношениям и экосистемной экономике, 2024 (~30 минут);
— Крипто-анклавы: Конфиденциальные вычисления и доверенные среды исполнения, 2024 (~30 минут);
— MPC: Конфиденциальные вычисления и доверенные среды исполнения. Secure Multiparty Computation, 2025 (~30 минут);
— FL: Конфиденциальные вычисления и доверенные среды исполнения. Federated Learning, 2025 (~30 минут);
Также на майском созвоне про FL упоминались следующие материалы:
▫️ Евгений Попов, Что такое федеративное обучение: метод, который приведет к взрывному росту искусственного интеллекта, 2025 (~7 минут).
▫️ Stalactite — опенсорс фреймворк для VFL от ИТМО и Сбера: GitHub, пресс-релиз и материалы конференции ACM RecSys ’24: A. Zakharova et al., Stalactite: toolbox for fast prototyping of vertical federated learning systems, 2024 (~10-20 минут).
▫️ Отчёты-описания по направлениям и технологиям PPML от Ассоциации Больших Данных:
— Общее: Технологии защищенной обработки данных: от защиты данных — к развитию ИИ, партнерским отношениям и экосистемной экономике, 2024 (~30 минут);
— Крипто-анклавы: Конфиденциальные вычисления и доверенные среды исполнения, 2024 (~30 минут);
— MPC: Конфиденциальные вычисления и доверенные среды исполнения. Secure Multiparty Computation, 2025 (~30 минут);
— FL: Конфиденциальные вычисления и доверенные среды исполнения. Federated Learning, 2025 (~30 минут);
Семинар про Scientific ML
▫️ 11 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→
Выступает: Михаил Лытаев (СПб ФИЦ РАН, Университет ИТМО)
Тема: Решение обратных задач методами глубокого обучения
Аннотация
Математическая модель позволяет прогнозировать поведение объектов, зная их параметры и параметры внешней среды. Однако зачастую настоящий интерес представляет обратная задача, т.е. определение параметров системы по наблюдаемому (или желаемому) поведению. Классическими примерами обратных задач являются медицинская визуализация, сейсмическая разведка, дистанционное зондирование. Т.е. задачи, в которых непосредственное измерение параметров объекта чрезвычайно дорого или невозможно. Вместо этого интересующие параметры (например, внутреннее строение тела или места залегания полезных ископаемых) пытаются восстановить по данным косвенных измерений. Другим примером являются задачи конструирования метаматериалов и оптимальное управление, когда нужно определить параметры системы таким образом, чтобы она обладала желаемыми свойствами.
Зачастую такие задачи не обладают никакими специальными свойствами, вроде линейности и выпуклости. Кроме того, обратные задачи относятся к классу некорректных: когда нельзя заранее сказать, имеет ли задача единственное физически адекватное решение.
Хотя обратные и некорректные задачи активно изучаются классической теорией и методами функционального анализа, все еще не хватает универсальных методов, подходящих для широкого круга задач. Существующие решения как правило носят узкоспециализированный характер.
Возникшие всего несколько лет назад методы т.н. scientific ML впервые предлагают универсальные методы решения обратных нелинейных задач, используя глубокое обучение. В докладе будут рассмотрены следующие подходы:
— нейронные операторы (DeepONet, FNO), позволяющие обучать обратный нелинейный оператор;
— физически информированные нейронные сети (PINN), позволяющие встраивать физические законы в функцию потерь;
— нейронные дифференциальные уравнения (NeuralODE), позволяющие синтезировать модели на основе дифференциальных уравнений и нейронных сетей;
— автоматическое дифференцирование численных схем, позволяющее строить солверы обратных задач на основе существующих программных реализаций решения прямой задачи.
На простых примерах покажем, как ставятся обратные задачи, в чем заключается суть их некорректность.
Уровень сложности: средний, глубоких знаний в области дифференциальных уравнений, функционального анализа и математической физики не требуется.
Ключевые слова: scientific ML, некорректные задачи, нелинейные операторы, нейронный оператор, нейронное дифференциальное уравнение, автоматическое дифференцирование.
▫️ 11 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→
Выступает: Михаил Лытаев (СПб ФИЦ РАН, Университет ИТМО)
Тема: Решение обратных задач методами глубокого обучения
Аннотация
Математическая модель позволяет прогнозировать поведение объектов, зная их параметры и параметры внешней среды. Однако зачастую настоящий интерес представляет обратная задача, т.е. определение параметров системы по наблюдаемому (или желаемому) поведению. Классическими примерами обратных задач являются медицинская визуализация, сейсмическая разведка, дистанционное зондирование. Т.е. задачи, в которых непосредственное измерение параметров объекта чрезвычайно дорого или невозможно. Вместо этого интересующие параметры (например, внутреннее строение тела или места залегания полезных ископаемых) пытаются восстановить по данным косвенных измерений. Другим примером являются задачи конструирования метаматериалов и оптимальное управление, когда нужно определить параметры системы таким образом, чтобы она обладала желаемыми свойствами.
Зачастую такие задачи не обладают никакими специальными свойствами, вроде линейности и выпуклости. Кроме того, обратные задачи относятся к классу некорректных: когда нельзя заранее сказать, имеет ли задача единственное физически адекватное решение.
Хотя обратные и некорректные задачи активно изучаются классической теорией и методами функционального анализа, все еще не хватает универсальных методов, подходящих для широкого круга задач. Существующие решения как правило носят узкоспециализированный характер.
Возникшие всего несколько лет назад методы т.н. scientific ML впервые предлагают универсальные методы решения обратных нелинейных задач, используя глубокое обучение. В докладе будут рассмотрены следующие подходы:
— нейронные операторы (DeepONet, FNO), позволяющие обучать обратный нелинейный оператор;
— физически информированные нейронные сети (PINN), позволяющие встраивать физические законы в функцию потерь;
— нейронные дифференциальные уравнения (NeuralODE), позволяющие синтезировать модели на основе дифференциальных уравнений и нейронных сетей;
— автоматическое дифференцирование численных схем, позволяющее строить солверы обратных задач на основе существующих программных реализаций решения прямой задачи.
На простых примерах покажем, как ставятся обратные задачи, в чем заключается суть их некорректность.
Уровень сложности: средний, глубоких знаний в области дифференциальных уравнений, функционального анализа и математической физики не требуется.
Ключевые слова: scientific ML, некорректные задачи, нелинейные операторы, нейронный оператор, нейронное дифференциальное уравнение, автоматическое дифференцирование.
🔥4
Семинар про многопоточную очередь
▫️ 18 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→
Выступает: Виталий Аксенов, доцент ИТМО, руководитель совместной лаборатории ИТМО и ВК по распределённым вычислениям и магистерской программы «Программирование и Искусственный Интеллект». Член программных комитетов SmartData и Sysconf, соорганизатор международной школы SPTDC.
Тема: Конкурентные приоритетные очереди и их применение
Аннотация
Приоритетная очередь является одной из фундаментальных структур данных. Например, она является базовым блоком в алгоритмах поиска кратчайшего пути и планировщиках с приоритетами. Чтобы ускорить эти алгоритмы, хочется использовать параллелизацию, а значит хочется иметь многопоточную версию приоритетной очереди. К сожалению, не всё так просто, так как есть явное узкое место — операция extractMin. Теория говорит, что невозможно избавиться от него и одновременно давать чёткие гарантии на операцию. Что же тогда делать?
В этом докладе мы рассмотрим идеи, которые позволяют ускорить конкурентную приоритетную очередь. Затем, мы выясним, что очередь с точными гарантиями на самом деле не всегда нужна, и, как следствие, можно ослабить требования. Как итог, мы получим быструю очередь MultiQueue, основную идею которой (choice of 2) можно использовать в других областях, например, машинном обучении.
Уровень сложности: средний.
Ключевые слова: многопоточность, структуры данных, приоритетная очередь.
▫️ 18 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→
Выступает: Виталий Аксенов, доцент ИТМО, руководитель совместной лаборатории ИТМО и ВК по распределённым вычислениям и магистерской программы «Программирование и Искусственный Интеллект». Член программных комитетов SmartData и Sysconf, соорганизатор международной школы SPTDC.
Тема: Конкурентные приоритетные очереди и их применение
Аннотация
Приоритетная очередь является одной из фундаментальных структур данных. Например, она является базовым блоком в алгоритмах поиска кратчайшего пути и планировщиках с приоритетами. Чтобы ускорить эти алгоритмы, хочется использовать параллелизацию, а значит хочется иметь многопоточную версию приоритетной очереди. К сожалению, не всё так просто, так как есть явное узкое место — операция extractMin. Теория говорит, что невозможно избавиться от него и одновременно давать чёткие гарантии на операцию. Что же тогда делать?
В этом докладе мы рассмотрим идеи, которые позволяют ускорить конкурентную приоритетную очередь. Затем, мы выясним, что очередь с точными гарантиями на самом деле не всегда нужна, и, как следствие, можно ослабить требования. Как итог, мы получим быструю очередь MultiQueue, основную идею которой (choice of 2) можно использовать в других областях, например, машинном обучении.
Уровень сложности: средний.
Ключевые слова: многопоточность, структуры данных, приоритетная очередь.
🔥3