Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях. В рамках рабочих обязанностей занимался задачами поиска аномалий, прогнозирования, определения остаточного ресурса и другими задачами машинного обучения в промышленности, в основном связанными с производством. Успел поработать с данными НЛМК, ММК, ТМК, ЧТПЗ, ПМХ, Росатом, ГПН, Сибур, поучаствовав в решении 30+ реальных задач. Сейчас — консультант DS-проектов в промышленности, преподаватель. Больше информации обо мне можно найти на моем сайте ykatser.github.io.
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
🗂 Оглавление постов канала по темам
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍7❤3🤓1
В этом видео я рассказываю, почему машинное обучение и анализ данных нужны везде, почему нужен work-life balance, какую роль в жизни играет спорт и немного о своем пути в профессии. В конце даже шучу.
YouTube
Молодые ученые России. Эксперт по ИИ Юрий Кацер / Выпуск #7
В рубрике «Молодой ученый» Юрий Кацер — эксперт отдела искусственного интеллекта компании «Цифрум» (Росатом) и аспирант программы «Вычислительные системы и анализ данных в науке и технике» Сколтеха — рассказывает, почему машинное обучение и анализ данных…
👍8🔥2🤩2❤1
А вот интервью по теме
Please open Telegram to view this post
VIEW IN TELEGRAM
student.skoltech.ru
Iurii Katser and Viacheslav Kozitsin (RUS)
Путь в Сколтех лежит через хакатон
🔥5🥰3❤2
Личное/О себе
• Интервью для проекта homo science
Хакатоны
• Интервью «Путь в Сколтех через хакатон»
• 5 историй с хакатонов
• Предиктивная аналитика эксгаустеров: часть 1, часть 2
Кейсы применения машинного обучения и data science
• Список материалов и кейсов применения ML и DS в промышленности
• Диагностика электролизеров на производстве ядерного топлива и подходы к решению задачи поиска аномалий
• Диагностика трансформаторов: часть 1, часть 2, часть 3, часть 4
• Диагностика нефтегазовых трубопроводов с помощью машинного обучения: часть 1, часть 2
• Диагностика двигателей самолетов
Предиктивная аналитика и ML/DS задачи
• Подкаст «Будь что будет» о предиктивной аналитике
• Точечные vs коллективные аномалии: возможные задачи и пути их решения
• Все о задаче changepoint detection
• Глубокое обучение в поиске аномалий временных рядов
• Гайд для погружения в поиск аномалий во временных рядах
• Все, что вы хотели знать о задаче остаточного ресурса оборудования
Временные ряды и другие данные
• Библиотеки и инструменты для работы с временными рядами
• Аугментация временных рядов
• Качество и предварительная обработка временных рядов. Часть 1 - Введение, Часть 2 - Обзор методов предварительной обработки данных
• Обзор открытых промышленных данных
Образование в data science
• Источники для изучения DS (книги, курсы и тд)
• Конференции с кейсами применения ML в промышленности
Please open Telegram to view this post
VIEW IN TELEGRAM
👏11🥰4🔥3👍1
🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение на GitHub) в различных отраслях промышленности.
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
📁 Статья на vc и постоянно пополняющийся репозиторий на гитхабе
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Список материалов и кейсов применения ML и DS в промышленности — Yuriy Katser на vc.ru
Мне кажется, что пост может быть полезен как начинающим специалистам или студентам, так и опытным дата сайентистам или руководителям разного уровня. Я сам прошел путь от джуна до руководителя, и мне кажется, что польза может заключаться в следующем:
🔥8❤5👍3🥰1
🗣Анонс выступления
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Telegram
DataStart | 3 июля | конференция Data Science
К нам в программу конференции 26 апреля врывается новый спикер!
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
👍7🔥4❤2
Вообще, тема временных рядов не такая уж и популярная, поэтому я собираю для себя разные материалы в этом репозитории на гитхабе, а также в моих звездах на гитхабе (но там большинство репозиториев не для новичков!).
Please open Telegram to view this post
VIEW IN TELEGRAM
Tproger
Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома
Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно.
🔥8👍5👏4
Подкаст о том, как Data Science и предиктивная аналитика помогают понять, через сколько выгорит сотрудник? Откуда интернет-магазины знают, что вам нужна не пряжа, а пена для бритья? И почему мы до сих пор не смогли предсказать все? Поговорили об этих и других вопросах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👏3
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
5 историй с хакатонов — Yuriy Katser на vc.ru
Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились…
🔥8👍4👏3❤🔥1
На мой взгляд, получилось неплохое дополнение к очень познавательному Циклу постов о подготовке данных, рекомендую почитать: пост 1, пост 2, пост 3.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Reliable ML
Точечные vs коллективные аномалии: возможные задачи и пути их решения
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
👍6🔥4👏4
Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.
При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP
Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.
Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤3🔥3
Так как моя научная деятельность и диссертация связаны с алгоритмами обнаружения аномалий на основе глубокого обучения, я пересмотрел десятки обзоров и сотни (если не тысячи) работ с новыми методами и алгоритмами за последние несколько лет. Вывод примерно один: глубокое обучение лучше классического мл и экспертных/эвристических подходов и в этой области (работа с временными рядами, диагностика и поиск аномалий). То есть понятно, что и мой фокус смещен на выборку статей с глубоким обучением, да и в целом тренд в последние годы такой. При этом не помню статей, где предлагали новый метод, и он не был бы хоть в каких-то условиях лучше бейзлайна или SOTA моделей — иначе зачем вообще эта статья? Последняя мысль, кстати, очень спорная, но об этом другой раз. Вообщем отсюда и взялось, что глубокое обучение бьет все классические алгоритмы.
А как на самом деле?
На практике в проектах ты не всегда успеваешь дойти и повозиться с новыми сетками (и так надо с данными разобраться, с разметкой, бумажными журналами, с постановкой задачи, бейзлайны, бизнес-логика, физика и технология процесса и тд). В лучшем случае после бейзлайна без мл, простых постановок задач и линейных моделей, деревянных моделей, эвристик ты доходишь до рекуррентных сетей простой архитектуры (пара последовательных LSTM слоев или автоэнкодер с LSTM слоями, или даже FF автоэнкодер). Даже простые сетки не всегда хорошо работают, а более сложные иногда и отучить нормально не получается. Это происходит из-за проблем в данных (доклад, статья), небольших объемов, проблем с трансфером знаний даже между единицами оборудованием одной модели.
Поэтому по-прежнему классические алгоритмы, экспертные правила и эвристики активно используются как минимум в промышленности.
Неужели научные статьи врут?
Не совсем так. Я выделяю большую проблему с публичными данными и бенчмарками, на которых в статьях показаны результаты. Совсем мало публичных качественных датасетов в области временных рядов, в области аномалии, в области промышленности и технических систем. Поэтому и в работах часто показаны результаты в очень ограниченных условиях, на каких-то синтетических или сгенерированных данных.
Интересное исследование
Хочу поделиться одним обзором работ поиска аномалий во временных рядах 2022 года. Сравнения были проведены для 71 (очень много!) алгоритма на 976 датасетах (это всего 23 бенчмарка, но согласитесь, что 900+ звучит солиднее!). Картинка из этой статьи с многообразием и классификацией алгоритмов будет в следующем посте. Мне она так понравилась, что теперь использую ее во всех докладах по теме. Нам интересны выводы по итогам сравнения, дальше цитата из статьи:
“we found that deep learning approaches are not (yet) competitive despite their higher processing effort on training data. We could also confirm that “simple methods yield performance almost as good as more sophisticated methods”. Still, no single algorithm clearly performs best.”
То есть по-прежнему нет серебряной пули или явных лидеров как в классическом ML с их бустингами, да и превосходство глубокого обучения пока не подтверждается. Так что подход как и раньше — перебор алгоритмов, пока один не окажется лучше для вашей конкретной задачи и ваших конкретных данных, а опыт и экспертные/доменные знания все еще важен и может бить большие модели. Но, думаю, это не на долго.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7👍5🔥3❤🔥1
• «Диагностика нефтегазовых трубопроводов с помощью машинного обучения»
21 мая в 14:00 по мск (онлайн+офлайн)
• «Open-source бенчмарки для задач обнаружения аномалий в промышленных временных рядах и SKAB»
26 мая в 16:15 по мск (онлайн)
• «Предварительная обработка и поиск аномалий во временных рядах»
4 июня в 15:15 по мск (онлайн)
Кстати, маловероятно, но время и дата могут измениться, буду держать в курсе!
Потом обязательно выложу видео выступлений и расскажу о них подробнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👏7❤🔥5
Media is too big
VIEW IN TELEGRAM
Краткое содержание моего вчерашнего выступления🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7💯4👍3❤🔥1
Что касается data science части, то в рамках проекта успели попробовать почти все подходы к решению задачи поиска и прогнозирования аномалий:
• эвристики, экспертные правила, оценки распределений и других статистических характеристик сигналов. Сюда же относятся некоторые статистические критерии, типа Хотеллинга, cusum, ewma, проверяющие гипотезы об изменениях статистических характеристик сигналов.
• Supervised классификация каждой точки. Если есть разметка для всех моментов времени, можно поставить задачу как бинарную (или многоклассовую) классификацию, определяя класс каждой точки в выборке. Обычно осложняется отсутствие правильной разметки.
• Supervised классификация интервалов. Указание, какой интервал является аномальным, а какой нормальным. Можно применять на скользящем окне, если задача состоит в том, чтобы указать будет ли аномалия в какой-то (следующий) период времени. Так же бывают проблемы с разметкой.
• Semi-supervised подход. Построение модели нормального режима работы, после чего использовании этой модели для поиска отклонений от нормального режима. Если модель уловила закономерности в норме, то в случае возникновения аномалий закономерности будут другими и модель будет сильно ошибаться, а разница между моделью и реальными данными будет значительной. Подход очень распространен, так как нужна всего лишь разметка нормального режима работы, которая бывает доступна довольно часто.
В данном случае как раз первый подход был лучшим среди всех, не считая ансамблей на основе разных подходов. Но более подробно об этом я еще возможно когда-нибудь расскажу в научной или технической статье. Конечно, обезличенно.
Кстати, этот и другие кейсы применения data science и машинного обучения в промышленности можно найти в этом репозитории на гитхабе.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
10.11.2021 // AIJ // Мониторинг технического состояния электролизеров. Юрий Кацер, Цифрум, Росатом
👍7❤🔥3🔥3👏1
• часть про курсы, материалы и тд — стоит прочитать и посмотреть все, если нет какой-то хорошей базы, например, из института или хороших платных курсов (ФКН ВШЭ, физтех и др.). Курсы и материалы из тех, что рекомендую смотрел все, но не все очень внимательно, обычно беру из курса то, что нужно.
• часть про книги — не считаю, что все надо прочитать, но если надо подтянуть или разобраться в какой-то подобласти, то можно брать книжки из списка. Книги читал не все, но непрочитанные лежат в списке to read и ждут своей очереди.
Learning by doing
Я убежден, что во время изучения data science и machine learning надо сосредоточиться на практике как можно раньше (как только получается что-то делать) и учиться по типу "learning by doing".
В начале пути далеко не обязательно знать, что "под капотом" у алгоритмов и методов. Зависит от специфики работы и задач. Вот теорвер и матстат действительно часто нужны в работе, например, для анализа данных, для анализа результатов алгоритмов, для дизайна экспериментов и тд.
Как можно получать практику?
• Стажировки, работа, реальные проекты. Очевидно.
• Хакатоны, соревнования по анализу данных. Самой распространенной площадкой для соревнований является kaggle.com. Там еще есть датасеты, курсы и много полезных примеров кода и блокнотов, решающих самые разные задачи.
• Важной и интересной практикой являются тренажеры. Вот 2 известных сервиса, которыми я пользовался сам:
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Источники для изучения data science и machine learning (книги, курсы и не только) — Yuriy Katser на vc.ru
Yuriy Katser 07.09.2022
👍12❤6🔥2
📈 Общая задача обнаружения аномалий во временных рядах часто разделяется на две отдельные подзадачи: обнаружение выбросов или бинарная классификация (для точечных аномалий) и обнаружение точек изменения состояния (changepoint detection, для коллективных аномалий). Более подробно я писал в этом посте.
Ранее на pycon’е я подробно рассказывал именно о подзадаче changepoint detection, методах и библиотеках на python для решения задачи. Доклад может помочь:
• более глубоко разобраться в задаче поиска аномалий во временных рядах и понять разницу между типами аномалий (точечные, коллективные) и типами математических постановок задач (бинарная классификация, changepoint detection);
• узнать о наиболее популярных существующих библиотеках на python, решающих задачи поиска аномалий;
• понять, как ставить задачу поиска коллективных аномалий (changepoint detection) во временных рядах;
• понять разницу между оффлайн и онлайн постановками задачи;
• узнать основные методы решения этой задачи, в том числе реализованные в библиотеках на python;
• узнать наиболее распространённый подход к решению задачи — генерация невязки сигнала (на основе различных моделей машинного обучения) и как легко реализовать этот подход на python.
Ранее на pycon’е я подробно рассказывал именно о подзадаче changepoint detection, методах и библиотеках на python для решения задачи. Доклад может помочь:
• более глубоко разобраться в задаче поиска аномалий во временных рядах и понять разницу между типами аномалий (точечные, коллективные) и типами математических постановок задач (бинарная классификация, changepoint detection);
• узнать о наиболее популярных существующих библиотеках на python, решающих задачи поиска аномалий;
• понять, как ставить задачу поиска коллективных аномалий (changepoint detection) во временных рядах;
• понять разницу между оффлайн и онлайн постановками задачи;
• узнать основные методы решения этой задачи, в том числе реализованные в библиотеках на python;
• узнать наиболее распространённый подход к решению задачи — генерация невязки сигнала (на основе различных моделей машинного обучения) и как легко реализовать этот подход на python.
YouTube
Юрий Кацер. Поиск точек изменения состояния (changepoint detection) на python
Общая задача обнаружения аномалий во временных рядах часто разделяется на две отдельные задачи: обнаружение выбросов или бинарная классификация (для точечных аномалий) и обнаружение точек изменения состояния (changepoint detection, для коллективных аномалий).…
👍10🔥4❤3