🗣Анонс выступления
Что?
Доклад "ИИ для диагностики АЭС: обзор мирового опыта"
Когда?
15 сентября 2023 в 11.25 по мск
Где?
Конференция CrossConf. Москва, Красный Октябрь,
пространство Старт Хаб
О чем?
Целью доклада является изучение и обобщение мирового и Российского опыта использования алгоритмов искусственного интеллекта для улучшения диагностики оборудования АЭС, а также демонстрация реальных практических кейсов применения машинного обучения на АЭС.
В этом докладе хочется агрегировать собственный (ранее не опубликованный) опыт в области диагностики из атомного прошлого
Что?
Доклад "ИИ для диагностики АЭС: обзор мирового опыта"
Когда?
15 сентября 2023 в 11.25 по мск
Где?
Конференция CrossConf. Москва, Красный Октябрь,
пространство Старт Хаб
О чем?
Целью доклада является изучение и обобщение мирового и Российского опыта использования алгоритмов искусственного интеллекта для улучшения диагностики оборудования АЭС, а также демонстрация реальных практических кейсов применения машинного обучения на АЭС.
В этом докладе хочется агрегировать собственный (ранее не опубликованный) опыт в области диагностики из атомного прошлого
👍9❤🔥4👏3❤2
🛠 В этом посте писал про решение задачи определения остаточного ресурса для трансформаторов АЭС. Напомню, что решение задачи доступно в посте на хабре. Также теперь на medium доступен перевод статьи на английский.
🎛 Наконец, хотел снова затронуть тему публичных наборов промышленных данных и дополнить этот пост. Для задачи остаточного ресурса (RUL) существует совсем немного таких датасетов, вот список наиболее представительных (разных по сложности, отрасли и другим характеристикам):
- NASA Bearing Dataset
- Battery Remaining Useful Life (RUL)
- NASA Turbofan Jet Engine Data Set. О нем упоминал в этом посте, там больше информации и контекста
- Water Pump RUL
- NPP power transformer RUL. Датасет, на котором и продемонстрировано решение задачи определения остаточного ресурса для трансформаторов АЭС по ссылкам выше
🆓 Все ссылки на Kaggle, поэтому польза их еще и в том, что можете найти там блокноты с примерами решения задачи на датасете и подчерпнуть для себя что-то новое.
🎛 Наконец, хотел снова затронуть тему публичных наборов промышленных данных и дополнить этот пост. Для задачи остаточного ресурса (RUL) существует совсем немного таких датасетов, вот список наиболее представительных (разных по сложности, отрасли и другим характеристикам):
- NASA Bearing Dataset
- Battery Remaining Useful Life (RUL)
- NASA Turbofan Jet Engine Data Set. О нем упоминал в этом посте, там больше информации и контекста
- Water Pump RUL
- NPP power transformer RUL. Датасет, на котором и продемонстрировано решение задачи определения остаточного ресурса для трансформаторов АЭС по ссылкам выше
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
How to Determine the Remaining Useful Life (RUL) of Industrial Equipement Using Python and Machine Learning
Scope: The objective of writing this article was to set the remaining useful life (RUL) problem, with data, and show an approach to it, and…
👍15🔥3👏3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4👌3❤1❤🔥1👏1
Временные ряды - особенный тип данных, требующий часто специфичных подходов к работе. Это обусловлено, например, индексированностью (определенным порядком) точек данных. Мы можем случайно «заглянуть в будущее» неправильно оценить качество моделей. Поэтому даже кросс-валидация строится не так как на табличных данных.
Но в этом посте хочется поговорить о нескольких интересных и не самых простых методах анализа временных рядов из очень полезных библиотек statsmodel и scipy. Берите методы и библиотеку на вооружение! Подробнее в карточках
Что еще почитать по теме?
У меня в закладках накопилось много материалов, вот несколько наиболее общих по теме анализа временных рядов:
• YouTube - Очень полный воркшоп-лекция об анализе временных рядов (на англ)
• YouTube - Одна из лучших лекций на русском про прогнозирование временных рядов
• Github - Набор блокнотов и презентация по анализу временных рядов (на англ)
Ну и еще отлично дополнит этот пост:
• Про определение периода в данных
Обязательно делитесь интересными постами по теме и другими методами в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍9❤🔥4
Часть 1 здесь. Научная статья по кейсу здесь
В качестве алгоритма обнаружения аномалий в работе был выбран наиболее распространенный алгоритм - на основе генерации и оценки невязки (расхождения, англ - discrepancy или residuals). Одним из преимуществ алгоритма является необходимость иметь только нормальный режим работы оборудования в исторических данных.
Но сначала давайте немного синхронизируемся в терминологии:
• Модель машинного обучения - функция, отображающая или переводящая объекты (исходные данные) в предсказания (таргет или ответы)
• Алгоритм или метод машинного обучения - процедура или пайплайн, позволяющая превращать обучающую выборку в обученную модель или строить (обучать, подбирать параметры) модель на основе данных
• Алгоритм решения задачи (в нашем случае алгоритм поиска аномалий) - это последовательность действий или пайплайн, приводящий к получению результата в терминах бизнеса. Более общее понятие, чем алгоритм машинного обучения. Может содержать препроцессинг, модель машинного обучения и постпроцессинг
Конечно, модель машинного обучения может являться алгоритмом поиска аномалий, например, если задача ставится как бинарная классификация событий (часто в задачах детекции фрода), то кроме классификатора нам больше ничего и не нужно, как правило. Но чаще модель - всего лишь часть алгоритма решения задачи.
О самом алгоритме на основе генерации и оценки невязки рассказано в карточках 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6👏3
2310.00332.pdf
10.5 MB
Доклад о проекте и описание истории проекта в этом посте
Отмечу несколько моментов:
• В статью не вошло сравнение с SOTA (state-of-the-art) архитектурами, но есть такая статья, где это подробно происследовано для похожей задачи
• Статья ограничена задачей поиска дефектов, про задачу оценки их размеров (сегментации изображений), о которой рассказывал и в докладе, мб когда-нибудь выйдет отдельная статья
• Хотя в статье и предложена архитектура для решения задачи с лучшим качеством, но ничего интересного в этой архитектуре, конечно, нет
• Основной фокус статьи все-таки на препроцессинге: по сравнению с архитектурой сети для классификации изображений результаты исследования методов препроцессинга (заполнения пропусков, центрирования дефектов/швов, масштабирования данных по картинке/по всему датасету) по-моему довольно интересные и очень прикладные!
На самом деле я уже какое-то время не занимаюсь исследованиями, но есть несколько недописанных статей, которые еще будут выходить по мере появления свободного времени, придется потерпеть
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍7👏1🦄1
paper.pdf
1.9 MB
Аномалии в данных могут являться следствием изменений в модели генерации данных (бизнес-процессе, процессе сбора данных, физике или технологии процесса). Однако часто аномалии представляют собой проблемы с данными. Поэтому и выбросы часто приравнивают к недопустимым (некорректным или нефизичным) значениям, хотя вообще более правильно определять их как точечные аномалии и, в зависимости от доменной области, индивидуально оценивать следствием чего эти аномалии являются (все-таки проблемы с данными или с процессом). Кстати, про причины проблем с данными уже писал и рассказывал (все здесь). А из-за важности задачи поиска аномалий в определении качества данных даже пришлось полдоклада о предварительной обработке данных этому посвятить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤🔥4🔥2👏1