Katser
2.28K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
🗣Анонс выступления

Что?
Доклад "ИИ для диагностики АЭС: обзор мирового опыта"

Когда?
15 сентября 2023 в 11.25 по мск

Где?
Конференция CrossConf. Москва, Красный Октябрь,
пространство Старт Хаб

О чем?
Целью доклада является изучение и обобщение мирового и Российского опыта использования алгоритмов искусственного интеллекта для улучшения диагностики оборудования АЭС, а также демонстрация реальных практических кейсов применения машинного обучения на АЭС.

В этом докладе хочется агрегировать собственный (ранее не опубликованный) опыт в области диагностики из атомного прошлого
👍9❤‍🔥4👏32
🛠 В этом посте писал про решение задачи определения остаточного ресурса для трансформаторов АЭС. Напомню, что решение задачи доступно в посте на хабре. Также теперь на medium доступен перевод статьи на английский.

🎛 Наконец, хотел снова затронуть тему публичных наборов промышленных данных и дополнить этот пост. Для задачи остаточного ресурса (RUL) существует совсем немного таких датасетов, вот список наиболее представительных (разных по сложности, отрасли и другим характеристикам):
- NASA Bearing Dataset
- Battery Remaining Useful Life (RUL)
- NASA Turbofan Jet Engine Data Set. О нем упоминал в этом посте, там больше информации и контекста
- Water Pump RUL
- NPP power transformer RUL. Датасет, на котором и продемонстрировано решение задачи определения остаточного ресурса для трансформаторов АЭС по ссылкам выше

🆓 Все ссылки на Kaggle, поэтому польза их еще и в том, что можете найти там блокноты с примерами решения задачи на датасете и подчерпнуть для себя что-то новое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3👏3
🤖 Исторически так сложилось, что основной мой фокус в применении машинного обучения в промышленности пришелся именно на задачи технического обслуживания и ремонта (ТОиР) оборудования. А если еще точнее, то на задачах технической диагностики (примеры: пост 1, пост 2, пост 3, пост 4, пост 5). Стоит заметить, что внедрение машинного обучения в процессы ТОиР не всегда экономически эффективно на практике (часто эффект сложно посчитать и доказать), поэтому многие разработчики решений в области ИИ концентрируются на задачах оптимизации производственных процессов (как и я в последнее время), где повышение эффективности производства напрямую можно перевести в деньги. Кстати, про эффекты и сложности проведения испытания для подтверждения эффектов будет отдельный пост.

💎 Если вам интересно углубиться в процесс ТОиР, диагностики, разобраться в надежности, предиктивном обслуживании (не путать с предиктивной аналитикой!), да в конце концов посмотреть мемы по этим темам, то заходите в канал Asset Management Press. Там и про машинное обучение бывает.

‼️ Предупреждаю о высоком уровне экспертности автора и сообщества в канале, может быть сложно, но почему бы не погрузиться и не разобраться, если интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4👌31❤‍🔥1👏1
📈 Полезные методы для анализа временных рядов из statsmodel и scipy

Временные ряды - особенный тип данных, требующий часто специфичных подходов к работе. Это обусловлено, например, индексированностью (определенным порядком) точек данных. Мы можем случайно «заглянуть в будущее» неправильно оценить качество моделей. Поэтому даже кросс-валидация строится не так как на табличных данных.

Но в этом посте хочется поговорить о нескольких интересных и не самых простых методах анализа временных рядов из очень полезных библиотек statsmodel и scipy. Берите методы и библиотеку на вооружение! Подробнее в карточках👆

❗️ Кстати, работа методов продемонстрирована на одном из датасетов бенчмарка по поиску аномалий SKAB, о котором подробно расскажу позже.

Что еще почитать по теме?
У меня в закладках накопилось много материалов, вот несколько наиболее общих по теме анализа временных рядов:
YouTube - Очень полный воркшоп-лекция об анализе временных рядов (на англ)
YouTube - Одна из лучших лекций на русском про прогнозирование временных рядов
Github - Набор блокнотов и презентация по анализу временных рядов (на англ)
Ну и еще отлично дополнит этот пост:
• Про определение периода в данных

Обязательно делитесь интересными постами по теме и другими методами в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍9❤‍🔥4
🗯Поиск аномалий в работе установок грануляции пресс-порошка двуокиси урана для изготовления топливных таблеток. Часть 2 — Алгоритм поиска аномалий на основе генерации невязки
Часть 1 здесь. Научная статья по кейсу здесь

В качестве алгоритма обнаружения аномалий в работе был выбран наиболее распространенный алгоритм - на основе генерации и оценки невязки (расхождения, англ - discrepancy или residuals). Одним из преимуществ алгоритма является необходимость иметь только нормальный режим работы оборудования в исторических данных.
Но сначала давайте немного синхронизируемся в терминологии:
Модель машинного обучения - функция, отображающая или переводящая объекты (исходные данные) в предсказания (таргет или ответы)
Алгоритм или метод машинного обучения - процедура или пайплайн, позволяющая превращать обучающую выборку в обученную модель или строить (обучать, подбирать параметры) модель на основе данных
Алгоритм решения задачи (в нашем случае алгоритм поиска аномалий) - это последовательность действий или пайплайн, приводящий к получению результата в терминах бизнеса. Более общее понятие, чем алгоритм машинного обучения. Может содержать препроцессинг, модель машинного обучения и постпроцессинг

Конечно, модель машинного обучения может являться алгоритмом поиска аномалий, например, если задача ставится как бинарная классификация событий (часто в задачах детекции фрода), то кроме классификатора нам больше ничего и не нужно, как правило. Но чаще модель - всего лишь часть алгоритма решения задачи.

О самом алгоритме на основе генерации и оценки невязки рассказано в карточках 👆

👨‍💻Кстати, пример реализации алгоритма в коде продемонстрирован здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6👏3
2310.00332.pdf
10.5 MB
🔬 А вот и долгожданный препринт научной статьи по теме обработки данных и поиска дефектов в нефтегазовых трубопроводах с помощью анализа данных и машинного обучения
Доклад о проекте и описание истории проекта в этом посте

Отмечу несколько моментов:
• В статью не вошло сравнение с SOTA (state-of-the-art) архитектурами, но есть такая статья, где это подробно происследовано для похожей задачи
• Статья ограничена задачей поиска дефектов, про задачу оценки их размеров (сегментации изображений), о которой рассказывал и в докладе, мб когда-нибудь выйдет отдельная статья
• Хотя в статье и предложена архитектура для решения задачи с лучшим качеством, но ничего интересного в этой архитектуре, конечно, нет
• Основной фокус статьи все-таки на препроцессинге: по сравнению с архитектурой сети для классификации изображений результаты исследования методов препроцессинга (заполнения пропусков, центрирования дефектов/швов, масштабирования данных по картинке/по всему датасету) по-моему довольно интересные и очень прикладные!

На самом деле я уже какое-то время не занимаюсь исследованиями, но есть несколько недописанных статей, которые еще будут выходить по мере появления свободного времени, придется потерпеть 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍7👏1🦄1
paper.pdf
1.9 MB
🎩 Природа аномалий в данных

Аномалии в данных могут являться следствием изменений в модели генерации данных (бизнес-процессе, процессе сбора данных, физике или технологии процесса). Однако часто аномалии представляют собой проблемы с данными. Поэтому и выбросы часто приравнивают к недопустимым (некорректным или нефизичным) значениям, хотя вообще более правильно определять их как точечные аномалии и, в зависимости от доменной области, индивидуально оценивать следствием чего эти аномалии являются (все-таки проблемы с данными или с процессом). Кстати, про причины проблем с данными уже писал и рассказывал (все здесь). А из-за важности задачи поиска аномалий в определении качества данных даже пришлось полдоклада о предварительной обработке данных этому посвятить.

🤔 Почему я это все повторяю? На самом деле методы поиска аномалий обычно являются довольно универсальными средствами для обнаружения аномалий разной природы (изменения в процессе или проблемы с данными), а поэтому эта задача актуальна как для специалистов по данным, так и для специалистов, анализирующих процесс. Хотя традиционно к аномалиям=проблемам в данных мы относимся проще и детектируем их какими-нибудь робастными топорными способами, типа трех сигм. А исправляем/фильтруем еще проще - удалением из выборки (но как еще тут поступать - отдельная история). При этом в голове среднего ДСа без специализации на данной области все вышесказанное довольно сильно перемешано (аномалии=проблемы в данных, нет разделения задач changepoint и outlier detection и тд), что скорее даже хорошо и зачастую оправдано.

🤔 Так к чему это все? Прикладываю любопытную статью от вообще-то международного технологического (или все-таки всего лишь телекоммуникационного) гиганта, где задачу поиска точек изменения состояния (changepoint detection) решают именно в рамках стратегии по оценке качества данных, причем предлагают интересные комбинации методов/пайплайны, правда оценивая все полученное на далеко не самых лучших бенчмарках.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤‍🔥4🔥2👏1