Katser
2.28K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
Предиктивная аналитика эксгаустеров. Часть 2
Продолжение этого поста

В промышленных проектах часто есть соблазн взять большое число доступных данных и поробовать поприменять на них современные архитектуры нейронок, поимплементировать подходы из научных статей, пособирать необычные пайплайны и ансамбли алгоритмов. Когда я занимался ресерчем более активно — сам любил так делать 🤤. Но с опытом пришло осознание, что нужно стремиться к упрощению моделей и подходов, чтобы обеспечить прозрачность и простоту решения. Сложность и интерпретируемость решения сильно коррелирует с принятием и доверием к решению на производстве. Поэтому большая часть времени работы над решением приходится на обработку данных (помните: garbage in-garbage out), а не на разработку сложного алгоритма решения задачи.
Идеальный сценарий:
много времени потрачено на подготовку данных, генерацию физически обоснованных признаков и эвристик, используемых экспертами и технологическим персоналом на производстве, а в качестве модели выбрана линейная модель, на которой легко объяснить причину принятия того или иного решения.


💻 Так и в этом кейсе с эксгаустерами во время конкурса мы уделили довольно много времени следующим аспектам:
• Переразметка инцидентов (ручная проверка КАЖДОЙ аномалии и попытка определить реальный момент возникновения и устранения аномалий)
• Фильтрация инцидентов из журнала ТОиР (плановые работы, непрогнозируемые аномалии, неправильно размеченные кейсы)
• Подготовка к обучению модели (ресэмплирование, подбор оптимальной стратегии заполнения пропусков, очистка данных, выделение нормальных режимов по электрическим и вибрационным параметрам)
• Генерация дополнительных признаков (отклонение вибрация, температур от медианного значения, тренды и др.)
• Формирование правильных и честных обучающих и тестовых выборок, без пересечения, заглядывания в будущее и тд.

Также часто говорю, что возможностью обучения подходов и алгоритмов с учителем (supervised) стоит пользоваться, они часто бьют скор подходов без учителя/частичного обучения с учителем (unsupervised/semi-supervised), вот, кстати, самый популярный. Но не забывайте, что требования к количеству и качеству разметки возрастают!

Однако интересно познакомиться с противоположным подходом к решению задачи! Статья и репозиторий с непростым решением задачи с того же конкурса (ансамбль, нейронки, эвристики, все как мы любим) + описание данных и сами данные (надо только хорошо поискать ссылки в репозитории). Публично доступные данные с реальных производств мы не упускаем из виду, обязательно сохраняем, пригодятся 🌍. А теперь вы и сами можете попробовать решить задачу — все для этого есть!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥42❤‍🔥1👏1
Данные с дуговой сталеплавильной печи ❤️‍🔥

Продолжаю собирать и делиться интересными датасетами. На этот раз речь о данных с дуговой сталеплавильной печи (ДСП). Только недавно обновил датасет и описание к нему на каггле, теперь можно даже цитировать:
Iurii Katser, Igor Mozolin, Maxim Mezhov, & Vladislav Travnikov. (2023). Industrial Data from the Electric Arc Furnace [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DS/1671405


Данные реальные и довольно близки к сырым, поэтому, как обычно, есть сложность с трудоемкостью процесса агрегации данных и сборки датасета для обучения из нескольких файлов. Будет время — приведу в порядок свой блокнот с агрегацией и выложу, а пока можете сами попробовать! 🧹Вполне полезная практика и опыт работы с реальными данными.

Задачи можно решать три:
• Оценка/прогноз температуры металла в процессе плавки
• Оценка/прогноз окисленности металла в процессе плавки
• Оценка/прогноз химического состава металла после ДСП
Решение задач может позволить оптимизировать время плавки, затраты на электроэнергию, использованную для нагрева и в результате повысить производительность. Больше деталей по ссылке. 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
👏14👍6❤‍🔥5🔥2
ИИ для диагностики АЭС: обзор мирового опыта 🌎

Опубликован доклад по итогам выступления на кроссконф. В этом посте дополню описание доклада и сам доклад некоторыми мыслями.

Дисклеймер: В данном докладе под термином ИИ мы понимаем скорее машинное обучение и используем эти термины взаимозаменяемо.

Раннее обнаружение отклонений в работе оборудования от нормального состояния непосредственно влияет на безопасность атомных электростанций. Улучшение качества работы систем онлайн-мониторинга технического состояния оборудования, помимо роста безопасности, приводит к следующим эффектам:
• Рост коэффициента использования установленной мощности (КИУМ) за счет снижения времени внеплановых простоев.
• Оптимизация загрузки и ремонтов оборудования за счет раннего обнаружения дефектов и понимания текущего технического состояния.
• Увеличение качества диагностики неисправностей за счет лучшего анализа и понимания данных, связанных с зарегистрированными неисправностями.
• Возможность продления срока службы элементов АЭС за счет оценки текущего технического состояния и оставшегося ресурса.

В настоящее время развитие алгоритмов и методов машинного обучения переживает стадию активного развития, вследствие роста доступности и эффективности инструментов анализа, в том числе для работы с промышленными приложениями. Использование современных средств и методов анализа данных позволяет развивать и улучшать существующие системы мониторинга АЭС. Важной особенностью является возможность повышать качество анализа информации, собираемой сегодня, без оснащения АЭС дополнительными измерительными каналами 🧐

Внедрение методов и алгоритмов ИИ на промышленных предприятиях сталкивается с барьерами, которые замедляют интеграцию решений. К ним можно отнести:
• высокая зарегулированность (критерии безопасности);
• высокие риски окупаемости решения;
• внутреннее сопротивление кадров;
• отсутствие подготовленных кадров (персонал разрабатывающий, эксплуатирующий и поддерживающий решения);
• отсутствие инфраструктуры.

Несмотря на указанные барьеры, в настоящее время публикуется большое количество исследований, посвященных темам применения методов и алгоритмов ИИ для оценки и прогнозирования технического состояния оборудования АЭС в России и мире.
Большинство исследователей выделяют три подхода к обнаружению неисправностей: на базе физической̆ модели оборудования, без использования физической модели и гибридный̆ подход.
• Под физической моделью понимается математическое моделирование объекта диагностирования с помощью уравнений, описывающих физику происходящих в системе процессов. Физическое моделирование безусловно является предпочтительным для любой задачи диагностирования благодаря точности и интерпретируемости результата. Основным недостатком является сложность создания качественной модели оборудования.
• Методы и алгоритмы ИИ относятся ко второму подходу — без использования физической модели.
• Гибридные модели создаются для использования сильных сторон разных подходов. Построение таких моделей может происходить следующим образом: моделируются основные компоненты системы, а дальше модель уточняется с помощью методов ИИ.

Презентация в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤‍🔥3
Данные с машины непрерывного литья заготовки (МНЛЗ) 🔥🔥🔥

Опять реальные данные! В этот раз датасет уже собран в один файл и сформирован таргет для решения задачи регрессии с целью определения остаточного ресурса (RUL). Сам датасет и описание выложены на каггле, а в посте дам коротко описание проблематики. Кстати, опять можно цитировать:
Iurii Katser, Maxim Mezhov, Igor Mozolin, Vladislav Travnikov, Viacheslav Kozitsin. (2023). RUL Dataset from Continuous Casting Machine [Data set]. Kaggle.
https://doi.org/10.34740/KAGGLE/DS/4014009


Термины
Машина непрерывного литья заготовки (МНЛЗ) — это агрегат, который позволяет преобразовать жидкую сталь в твердую заготовку заданного сечения, из которой в дальнейшем производится прокат, например, арматура
Гильза кристаллизатора — наиболее ответственная и быстроизнашиваемая часть кристаллизатора МНЛЗ. Гильза представляет собой водоохлаждаемую медную трубу круглого или профильного сечения. Расплавленный металл, контактируя со стенками гильзы, кристаллизуется и, тем самым, формируется первичная твердая оболочка слитка

Проблематика
Основная проблема, с которой сталкивается производство при эксплуатации гильз, это образование дефектов поверхности медной трубы гильзы, искажение профиля её внутренней полости. При этом нарушается тепловой режим работы, что, в свою очередь, отражается на качестве получаемых слитков: появляются дефекты формы (например, диагонали квадратного слитка оказываются неравны, возникает так называемый дефект “ромбичность”), изменяются размеры сторон, могут появиться трещины в углах. Указанные дефекты приводят к проблемам в следующем переделе (в прокатке): снижается качество продукции, растет количество брака, что неблагоприятно влияет на экономику производства. Размеры гильзы с определенной периодичностью измеряются по всей длине, при отклонении этих размеров от основных параметров происходит их отбраковка.
Может наблюдаться уменьшение срока службы медных гильз кристаллизатора на производстве, что может быть связано с изменением параметров работы самой МНЛЗ (температура входящей стали, температура охлаждающей воды и пр.)

Итого выделяются 3 основные проблемы
• Преждевременные остановки машин непрерывного литья заготовки (МНЛЗ)
• Брак заготовок
• Повреждения и простои оборудования
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4❤‍🔥3👏1
🔍Интерпретация модели vs интерпретация процесса

Я часто говорю и пишу про простоту и интерпретируемость решений, потому что для приживаемости решений в промышленности без этого ну очень сложно. Даже утверждаю, что удовлетворяющее пользователя решение без ML лучше решения с ML (почти всегда), но об этом еще поговорим в будущем. В этом посте хотелось бы затронуть тему интерпретируемости в целом и поделиться докладом и блокнотом к нему. На мой взгляд, один из лучших докладов про интерпретируемость ML моделей, позволяющий “открыть глаза” и прояснить некоторые искажения. Рекомендую смотреть дата сайентистам разного уровня.

Немного тезисов доклада:
• Важно не путать, говоря об интерпретации, о модели или о процессе идет речь. Почти всегда мы интерпретируем модель, то есть говорим, как себя ведет модель и почему
• Нужно аккуратно использовать веса линейных моделей при интерпретации процесса. И еще простая истина - влияние признаков является значимым только при условии, что взаимосвязь линейна.🤯
• Предикт модели действительно может не зависить от признаков, получивших нулевые веса при L1 регуляризации, но это не значит, что моделируемая величина (таргет) от этих признаков не зависит
• В качестве метода довольно честной оценки влияния или предсказательной способности признака на таргет можно использовать качество предсказаний модели, построенной на каждом отдельном признаке (кол-во моделей = кол-ву признаков)
• Процесс максимально честной интерпретации процесса может быть довольно сложным и трудозатратным (да-да, SHAP values тоже не являются спасением, в докладе и про это есть)
• И еще много всего интересного в докладе

⁉️🤔Напоследок скажу, что доклад подсвечивает проблему и хорошо ее описывает, но, к сожалению, не дает методологии, как с проблемами и искажениями при интерпретации бороться. Только подсказки, где можно ошибиться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥7❤‍🔥2🤔1
Стоило мне совсем недавно написать, что секции "ИИ в промышленности" давно нет на AIJourney, как меня пригласили выступить на этой секции на AIJ'23. Иронично 🌈

В выходной день (больше ведь нечем заняться?!) спешу поделиться публично доступными видео с докладами! 📱Спикеры из Conundrum, Норникель, Росатом, Сибур и других компаний, непосредственно связанных с применением ML, AI и анализа данных в промышленности.

Немного о моем докладе: в докладе рассказано о задачах машинного обучения в промышленности, а также затронуты вопросы особенностей и проблем в промышленных данных, оценки потенциальных эффектов, проведения тестирования решения. Также представлены особенности внедрения и, что важнее, рекомендации для успешного внедрения машинного обучения в промышленности, которые я собрал из своего опыта и опыта многих коллег. Наконец, немного затронул вопросы трендов в машинном обучении в промышленности.

Кстати, интересно ваше мнение по поводу затронутых в докладе вопросов! Презентация уже традиционно ждет в комментариях👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥8👏4❤‍🔥1🤩1
⚪️ Посетил выставку AI: Artificial Intelligence, посвященную истории, возможностям, а также этическим и законодательным вызовам искусственного интеллекта

Проходит в Барселоне до 17 марта 2024 года. Популяризации темы рад, но, в целом, ничего невероятного, скорее научно-популярная выставка с большим числом общих слов и маркетинговых материалов. Из интересного: довольно подробно можно познакомиться с историей развития ИИ и машинного обучения, пообщаться с Элизой (ну и чатгпт тоже, хотя этим никого не удивишь), поиграть с альфаго, посмотреть и почитать о разных аспектах (железо, алгоритмы, этика, прикладные и развлекательные кейсы с ИИ в разных областях знаний и многое другое).

🔆 На фото и видео несколько объектов:
• фото 2: информация о выставке
• фото 3: The Analytical Engine by Charles Babbage
• фото 4: The Bombe device
• фото 5: Deep Blue by IBM
• видео: популярный кейс распознавание языка жестов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👏5🔥4
🌍 Какие задачи решает машинное обучение в промышленности?

На сегодняшний день уже было продемонстрировано, что машинное обучение может решить множество задач на производстве, в энергетике, добыче и других отраслях промышленности. Конечно, специфичных постановок задач в разных отраслях и разных технологических процессах можно найти огромное количество, но так или иначе мы всегда сводим их к понятным типовым формулировкам. Картинка (на самом деле слайд из моей недавной презентации) систематизирует довольно большое число типовых задач, причем верхняя часть собрана из моего практического опыта, а нижняя взята из довольно интересной обзорной статьи (как скачивать тексты статей с помощью scihub учил в этом посте).

Большой пост с подробным разбором всех задач в разработке, а пока выделю наиболее популярные:
• Оптимизация процесса и входных условий/материалов. Причем задача может решаться как в виде рекомендаций, так и в виде автоматического управления процессом (apc). Решение именно этих задач чаще всего самое экономически выгодное.
• Список задач ТОиР (мониторинг, поиск и локализация аномалий, прогноз RUL). Об этом много пишу, материалы в оглавлении. Задачи лежат на поверхности, ML действительно хорошо дополняет методы неразрушающего контроля. Но есть проблемы с экономическим эффектом и успешностью проектов, так как данных о поломках бывает слишком мало.
• Прогноз и контроль качества продукции. Пересекается с первым пунктом, но здесь также речь об автоматизации и улучшении процессов диагностики продукции. Часто применимо CV и классический ML.

💪Чем выше уровень дата сайентиста, тем больше различных постановок задач полезно знать и иметь представление об их решении. Лучше опыта участия в различных проектах по-прежнему ничего не придумали, поэтому так ценятся консультанты, посмотревшие на десятки бизнесов и процессов за короткое время. Но и насмотренность можно развивать, например, перенимая опыт коллег из публичных докладов и статей, напомню, что собираю список кейсов применения ML в промышленности здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥2❤‍🔥1
Анализ и прогнозирование временных рядов и можно ли зарабатывать с их помощью 🪙
Недавно стал гостем в Machine Learning podcast (можно слушать на разных площадках).
Канал горячо рекомендую, там помимо подкастов с кучей интересных гостей (сам люблю послушать) еще много полезных активностей. 🧘‍♀️

О выпуске
• Поговорили про временные ряды и самую любимую задачу — прогнозирование. Конечно, не забыли и про промышленность.
• Много теории, поэтому практику охватить не успели, надеюсь, получится о практических кейсах рассказать отдельно.
• Ценным может быть список материалов, которые упоминал в выпуске.

Не первый раз участвую в подкастах и признаюсь, что такой формат мне нравится чуть больше, чем лекции и доклады из-за возможности вести диалог, даже в докладах стараюсь больше общаться с аудиторией, когда это уместно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥9💯21👎1
👨‍💻Где и что я публикую?

Так как я публикую материалы сразу на нескольких площадках (и люблю все систематизировать 🙂) — решил собрать всю информацию в одном посте. Кроме канала можно никуда не подписываться, так как рано или поздно все публикации появляются здесь — в этом, отчасти, и есть его замысел. Давайте к сути. Площадки:
GitHub — мои опенсорс проекты и списки интересных мне ссылок/проектов/репозиториев по самым разным темам
scholar.google и researchgate —информация о моих научных работах
habr — большие статьи на околотехнические темы
medium — в основном скорректированные и адаптированные переводы статей с хабра
vc — статьи на более общие темы (хакатоны, развитие в DS) или более короткие заметки, не доросшие до полноценной статьи
kaggle — для публикации датасетов (сам тоже там люблю поискать датасеты для каких-нибудь r&d проектов, а вот на соревнования времени совсем не хватает)

Зачем мне эти площадки?
Я использую эти площадки, а также публикую там материалы для той же систематизации своих знаний или бесконечных списков из ссылок на интересные материалы.

Помогают ли профили в карьере?
Я всегда рекомендую студентам или слушателям моих докладов участвовать в опенсорсе (GitHub/kaggle), так как наличие опыта соревнований, пет проектов, контрибьютинга выгодно отличает таких кандидатов на ранних этапах карьеры, не считая пользы для развития навыков и приобретения новых знаний. Хотя я не уверен, что сейчас мои профили имеют какое-то большое значение для заказчиков/работодателей. Не обязательно заводить много профилей, можно сконцентрироваться на чем-то одном и понемного развивать. Кстати, указывать в резюме пустые профили на кэгл или гитхаб — это моветон (на мой взгляд), поучаствуйте хоть в чем-то или запилите классификацию кошечек и собачек, отличный пет-проект! 🐈‍⬛
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17👏3🤝3❤‍🔥1
👨‍💻Популярность ИИ в промышленности по данным разных аналитических отчетов. Часть 1

В начале своих обзорных докладов и лекций стараюсь дать оценку места Промышленности среди остальных отраслей экономики.
tl;dr: популярность ИИ и ML в промышленности далека от ритейла, маркетинга и др.
⁉️Среди объяснений: низкая автоматизация производств, низкая рентабельность большинства тех. процессов, нехватка кадров, проблемы с данными, консерватизм отрасли.

Довольно показательна актуальная на 2021 год карта компаний, занимающихся ИИ в России. Немного моих мыслей:
• Digital Petroleum учтена 3 раза, Mechanica AI уже закрылась, есть неучтенные компании, например, Conundrum, но порядок цифр, кажется, что верный
• Большую роль играют "дочки" крупных холдингов: Северсталь диджитал, Цифровые технологии и платформы (еврохим), Цифрум (росатом), Сибур диджитал и др, которые не попали в список из-за методологии
• Более интересным мне показалась другое число: 0.2% (🧐) — это суммарная выручка компаний из сегмента "Промышленность" на 2020 г. Для сравнения у сегмента FinTech — 17.5%
• Есть вопросы к методологии и к глубине анализа авторами именно сегмента "Промышленность"

Распределение по классам задач
"IoT analytics research 2019 — Industrial AI market report 2019-2025" дает такое распределение кол-ва кейсов ИИ по направлениям:
• ТОиР — 24.3%
• Контроль и управление качеством — 20.5%
• Оптимизация процессов, включая советчики и управление процессом (apc) — 16.3%
• Остальные задачи (оптимизация цепочек поставок, кибербезопасность и тд) — значительно меньше
С топ-3 и их значительным отрывом склонен согласиться, но думаю, что "Оптимизация процессов" набирает популярность, а "ТОиР" немного теряет.

Распределение по отраслям промышленности
Согласно отчету “Технологии искусственного интеллекта. АПР Москвы, 2019" распределение следующее:
• 44 % — в дискретном производстве (машиностроение, авиастроение и тд)
• 22 % — в процессном производстве (металлургия, химия, добыча и тд)
• 11 % — в электроэнергетике
• 23 % — научные работы университетов (🧐)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4👏3
🔭Распознавание дефектов изоляции линий электропередач с помощью машинного зрения (CV). Часть 1

Наткнулся на такое соревнование, правда уже после его окончания. Интересен пост в обсуждениях к страничке соревнования на кэггле под названием "Что это за ужас?". Пересказывать не буду — стоит перейти и почитать (лишь добавлю, что проблемы на хакатонах — не редкость, писал о своих травмах своем опыте здесь)🏌️

Ну а нам интересно другое: еще одна задача, решающаяся с помощью ML в энергетике, данные и код. Так как с задачей уже сталкивался, поделюсь наработками из прошлого в дополнение к соревнованию.

Задача
Необходимо обнаруживать дефекты изоляторов (пример на картинке) линий электропередач (оплавления, сколы, трещины и др). Несмотря на наличие различных методов контроля и диагностики повреждений, популярным остается метод визуального контроля. Чтобы сделать его более эффективным можно использовать сетап дрон+CV.

Подход к решению
Чтобы автоматизировать обработку данных с дрона, можно применять CV, в частности, сначала можно решать задачу сегментации (выделять изоляторы, пример на картинке к посту), а после (или вместо) решать задачу классификации (без повреждений/с повреждениями + тип повреждений).

Детально про задачу и подходы к решению с результатами можно почитать моих коллег из сколтеха по проекту здесь.

Данные
Данные с соревнования из начала поста доступны на кэггле и по ссылкам в описании, но здесь доступен еще один архив данных с разметкой для задач сегментации изоляторов и классификации дефектов.

Код
Пара блокнотов доступна на кэггле, более представительный блокнот с решением задач сегментации (Unet) и классификации (VGG) здесь.

Отличный потенциальный пет-проект или пример прикладного ресерча без научных открытий. 😼
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥73
Поздравляю всех с Новым годом!

Пост с подведением итогов года будет позже, а пока подобьем важные статистические показатели для канала:

🥚В 2023 году канал появился (8 месяцев и 12 дней назад)

💪За 8 месяцев канал вырос до 850+ подписчиков

😋Написано 90+ содержательных постов

Благодарен каждому из вас за доверие и участие! Stay tuned
Please open Telegram to view this post
VIEW IN TELEGRAM
👍335🥰5🏆31🔥1🍾1
Подведение итогов года и постановка целей на следующий

Не будем задаваться вопросами, необходимо ли ставить цели, не переоценен ли эффект от этого, зачем структурировать и делать этот процесс регулярным, просто скажу, что для меня это работает. Поэтому перейду сразу к своим правилам подведения итогов и постановки целей на год.

1️⃣Прохожу этот процесс 4ый раз, каждый год внося правки и слегка улучшая (меняю детализацию, правила приоритезации, категории)

2️⃣Занимает процесс несколько дней: как правило, подвожу итоги года за 1 присест, а собираю планы на следующий за 2-3, даю себе время подумать, чего бы мне еще хотелось и что я мог забыть. Предпочитаю сделать это до наступления НГ, но можно и на январски праздниках

3️⃣На сегодняшний день выделяю условные 4 группы целей: работа, академия+опенсорс, личный бренд, быт и отношения. Не стараюсь поставить цели во всех сферах жизни, в некоторых оставляю свободу

4️⃣Начинаю процесс с подведения итогов прошлого года, расставляя галочки напротив выполненных целей и дописывая комментарии (например: не выполнил, потому что отпало желание/сменились приоритеты или потому что не успел, но переношу на следующий год). Дописываю дополнительные незапланированные результаты. Анализирую, почему те или иные цели не были достигнуты, но обычно все ответы уже есть на поверхности

5️⃣Нормально отношусь к невыполненным целям: за прошлый год не достиг 10 из 27, 4 перенес на 2024. Это еще и часть терапии — умение снижать требования к себе, приоритезировать отдых и здоровье над желанием сделать больше.

6️⃣После анализа результатов прошлого года перехожу к плану на следующий год. Стараюсь ставить достижимые цели и выбирать только те, которые подходят одновременно под 2 описания: "буду очень рад, если получится это сделать" и "интересно этим заниматься или это уже надо закончить". Не очень люблю процессные цели (хотя такие каждый год есть), предпочитаю те, в которых описан конкретный результат, даже с конкретным числом

7️⃣Выделяю приоритетную категорию, на которой фокусируюсь больше, и несколько (1-3) приоритетных целей, которые надо достичь несмотря ни на что. Выбираю, ориентируясь на то, насколько развитие в каком-то направлении приблизит меня к достижению глобальных жизненных целей

8️⃣Веду все записи ручкой в блокноте, но итоговым план на год дополнительно переношу в Trello, чтобы проще было к нему обращаться в течение года, например, во время ежедневной работы над своим расписанием и планом на день (все свои дела веду в Trello)

9️⃣В течение года редко перерабатываю цели на год, хотя иногда делаю (это обычно происходит при возникновении внешних факторов и новых возможностей). То есть живу более-менее по выбранному плану, но могу скорректировать численные показатели в большую сторону

🔟 У меня не возникает большой проблемы помнить о плане на год, потому что мне в принципе проще жить с планом, так что для меня это скорее необходимость, чем дополнительное ограничение. Поэтому у меня и не возникает проблемы с недостижением целей из-за того, что я про них забыл и вспомнил только на следующий год во время подведения итогов.

Про мои принципы формирования краткосрочных планов на неделю/день, составление расписание и как в течение года я формирую дела, чтобы достигать больших целей напишу отдельно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥6❤‍🔥3👏1
Media is too big
VIEW IN TELEGRAM
Опыт преподавания в Data Science

Еще одним моим «хобби», помимо исследований, является преподавание. О моем опыте преподавания в конце поста, а сейчас немного мыслей.

Принято считать, что те, кто занимаются преподаванием либо уже не востребованы в индустрии, либо изначально являются преподавателями без особого опыта в индустрии. Хотя для ДСов, по моему опыту, такое мнение не справедливо. Я видел большое число примеров работающих и востребованных «практиков» или ученых, занимающихся преподаванием. Конечно, есть и более классические примеры преподавателей, но их не так много.
Допускаю, что в действительности картина другая, но делюсь своим опытом.

Почему в анализе данных много преподавателей-практиков? 🗺
Мне кажется, что все просто: область анализа данных относительно молодая, еще не успела сформироваться большая каста преподавателей.
Но это и хорошо, так как обычно востребованных специалистов сложно затащить читать курс, максимум — гостевые редкие лекции (спойлер: я к этому и пришел). При этом польза от участия практикующих и успешных специалистов в преподавании колоссальная. Анализ данных и машинное обучение динамично развивается, и сегодня публикуются статьи, завтра появляются опен cорс разработки, а послезавтра — это уже используется в индустрии. И речь не только про чатгпт, но и про менее популярные и узконаправленные разработки.

Мой опыт 👋
Опыт получился довольно обширным, хотя я и не нырнул в преподавание с головой. Начал преподавать в 2019 году, когда учился в аспирантуре. Первым был небольшой курс для школьников на тему «интернет вещей», после чего делал и читал курсы в Росатоме, МФТИ и даже делал курс для онлайн-школы на заказ (видео к посту). Получалось с переменным успехом и отнимало слишком много сил и времени, поэтому сейчас я перестал читать большие курсы где-либо. Чтобы утолять жажду делиться знаниями — пишу статьи, завел канал, иногда выступаю на конференциях, являюсь научруком и членом ГЭК, а также читаю отдельные платные лекции и вебинары (правда в последнее время нечасто).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥5🤓3
🛫 Зависимость успеха ИИ проекта в промышленности от командировок на активы

Важный аспект работы над решением на основе данных (AI-, ML-based) в промышленности — командировки на актив. Почти все, что я ниже отношу к командировкам, можно делать удаленно, но это никогда не работает правильно:
• Нет доступа к нужным сотрудникам. Можно просто не знать и не познакомиться с заинтересованным и вовлеченным сотрудником заказчика.
• Проблемы коммуникации в онлайне. Мало, кто будет охотно делиться реальными проблемами в работе по скайпу «с какими-то датасайентистами».
• Сотрудники физически не доступны для связи из-за занятности на активах и нахождения в цеху.

Рассказываю со стороны senior и team lead DS'а, потому что считаю, что умение общаться с заказчиком и иметь соответствующие софт скиллы это мастхев для senior'а и выше. При этом проектные менеджеры и бизнес-аналитики имеют свои задачи в общении с заказчиком, но могут заменять и дополнять коммуникацию датасайентистов.

🥋 Зачем они нужны и какие задачи?
• На этапе обследования/PoC/в начале проекта: для лучшего знакомства с технологическим процессом, персоналом, заказчиком, ЛПР, для уточнения требований (неформальных), лучшего понимания проблем и особенностей проекта, для повышения оперативности получения данных и информации. Личный контакт в промышленности работает значительно лучше, чем онлайн общение.
• На этапе разработки решения: для повышения оперативности получения дополнительных данных и информации, получения обратной связи, брейнштормов с вовлеченными сотрудниками заказчика, и сбора эвристик/экспертных правил из головы технологов/операторов/мастеров и тд.
• На этапе пуско-наладочных работ и опытно-промышленных испытаний: для лучшего контроля работ, оперативного получения более полной обратной связи, для внесения оперативных изменений в решение при необходимости, для обеспечения прозрачности (в результатах и работе решения) перед заказчиком и снятия напряженности (да-да, придется немного подрабатывать психологом) в случае каких-либо замечаний/проблем.
• На этапе защиты результатов/эффектов: так как это очень часто один из самых коммуникационно сложных этапов проекта, то личное общение позволяет кулуарно обсудить всю поднаготную, найти компромиссы при необходимости и обеспечить прозрачность и ясность для принятия решений и подписания протоколов.

💪 Как сделать командировки наиболее эффективными?
• В начале проекта и на этапе разработки решения полезно съездить в командировку всем членам проекта (ДСам любого уровня), чтобы познакомиться с тех. процессом, информацией о процессе со слов тех. персонала, посмотреть и лучше понять объект моделирования.
• Важно учиться разговаривать на языке сотрудников производства, чтобы доносить свои мысли и интервьюировать. У датасайентистов с этим бывают большие проблемы!
• Командировки стоит делать регулярными, чтобы налаживать контакт на всем протяжении проекта, регулярно получать обратную связь, обеспечивать прозрачность, отвечать на вопросы и снимать напряженность, а не пропадать, возвращаясь с новой версией непонятного решения. В идеале стоит обеспечивать практически непрерывное присутствие на активе кого-то от проектной команды.

Выводы
Интересно бы посмотреть на статистику на большой выборке (я такую не встречал), но мое мнение — вероятность уложиться в срок и бюджет и обеспечить приживаемость решения сильно зависят от командировок, а вот успешность разработки решения зависит, но не так сильно. Больше влияют другие факторы, например, качество и количество данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍6💯61👏1