Data Blog
1.36K subscribers
98 photos
3 videos
4 files
161 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Привет, друзья!

Сегодня с нами дата-задача. 🤌🏻

Из теории известно, что ошибка модели может быть разложена на три компоненты: дисперсию, смещение и шум.

Внимание, вопрос:
🔥1
Доброго воскресного, друзья!

Вы хороши! Спасибо каждому, кто тыкнул в опросе! 🤌🏻

Разберем верный ответ.

Ошибка модели может быть разложена на три компоненты: дисперсию, смещение и шум, при допущении о том, что:
- Шум в данных незначителен и имеет нормальное распределение со средним 0

И при условиях, что:
- мы рассматриваем в качестве ошибки Mean Squarred Error.

Про другие варианты:

Почему MSE/MAE/Logloss и вообще любые функции некорректно рассматривать вместе?
- Потому что они имеют разное аналитическое разложение — эта причина в целом покрывает пункты 1, 2, 4.

Чем так хороша MSE? 🤔
Аккуратное математическое разложение, по такой родной и знакомой формуле (a-b)^2 = a^2 - 2ab + b^2.

Стоит ли тогда рвать отношения с MAE/logloss и тд? ☹️
Нет конечно! Исследователи не спят и исследуют возможные разложения других функций. Для любителей зарыться ссылки ниже =)

Какое место у анализа bias-variance-decomposition в XAI? 👀
Разложение ошибки дает возможность понять генеральное поведение модели на всех данных. И чем лучше «чувствуется», насколько модель может "стрельнуть мимо" — тем лучше.

Ссылки для читающих:
1. Смотреть полное разложение для MSE
2. Разложение MAE на ошибки смещения, пропорциональности и несистематическую
3. Другое обобщение разложения

🍒 И самое вкусное:
4. Bias-Varince-Decomposition чтобы использовать ручками (кстати, не только для mse, но и для  0-1 loss)

Анализируйте свои модели, пейте вкусный кофе и сохраняйте тепло!

Со всем самым добрым,
Ждущий огоньков, если продолжаем и желающий вам чудесного дня,


Ваш Дата-автор!
🔥63
Кстати, друзья!

🎈На сегодня количество уникальных посетителей на сайте "Find a way to make your AI explainable" ровно 106!

Спасибо вам огромное за эту соточку! 🫶🏻
Вы чудо!
6
Привет, друзья! Поговорим про XRL? 🤓

Что это:
XRL — Explainable Reinforcement Learning — дословно объяснимое обучение с подкреплением — подобласть объяснимого искусственного интеллекта в целом.

🧷Основные подходы области
Декомпозированы, как и сам процесс обучения с подкреплением, на 4 основных подхода:
- model-explaining — объяснение модели,
- reward-explaining — объяснение вознаграждения,
- state-explaining — объяснение состояния,
- task-explaining methods – объяснение задачи.

🦥Два суб-подхода основных подходов:
- self-explainable
- explanation-generating

В чём отличие:
Self-explainable — модели, призванные быть понятными при обучении. Базовый тип таких — деревья решений или просто логические правила.
Explanation-generating — модели, которые «за своё слово отвечают», генерируя объяснения. Пример — контрактные объяснения — к прогнозу генерируем ближайший прогноз противоположного класса.

🫡Как контролировать этот зоопарк?
Создавая бенчмарки — ориентиры по качеству. Пример такого XRL-Bench (репозиторий)

На что обратить внимание:
Если вы давно наблюдаете за постами, то можете заметить частоту, с которой встречается метод объяснения SHAP — здесь он не исключение. Вместо вывода — рекомендация — его понимание, уверена, войдет в джентельменсткий набор!

Вместо заключения — как всегда с припиской,

Желающий быть тюльпаном, а не человеком,
Вносящий правки в научно-технический отчет (о, это достойно отдельного поста)
,

Всё ещё ваш,
Дата-автор!
1🎄1
Привет, друзья!

Пока дата-автор в дата-завале, предлагаю вам дата-задачку! 🤟🏻

Пусть вы решили задачу несколькими деревьями решений с сопоставимым качеством. Чтобы выбрать лучшее, вы решили визуализировать и сравнить их структуры и заметили две разных ситуации (см. рис. 1).

Какому дереву следует отдать предпочтение и почему?
Как выбрать правильное дерево? 🌳

🐥Привет, друзья!
И сегодня не про то дерево, которое вместе с домом и сыном)

Мы начали с наличия задачи. И это всегда отправная точка, при который мы можем выбирать более или менее интерпретируемое дерево.

Для нас правильным выбором было: симметричное дерево, так как оно будет лучше храниться в памяти и легче поддается хорошей интерпретации.

Почему правильный ответ — правильный?

1) Лучшее хранение в памяти — действительно свойство симметричных деревьев. Достаточно хранения списка предикатов — параметров, по которым мы определяем объекты по дочерним деревьям — для каждого уровня.

2) Почему симметричное дерево легче поддается хорошей интерпретации? Ответ в том, что оно более обобщенное. Деревья склонны к переобучению, и несбалансированность может быть признаком того, что какие-то объекты совсем оторваны от общей выборки.

Почему остальные ответы — не правильные?

1) Не симметричное дерево действительно лучше уловит особенности редких наблюдений, но у нас нет гарантии, что при генеральная совокупность подкинет нам еще редких ребят.
2) Легкость интерпретации для не симметричного дерева справедлива только в отношении объектов-уникумов. И когда стоит задача выделения таких объектов, например детекции аномалий, легкость интерпретации справедлива, иначе — нет.

🥧Про пирог ничего не говорю! Пирог — это дело всегда верное =)

Резюме:
1. Выбор структуры дерева плотно привязан к задаче
2. Симметричность дерева может сигнализировать о лучшей устойчивости, но свойство устойчивости нужно проверять
3. Пироги — всегда приятно.
5
И ещё немного:

Друзья, искренне каждому из вас желаю мира и тепла!

Если вам тяжело, задачи валятся из рук или просто чувствуете себя подавленно — помните, вы никогда не одни! Эмоции, чувства, боль, это нормально. Тем более, когда мир трясется (== всегда).

В моменты, когда вокруг будто хаос, мне помогают следующие вещи:

1) Закрыть новости. Это сложно и может казаться бездушным. Но это помогает;
2) Разрешить себе чувствовать. И порой даже провести пару дней мокрой салфеткой :)
3) Разрешить себе радоваться;
4) Планировать — день, неделю, рабочие задачи.

Вы у себя всегда будете.

Строча научно-технический отчет по гранту и ожидая весну,

Крепко обнимаю,
Ваш Дата-автор!
🫶🏻❤️
13👍2
Привет, друзья! 🐥

Вас становится всё больше и больше. И я невероятно рада!
Скоро вернусь с информативным контентом, а пока у меня просто насыщенное начало апреля — неделя до него и неделя, подошедшая к концу, были полны задач, связанных с НТО (научно-техническим отчетом).

Немного поделюсь опытом:

По определению, отчет о научно-исследовательской работе (НИР) — научно-технический документ, который содержит систематизированные данные о научно-исследовательской работе, описывает состояние научно-технической проблемы, процесс и/или результаты научного исследования.

По реальности — это ограниченный строгим шаблоном документ, в котором нужно описать достижения своей работы и средства, которыми эти достижения были получены.

🤓 Несколько фактов про НТО при выигрыше гранта УМНИК:

1. При формировании такого отчета подогнать его с точки зрения стиля под шаблон – это половина успеха
2. Финансовый отчет содержит только одну строку – деньги получены, деньги реализованы
3. Отчет настолько формальный, что при сдаче придираются к белизне бумаги!)
4. Объем отчета от 25 страниц

Сложности отчета:

1. Нужно быть усидчивым. Для меня это сложно, если дело касается не творческой работы, поэтому итераций перепроверок и возвращений моего отчета было точно штук 7
2. Нужно реально много поработать, чтобы было, что в него вписать
3. Других не обнаружено

Мнение:
Мне пока сложно сформировать итоговые ощущения от полученного гранта, но на данном этапе я просто рада получению финансовых средств на проект. Иные вещи, связанные с выигрышем меня не радуют от слова совсем.

Например, мне важно, чтобы вся работа отражала меня. Как минимум отчет же в ней отражает формализм, step by step шаги работы и ничего более.
Также у меня нет полностью "меня", свободы действий. Изначально я думала об англоязычном сервисе с библиотеками, но так как его могут либо не принять, либо пропустить через фильтр вопросов, сдавать я буду скорее всего русскоязычный вариант.

Мнение 2:
На данный момент я очень много думаю о валидности научной карьеры. Мне очень важна творческая составляющая и она не уместна на научных конференциях, в грантовых проектах и др. С другой стороны, деятельность в чем-либо научном дает возможность участвовать в другой стороне — образовательной. И пока я думаю, что возможность учить, популяризовывать и рассказывать стоит того, чтобы иногда плакать от строгих бумажек)

А может с возрастом и относится к ним буду проще.

🧷 Очень приятно видеть вас. И стало интересно узнать – кто меня читает)

Буду рада, если в комментариях напишите пару строк о себе, и откуда о канале узнали!

Как всегда уютного вам времени, где бы вы не находились, 🫶🏻

В очень рабочей попе работе,
Ваш Дата-автор!
5
Привет, друзья! 🐓

Вообще, писала пост об интерпретируемых моделях. Но решила для начала рассмотреть ваши знания и предположения о вероятностях в моделях ML.

Задача:
Привет, друзья! 🐥

Господи, вас уже 400! Это безумно радостно и ценно, спасибо вам за вас! 🥰

Мы продолжаем про вероятности! Каков же правильный ответ?

Ответ: Никакие, но самые близкие к истинным вероятностям в распределении тренировочных данных прогнозирует старая-добрая логистическая регрессия.

Что прогнозируют другие модели: Число в обрезке от 0 до 1, и его корректнее называть уверенностью. В документации sklearn есть интересное сравнение "вероятностей" для разных моделей. Так, например, Наивный Байес и лес склонны к более высоким и низким прогнозам, а "вероятности" SVC напоминают колокол нормального распределения. (Картинку шлю в комментарии)

Почему с логистической регрессией всё так:
Её обучение происходит за счет минимизации логистической функции потерь, которая, в свою очередь ведет к максимизации функции правдоподобия выборки.

Плохо это или хорошо: плохо только в том случае, если для принятия решения вам необходим не точечный ответ (то есть класс), а именно вероятность. В остальном – всё хорошо, и это еще один «зеленый флаг» на возможность подбора оптимального порога (например, будет считать класс «1» если уверенность, прогнозируемая моделью, больше 0.3).

Что можно делать с вероятностью других моделей: применять методы калибровки! Однако она, во-первых, не улучшает качество модели, а, в контексте объяснимого искуственного интеллекта — не всегда решает проблему предвзятости прогнозов, как, например, показано здесь.

Благодарю вас за ваше внимание!
Я пока усердно hard-воркаю и успела совсем сдать первую половину гранта. С постами стараюсь, осторожно распределяя время :)

И скоро поделюсь еще одной классной новостью! 🥹

Как всегда с пожеланиями вам доброго дня и чудесного времени,
Ваш Дата-Автор!
👍75
Сотрудничество с преподавателями факультета компьютерных наук ВШЭ, звание автора курса и другие невероятные приключения дата-автора в этом холодном апреле!

Привет, друзья! 🐥

А вот и новость! Совместно с командой преподавателей ФКН ВШЭ я создаю курс по explainable AI!

Курс посвящен современным методам объяснимого машинного и глубинного обучения.

Уже сейчас в нем больше 50-ти практических задач, которые помогут понять интерпретируемость и объяснимость, хотя это только начало!

Курс первый на российском рынке, (а еще, таких не так много (пока) на рынке зарубежном). :) И вы можете влиять на его контент по мере прохождения!

И, конечно, там всё по красоте — не мало математики, и много практики! 🤌🏻🔥

Если интересно — присоединяйтесь!
Цена будет расти по мере расширения курса)

Немного об ощущениях:

Колоссально горжусь каждой задачей и буквой! Для меня это огромная возможность структурировать изученное про область и подать это так, чтобы еще больше моделей строились по принципу хотя бы "стеклянного" ящика и чтобы еще больше людей увидело ту красоту, что вижу я.

А ещё — для меня очень ценно работать с людьми опытнее, умнее и в чём-то сильнее. Это будто изнутри расширяет и заставляет грызть информацию дальше, сильнее и упорнее =)

Совсем не прощаюсь, желаю вам теплого вечера, и продолжаю работать,

Ваш Дата-автор!
🫶🏻
🔥193👏1
Несколько опорных материалов по Explainable Reinforcement Learning.

Привет, друзья! 🐓

Без лишних слов — топ 3 источника, от которых можно щучкой зарыться в Explainable Reinforcement Learning!

1. Одна из лучших обзорных статей по области на 2023 год.
2. Репозиторий с полным набором статей по каждой подзадаче объяснения (reward, state, model, task)
3. Ноутбук на каггле, чтобы потрогать что-то из XRL руками.

Добрых вам выходных, 🫶🏻

Ваш дата-автор! :)
9👍3
Привет, друзья! 🐷

Если дата-автор долго не публикует материал, значит его съела-работа готовится что-то новенькое!

Последние дни активно читаю материалы, много изучаю и интенсивно работаю. За прошедшее время мне удалось стать частью команды AI Education (чем я очень горжусь и наряду с практикой еще больше ем теорию, чтобы соответствовать команде). Но вообще не о себе (если только чуть-чуть) сюда пишу, а о Casual Inference!

Постановка проблемы:

Стараясь оценить связь признака с целевой переменной, исследователи часто прибегают к анализу коэффициента корреляции. Кроме того, коэффициент корреляции — это первое, с чем знакомят на курсах Data science, так что знание о нем есть даже у начинающих. Однако:

Correlation is not causation.

или "корреляция не равна причинно-следственной связи". Но как быть, если причинно-следственную связь оценить всё же хочется?

Оказывается, можно использовать линейную регрессию!

Как, зачем, почему и вкусный пример по ссылке!

Материал я готовила для курса в том числе, но он будет оставаться открытым. Потому процесс обучения новому и просто интересному – это магия, и пусть её в вашей жизни будет больше!

Желаю вам теплых и уютных майских праздников! У меня вот в городе выросла мать-и-мачеха 🌼

Ваш Дата-автор!
☺️
8👍2❤‍🔥1🔥1
Осторожно: Feature importances.

Привет, друзья! 🐥

Чем больше я изучаю методы интерпретации и работаю с ними, тем более тонкие моменты удается подчерпывать. И сегодня об одном из них: feature_importances_.

Да, да, я про атрибут у ансамблиевых (Catboost, XGBoost, Random Forest) и древесного (Decision tree) алгоритмов.

Как считается:
- Классически на основе Information gain, максимизируемого при разбиении

Что хорошо:
- Не нужно дополнительного вычислительного времени — такая важность признаков вычисляется на лету, вместе с тем как происходит процесс обучения.

Что плохо:
- Эта важность признаков смещена в сторону непрерывных признаков. Не всегда, но часто чем большую признак имеет мощность, тем более информативным он оказывается.
- Вычисляется на основе обучающего, а не тестового набора данных

Но это всё — короткая теория. Села побаловаться и посмотреть на это на практике, и вот, что вышло (см. картинку в комментариях).

Эксперимент:
Прогнозировали титаник. Случайный категориальный признак содержал 5 категорий, случайный непрерывный — рандомные числа.
С точки зрения природы задачи, данные два признака должны быть не важны. Однако ансамбли говорят обратное и если бы данный признак был переименован, то можно было бы нестись с выводами к Леонардо Ди Каприо.

Среди Random Forest, Catboost и XGBoost, лучше всех «вшивый тест» прошел XGBoost.

Как с этим бороться:
Как правило, используя несколько методов в сопоставлении.

Вывод:
Будьте внимательны и осторожны, при извлечении гипотез на основе важности признаков. Сомневайтесь, уточняйте и не забудьте отдохнуть на ближайших выходных!

Рада всех вас видеть здесь!
Ваш Дата-автор!

🫶🏻❤️🥹
🔥85👍4
Привет, друзья! 🐔

Я много говорю о важности объяснимого искусственного интеллекта и мало — о применимости области. Вместе с этим меня часто спрашивают — "что такое XAI и зачем", и если на вопрос «что» ответ я знаю, то на вопрос зачем — отвечаю со скрипом.

С мотивацией разобраться в том числе для самой себя, я и задалась целью поиска качественных характеристик на поле «XAI для бизнеса».

Мне очень понравилась эта статья: EXPLAINABLE AI (XAI) AND BUSINESS VALUE – AN ORGANIZATIONAL PERSPECTIVE

Из неё можно вынести следующие тезисы:

1. Критические отрасли: чтобы приложение ИИ использовалось по назначению, ему должны доверять те, кто должен его использовать. Поэтому XAI — камень преткновения при внедрении ML/DL в здравоохранение, промышленность и другие области с высокой ценой ошибки.

2. Цена и ценность: искусственный интеллект применяют многие. Но мало кто — придает этому процессу прозрачность. Такой ход — это ещё один ключ к
- общему повышению доверия к бизнесу,
- отстройке от конкурентов

3. Маркетинг: здесь XAI тоже имеет приложение. Методы объяснения могут быть источником стратегической информации (например, принося ответ на вопрос почему конкретная реклама (не)эффективна?) 

4. Ценность для разработчиков ИИ (хоть я и не очень люблю это словосочетание): деббагинг модели, обнаружение предвзятости — задачи, вполне решаемые методами XAI в том числе

Как звучит, мне нравится! Считаю, что область заслуживает внимания поэтому и просто потому что это красиво!

Изначально поэтому я ею и интересуюсь. ☺️

И на правах авторства курса! Сейчас он в активной доработке! Буду рада, если вы присоединитесь и поможете сделать его еще полнее и лучше 🐥

Как всегда чудесного вам времени друзья! Пусть в вашей жизни красота всегда будет рядом (и сегодня тоже)!

С наилучшими пожеланиями,
Ваш Дата-автор!
🔥122
Feature_importance.pdf
337 KB
Привет, друзья!

Очень хотела доделать этот материал и вот он: cheat-sheet по feature importance в ансамблиевых алгоритмах — Catboost, XGBoost, LightGbm! 🐈

Зачем:

Важность признаков, именуемая «feature Importance», является встроенной для ансамблей. Однако, в библиотеках реализованы разные по виду важности.

Таким образом,

результаты одного объяснения в общем случае не эквивалентны результатам другого!


Отсюда и родилась идея структурировать шпаргалку :) Чтобы понимать возможные камни и сдвиги в такой важности , полезно помнить как она вычисляется.

🍊P.S. А еще, не всё, что есть в ней, написано в документации. Но это — отдельная история о чтении исходного кода библиотек и глазного вычисления на малых ансамблях.

Здесь мог бы быть очередной call to action на курс, потому что детальнее все важности разбрираются в нём, но я так пока не умею :)

Надеюсь, к вам тоже наконец-то пришла весна, где бы вы ни были!

Уютных вечеров и до связи,
Ваш Дата-автор! 🐥
🔥15🥰4❤‍🔥32👍2
Привет, друзья! 🐥

Я почти вышла на сессию и в свободное время продолжаю перебирать и готовить материалы для курса и будущего диплома.

Сегодня к вам с новой полезной штукой! 🔥

Мы уже акцентировали внимание на том, что результаты одного метода объяснения не эквивалентны результатам другого.

В этом случае встает вопрос:
как наиболее продуктивно создавать объяснения, чтобы оценивать их устойчивость?


Один из ответов — добавлять в свой арсенал наиболее универсальные алгоритмы интерпретации, например такие как LIME (Local Interpretable Model-Agnostic Explanations)!

Что это, как использовать, чтобы извлечь максимально много информации и даже математические выкладки:
собраны для вас в этом ноутбуке (рус, англ). Благодаря туториалу вы построите LIME с 0 и поймете его библиотечную реализацию!

Также все открытые материалы буду добавлять в этот репозиторий и в материалы курса! 🫶🏻

Не знаю почему, но очень рада тратить кучу часов, исследуя тему. Надеюсь, это принесет вам пользу и поможет сделать более понятные модели!

Со всем самым добрым,
всем запаха сирени! 🪻

Ваш Дата-Автор!
❤‍🔥12👍53