🦭 OmniXAI
Привет, друзья!
OmniXAI — относительно новая библиотека для объяснимого искусственного интеллекта (Python с открытым исходным кодом).
🔥 В базе она уже 24я, и среди других её отличают:
- большой зоопарк методов интерпретации и объяснения (25 методов)
- поддержка моделей, обученных с помощью sklearn и torch/tensorflow
- поддержка основных модальностей данных (табличные, изображения, тексты, временные ряды),
- приятный теплой объяснений в виде интерактивного дашборда
- понятная карта применимости конкретных методов к конкретному типу моделей (в отличие от многих)
Подробнее смотрите в репозитории,
Плюс сравнение библиотеки с другими здесь,
Плюс статья
Где-то душой на каких-нибудь Канарах уже на сессии,
Ваш Дата-автор!
Привет, друзья!
OmniXAI — относительно новая библиотека для объяснимого искусственного интеллекта (Python с открытым исходным кодом).
🔥 В базе она уже 24я, и среди других её отличают:
- большой зоопарк методов интерпретации и объяснения (25 методов)
- поддержка моделей, обученных с помощью sklearn и torch/tensorflow
- поддержка основных модальностей данных (табличные, изображения, тексты, временные ряды),
- приятный теплой объяснений в виде интерактивного дашборда
- понятная карта применимости конкретных методов к конкретному типу моделей (в отличие от многих)
Подробнее смотрите в репозитории,
Плюс сравнение библиотеки с другими здесь,
Плюс статья
Где-то душой
Ваш Дата-автор!
🔥6
Привет, друзья! 🎄
На днях я выступила на ММРО-2023, конференции, в орг. комитет которой входят люди, уроки которых я 2 года назад сохраняла на YouTube и думала, что однажды точно дорасту, доберусь до них.
ММРО стала моим заключительным «покемоном» в коллекции — я прошла через конференции в стенах родного вуза, тематические конференции, косвенно связанные с целевой областью деятельности и вот — поучаствовала и в тематической конференция полностью связанной с целевой областью деятельности.
Немного поделюсь опытом. Цель этого текста — познакомить вас с внутренней кухней всех этих серьезных «штук с международным участием». И, быть может, кто-то сформирует новое к ним отношение. 👇🏻
🚒 С точки зрения soft skills всё отличный опыт ораторства, умения отвечать на вопросы и защищать свою работу. В этом смысле нет смысла особо чувствовать себя грустно, если выступление ограничивается родным университетом/коллегами и стараться сразу метить на какие-то крупные конференции. Первое выступление — оно и в стенах родной квартиры отличный опыт. Главное просто начать.
🚜 С точки зрения hard skills чем уже тематика конференции, тем больше требований к работе будет и тем более сильной вам работу придется сделать. Когда конференция сторонняя, порог входа будет казаться со стороны может даже выше, чем он есть на самом деле, потому что это, грубо говоря, паспорт ВУЗа/организации. И это будет требовать от вас новых достижений. И это же – отличный триггер для вашего роста.
👵🏼 С точки зрения «списка вещей, которые нужно успеть сделать до 30» — не вижу ничего такого, если вдруг университетское время проходит без конференций и других выступлений. Вырасти можно и без этого. Главное просто трудиться. Например, мне куда больше удовольствия доставил Data Fest, так что я даже задумалась над надобностью мне всей этой чудной реальности науки (по крайней мере здесь).
🐥 Лично про мои чувства — на каждой из конференций я либо злилась, либо чувствовала себя нервной (и счастливой) чихуахуа. И уровень тут был не при чем. Как в родном университете, так и в не родных, моя работа оценивалась от уровня условного плинтуса, до вполне себе достойного исследования. На одной конференции от меня в целом сразу ждали не так много, потому что я девушка =)
И вся обратная связь становилась триггером изменений, действий и новых фичей. Так что резюме такое:
если у вас есть возможность выступать — выступайте, как бы страшно это не было. Хуже не будет точно. А если универ давно позади — то вы ничего не потеряли. Иногда конференции сколь угодно неформальные дарят больше чудесных эмоций и уж точно не меньше опыта.
Вот такие дела! Надеюсь, вы в проводите это время в приятной суете, а если же нет — то желаю вам огнеупорных штанишек! 🧯 Прошлые года пережили и этот переживем!
С огромным приветом,
Ваш Дата-автор!
На днях я выступила на ММРО-2023, конференции, в орг. комитет которой входят люди, уроки которых я 2 года назад сохраняла на YouTube и думала, что однажды точно дорасту, доберусь до них.
ММРО стала моим заключительным «покемоном» в коллекции — я прошла через конференции в стенах родного вуза, тематические конференции, косвенно связанные с целевой областью деятельности и вот — поучаствовала и в тематической конференция полностью связанной с целевой областью деятельности.
Немного поделюсь опытом. Цель этого текста — познакомить вас с внутренней кухней всех этих серьезных «штук с международным участием». И, быть может, кто-то сформирует новое к ним отношение. 👇🏻
🚒 С точки зрения soft skills всё отличный опыт ораторства, умения отвечать на вопросы и защищать свою работу. В этом смысле нет смысла особо чувствовать себя грустно, если выступление ограничивается родным университетом/коллегами и стараться сразу метить на какие-то крупные конференции. Первое выступление — оно и в стенах родной квартиры отличный опыт. Главное просто начать.
🚜 С точки зрения hard skills чем уже тематика конференции, тем больше требований к работе будет и тем более сильной вам работу придется сделать. Когда конференция сторонняя, порог входа будет казаться со стороны может даже выше, чем он есть на самом деле, потому что это, грубо говоря, паспорт ВУЗа/организации. И это будет требовать от вас новых достижений. И это же – отличный триггер для вашего роста.
👵🏼 С точки зрения «списка вещей, которые нужно успеть сделать до 30» — не вижу ничего такого, если вдруг университетское время проходит без конференций и других выступлений. Вырасти можно и без этого. Главное просто трудиться. Например, мне куда больше удовольствия доставил Data Fest, так что я даже задумалась над надобностью мне всей этой чудной реальности науки (по крайней мере здесь).
🐥 Лично про мои чувства — на каждой из конференций я либо злилась, либо чувствовала себя нервной (и счастливой) чихуахуа. И уровень тут был не при чем. Как в родном университете, так и в не родных, моя работа оценивалась от уровня условного плинтуса, до вполне себе достойного исследования. На одной конференции от меня в целом сразу ждали не так много, потому что я девушка =)
И вся обратная связь становилась триггером изменений, действий и новых фичей. Так что резюме такое:
если у вас есть возможность выступать — выступайте, как бы страшно это не было. Хуже не будет точно. А если универ давно позади — то вы ничего не потеряли. Иногда конференции сколь угодно неформальные дарят больше чудесных эмоций и уж точно не меньше опыта.
Вот такие дела! Надеюсь, вы в проводите это время в приятной суете, а если же нет — то желаю вам огнеупорных штанишек! 🧯 Прошлые года пережили и этот переживем!
С огромным приветом,
Ваш Дата-автор!
mmro.ru
Математические методы распознавания образов
Конференция ММРО проводится один раз в два года и является самым представительным российским научным форумом в области интеллектуального анализа данных. С 2000
❤🔥10
Шпаргалка по терминологии в таксономии XAI.
Привет, друзья! Я что-то подумала, что при использовании библиотек будет полезным понимание терминологии в методах и способах объяснения/интерпретации. И после решилаинтенсивно напечатать написать небольшую шпаргалку! 🐓
1. Про отличие интерпретируемости и объяснимости можно почитать здесь.
2. Intrinsically interpretable model — внутренне интерпретируемая модель — такая, что интерпретируемость заложена в “дизайне” её создания (дерево решений, линейная/логистическая регрессия).
3. Post hoc interpretability — от латинского "после этого" или "после события" — интерпретируемость после обучения модели. Сочетанием post hoc обыкновенно охватывают соответствующие методы интерпретации или объяснения. Примеры: shapley values, lime, individual conditional и partial dependence expectation plots.
4. Model specific или model agnostic method — методы, соответственно, зависимые и независимые от модели. Первые могут быть применены к определенному кластеру моделей, (например, GRAD-CAM и Scare CAM для сверточных нейронных сетей), вторые могут применяется к любым моделям (как упомянутые выше shap и lime).
5. Local или global method — данные термины связывают способ объяснения модели и его отношение объяснения с сэмплом данных. Локальные методы объясняют конкретный прогноз (например counterfactual explanations), глобальные – общую тенденцию прогнозов (pdp, ice).
6. Последнее пример разделения методов для eXplainable RL (XRL) — уровни model-explaining, reward-explaining, state-explaining и task-explaining (Как по переводу — объяснение по модели, по вознаграждению, состоянию и задаче соответственно).
Надеюсь, в подготовке к последней неделе года вы всё ещё в силах сохранять рабочий баланс, а если нет — невероятно вам этого желаю!
Со всем самым добрым,
🐥 Ваш Дата-автор!
Привет, друзья! Я что-то подумала, что при использовании библиотек будет полезным понимание терминологии в методах и способах объяснения/интерпретации. И после решила
1. Про отличие интерпретируемости и объяснимости можно почитать здесь.
2. Intrinsically interpretable model — внутренне интерпретируемая модель — такая, что интерпретируемость заложена в “дизайне” её создания (дерево решений, линейная/логистическая регрессия).
3. Post hoc interpretability — от латинского "после этого" или "после события" — интерпретируемость после обучения модели. Сочетанием post hoc обыкновенно охватывают соответствующие методы интерпретации или объяснения. Примеры: shapley values, lime, individual conditional и partial dependence expectation plots.
4. Model specific или model agnostic method — методы, соответственно, зависимые и независимые от модели. Первые могут быть применены к определенному кластеру моделей, (например, GRAD-CAM и Scare CAM для сверточных нейронных сетей), вторые могут применяется к любым моделям (как упомянутые выше shap и lime).
5. Local или global method — данные термины связывают способ объяснения модели и его отношение объяснения с сэмплом данных. Локальные методы объясняют конкретный прогноз (например counterfactual explanations), глобальные – общую тенденцию прогнозов (pdp, ice).
6. Последнее пример разделения методов для eXplainable RL (XRL) — уровни model-explaining, reward-explaining, state-explaining и task-explaining (Как по переводу — объяснение по модели, по вознаграждению, состоянию и задаче соответственно).
Надеюсь, в подготовке к последней неделе года вы всё ещё в силах сохранять рабочий баланс, а если нет — невероятно вам этого желаю!
Со всем самым добрым,
🐥 Ваш Дата-автор!
🔥7👍2
Привет, друзья! Today I want to tell you a story about the paper "Tell Me a Story! Narrative-Driven XAI with Large Language Models" 🤡
Что: В статье предложены CFstories, SHAPstories и XAIstories — объяснения на основе методов Shapley values и Counterfactual explanations соответственно.
Зачем это: дело в том, что значения Шеппли выдают изображение с коэфициентами, а контрфактические объяснения (для классификации изображений) — сегмент картинки, который нужно заблюрить, чтобы получить некорректный прогноз от модели. Заблюренный сегмент не дает понятного ответа на вопрос "почему именно этот сегмент?", а коэффициенты, получаемые при помощи значений Шеппли нетривиально понять.
Решение: Авторы натренировали LLM разъяснять на естественном языке объяснения, получаемые при помощи обозначенных методов.
Промты и результаты смотрите в статье! Меня очень впечатлило всё — и идея, и качество 🤌🏻
Что: В статье предложены CFstories, SHAPstories и XAIstories — объяснения на основе методов Shapley values и Counterfactual explanations соответственно.
Зачем это: дело в том, что значения Шеппли выдают изображение с коэфициентами, а контрфактические объяснения (для классификации изображений) — сегмент картинки, который нужно заблюрить, чтобы получить некорректный прогноз от модели. Заблюренный сегмент не дает понятного ответа на вопрос "почему именно этот сегмент?", а коэффициенты, получаемые при помощи значений Шеппли нетривиально понять.
Решение: Авторы натренировали LLM разъяснять на естественном языке объяснения, получаемые при помощи обозначенных методов.
Промты и результаты смотрите в статье! Меня очень впечатлило всё — и идея, и качество 🤌🏻
🔥3🗿3
Доброго вам вечера, друзья!
Пишу поздравить вас с Новым годом! 🎄🎨
Поздравляю искренне, и как могу шлю вам теплоту и доброту в этот вечер.
Год был сложным. У каждого в своём.
Этот вечер тоже может быть не простым. Не праздничным.
Но я всё же невероятно желаю вам улыбнуться!
Вы не одни. Мы — здесь.
У вас всё получится. Чудеса, результаты работы в ночи, новые возможности и то самое "второе дыхание", если вдруг накрыло состояние "всё" — они в вас.
И пусть в новом году внутри вас всегда будет место радости и доброте! 🫶🏻
Сегодня объевшись мандаринов,
Ваш Дата-автор! 🍊🐷
Пишу поздравить вас с Новым годом! 🎄🎨
Поздравляю искренне, и как могу шлю вам теплоту и доброту в этот вечер.
Год был сложным. У каждого в своём.
Этот вечер тоже может быть не простым. Не праздничным.
Но я всё же невероятно желаю вам улыбнуться!
Вы не одни. Мы — здесь.
У вас всё получится. Чудеса, результаты работы в ночи, новые возможности и то самое "второе дыхание", если вдруг накрыло состояние "всё" — они в вас.
И пусть в новом году внутри вас всегда будет место радости и доброте! 🫶🏻
Сегодня объевшись мандаринов,
Ваш Дата-автор! 🍊🐷
❤10👍1🥰1
“Объяснимый искусственный интеллект” через призму задачи тематического моделирования.
Привет, друзья! Я активно продолжаю заниматься своей задачей и эти новогодние выходные закончила разметкой корпуса с 4698-ю статьями, собранных по ключевому слову “Explainable AI” с ресурса pubmed.
🧷 Разметка была простая, как овсянка — 0 — если статья принадлежит теме, и 1 — если статья теме не принадлежит. Также у меня был собран (по тому же ключу) набор данных с ресурса arxiv. И итого была получена 6471-а статья, где около 1756 принадлежат теме “Expainable AI”. Собирались, что ещё важно, названия и аннотации статей.
Анализ области XAI как бы “сверху” представляет собой сложную задачу, но занудные объяснения “почему” я оставлю для научрука и тех, кто будет читать мой диплом.
Вам же хочу рассказать в целом об идее — оценить тему при помощи разбиения её на подтемы.
Приведенная задача представляет собой пример из кластерного анализа, относящегося к обучению без учителя.(Когда размечать 1756 статей на подтемы лень) 😁
Основная сложность здесь: изначальная не независимость статей. Они уже были выбраны по конкретному ключу и уже содержали большое количество специфически одинаковых слов.
Поскольку в NLP я — как гриб без шляпки, к своей реализации идеи я пошла практическим путем, успела “потрогать” два метода:
LDA (Latent Dirichlet allocation) — скрытое размещение Дирихле, вероятностный метод, базирующийся на условной вероятности.
BERTopic — метод тематического моделирования, который для создания кластеров использует эмбеддинги BERTа и TF-IDF.
Основные выводы:
1. Метод LDA хуже справился с задачей выделения каких-либо сколь угодно понятных тем. Я думаю, это связано с однородностью датасета и изначальной зависимостью документов между собой.
2. Моделирование при помощи BERT, среди двух, оказалось более сильным методом, и в дальнейшем, его хорошо использовать как минимум для проверки гипотезы о возможности разбить тему на подтемы.
Выводы про XAI:
1. На основе 1756 статей мне удалось выделить 3 кластера:
"Метод" (статьи, описывающие какой-либо метод интерпретации/объяснения);
"Применение" (статьи, где методы интепретации и объяснения используются для анализа модели);
"Доверие и право" (статьи, где XAI появляется вместе с этическими/юридическими вопросами).
Такие вот дела! На деле попутно ужасно переживаю по грантовому проекту, так как пока самый практически полезный результат — таблица с фреймворками. 🫠
Думаю, потом задеплою её как-нибудь. И продолжаю работать!
Дайте знать, если пост был для вас интересен!) 🔥
Надеюсь, вы уже вошли в хороший рабочий ритм,
Ваш Дата-автор!
Привет, друзья! Я активно продолжаю заниматься своей задачей и эти новогодние выходные закончила разметкой корпуса с 4698-ю статьями, собранных по ключевому слову “Explainable AI” с ресурса pubmed.
🧷 Разметка была простая, как овсянка — 0 — если статья принадлежит теме, и 1 — если статья теме не принадлежит. Также у меня был собран (по тому же ключу) набор данных с ресурса arxiv. И итого была получена 6471-а статья, где около 1756 принадлежат теме “Expainable AI”. Собирались, что ещё важно, названия и аннотации статей.
Анализ области XAI как бы “сверху” представляет собой сложную задачу, но занудные объяснения “почему” я оставлю для научрука и тех, кто будет читать мой диплом.
Вам же хочу рассказать в целом об идее — оценить тему при помощи разбиения её на подтемы.
Приведенная задача представляет собой пример из кластерного анализа, относящегося к обучению без учителя.
Основная сложность здесь: изначальная не независимость статей. Они уже были выбраны по конкретному ключу и уже содержали большое количество специфически одинаковых слов.
Поскольку в NLP я — как гриб без шляпки, к своей реализации идеи я пошла практическим путем, успела “потрогать” два метода:
LDA (Latent Dirichlet allocation) — скрытое размещение Дирихле, вероятностный метод, базирующийся на условной вероятности.
BERTopic — метод тематического моделирования, который для создания кластеров использует эмбеддинги BERTа и TF-IDF.
Основные выводы:
1. Метод LDA хуже справился с задачей выделения каких-либо сколь угодно понятных тем. Я думаю, это связано с однородностью датасета и изначальной зависимостью документов между собой.
2. Моделирование при помощи BERT, среди двух, оказалось более сильным методом, и в дальнейшем, его хорошо использовать как минимум для проверки гипотезы о возможности разбить тему на подтемы.
Выводы про XAI:
1. На основе 1756 статей мне удалось выделить 3 кластера:
"Метод" (статьи, описывающие какой-либо метод интерпретации/объяснения);
"Применение" (статьи, где методы интепретации и объяснения используются для анализа модели);
"Доверие и право" (статьи, где XAI появляется вместе с этическими/юридическими вопросами).
Такие вот дела! На деле попутно ужасно переживаю по грантовому проекту, так как пока самый практически полезный результат — таблица с фреймворками. 🫠
Думаю, потом задеплою её как-нибудь. И продолжаю работать!
Дайте знать, если пост был для вас интересен!) 🔥
Надеюсь, вы уже вошли в хороший рабочий ритм,
Ваш Дата-автор!
🔥11👍1🍓1
Привет, Друзья!
Сразу и к делу.
Какая-либо работа по гранту у меня лежит мертвым грузом уже почти две недели. Срок же защиты работы — 17 марта. И чем ближе дедлайн, тем меньше сил заставить себя что-то делать. Вместо этого я подучиваю просто всё — от мат. статистики, до повторения классических вещей из ML.
Говоря совсем просто и не литературно, я боюсь «лохануться» и поэтому сижу будто бы со связанными руками.
Вместе с этим мои последние 10 дней были наполнены кучей мыслей, и одна из них просто повторяет фразу моего любимого певца: «Не ошибается только тот, кто никогда никуда не идет…».
Скоро вернусь с постами и спасибо за то, что вы еще здесь! Прямо сейчас составляю план, чтобы step by step выбраться из грантовой прокрастинации.
Считайте, пережили ещё один творческий кризис Дата-автора! 🐥
Чудесного вам начала февраля,
Всё ещё я!
Сразу и к делу.
Какая-либо работа по гранту у меня лежит мертвым грузом уже почти две недели. Срок же защиты работы — 17 марта. И чем ближе дедлайн, тем меньше сил заставить себя что-то делать. Вместо этого я подучиваю просто всё — от мат. статистики, до повторения классических вещей из ML.
Говоря совсем просто и не литературно, я боюсь «лохануться» и поэтому сижу будто бы со связанными руками.
Вместе с этим мои последние 10 дней были наполнены кучей мыслей, и одна из них просто повторяет фразу моего любимого певца: «Не ошибается только тот, кто никогда никуда не идет…».
Скоро вернусь с постами и спасибо за то, что вы еще здесь! Прямо сейчас составляю план, чтобы step by step выбраться из грантовой прокрастинации.
Считайте, пережили ещё один творческий кризис Дата-автора! 🐥
Чудесного вам начала февраля,
Всё ещё я!
🔥13☃1
Привет, друзья! 🐣
Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей!
Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом — не самое лучшее занятие, особенно, если хочется развиваться в области. Хочется соскочить, пойти на собеседования, начать активно участвовать в соревнованиях или делать что-то еще, ибо есть ощущение, что то время, которое тратится на пары могло бы быть проведено более полезным образом.
Однако, каждые 45+45 минут на попе ровно — тоже рациональное вложение.
- Они учат опыту преподавания — тому, которое импонирует и тому, от которого тошнит;
- Они учат коммуницировать — открыто, честно, твердо, обоснованно и при том культурно;
- Они учат планировать — так, чтобы успеть и на пары, и поработать, и в салон красоты сходить;
В умных книжках часто пишут про "позитивное мышление". Но оно начинается не там, где сидя в луже вдруг начинаешь истерично смеяться, а там, где в той же луже начинаешь учиться плавать.
За январь удалось:
- Устроиться ревьюером на курсы по data science;
- Стать частью команды создателей буткемпов по DS от ВШЭ;
- Присоединиться к команде проверяющих магистратуры Вышки по DS;
и...
- Допечь удобоваримую навигацию по библиотекам Explainable AI! 🐥
Что я хочу донести этим постом?
1. Любой опыт является частью роста, даже если расти приходится через не самые приятные дебри эмоций
2. Скоро вернуться посты про XAI, потому что последнее время я тратила на табличку и прокрастинацию 🫠😄
Чудного вам вечера и успехов!
Ваш, уже живее после кризиса,
Дата-автор!
Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом — не самое лучшее занятие, особенно, если хочется развиваться в области. Хочется соскочить, пойти на собеседования, начать активно участвовать в соревнованиях или делать что-то еще, ибо есть ощущение, что то время, которое тратится на пары могло бы быть проведено более полезным образом.
Однако, каждые 45+45 минут на попе ровно — тоже рациональное вложение.
- Они учат опыту преподавания — тому, которое импонирует и тому, от которого тошнит;
- Они учат коммуницировать — открыто, честно, твердо, обоснованно и при том культурно;
- Они учат планировать — так, чтобы успеть и на пары, и поработать, и в салон красоты сходить;
В умных книжках часто пишут про "позитивное мышление". Но оно начинается не там, где сидя в луже вдруг начинаешь истерично смеяться, а там, где в той же луже начинаешь учиться плавать.
За январь удалось:
- Устроиться ревьюером на курсы по data science;
- Стать частью команды создателей буткемпов по DS от ВШЭ;
- Присоединиться к команде проверяющих магистратуры Вышки по DS;
и...
- Допечь удобоваримую навигацию по библиотекам Explainable AI! 🐥
Что я хочу донести этим постом?
1. Любой опыт является частью роста, даже если расти приходится через не самые приятные дебри эмоций
2. Скоро вернуться посты про XAI, потому что последнее время я тратила на табличку и прокрастинацию 🫠😄
Чудного вам вечера и успехов!
Ваш, уже живее после кризиса,
Дата-автор!
❤🔥12🔥10💯2
Привет, друзья! 🎹
Интерпретируемость и классика.
В начале нового учебного семестра закоммитились с другом на ряд целей. Он и я — на свои.
Одна из моих касается хорошего теоретического повторения всей возможной базы по машинному обучению.
Зачем — давно хочется! 🤓 И огромный «пинок» — возросший градус ответственности от того что я проверяю работы в магистратуре и на курсах по DS.
Небольшие заметки в контексте интерпретируемости:
Среди базовых алгоритмов, применимых для задачи классификации интерпретируемыми в вероятностном смысле (статья про различие объяснимости и интерпретируемости тут) являются Наивный Байес и Логистическая регрессия.
Почему?
Оба алгоритма прочно стоят ногами на математике. Логистическая регрессия на методе максимального правдоподобия, Байес — на теореме Байеса.
Обучая таким образом эти алгоритмы из коробки (например, используя sklearn), по итогу можно получать математически корректные вероятности.
Что делать с остальными?
Ответ — калибровать! Пока копалась на этой теме наткнулась на интересное исследование, показывающее, что калибровка существенно улучшает вероятности, прогнозируемые SVM/деревьями решений.
Как?
На этот случай нашла на Хабре большую заметку (переведенная статья с medium).
____________________________________
Пока тону где-то под работой и учебой, но надеюсь хотя бы раз в неделю-две что-то информативное сюда готовить. Ну, а пока...
Ваш, пекущий еду, вместо структурированных постов,
Дата-автор!
Продуктивной недели, друзья!
Интерпретируемость и классика.
В начале нового учебного семестра закоммитились с другом на ряд целей. Он и я — на свои.
Одна из моих касается хорошего теоретического повторения всей возможной базы по машинному обучению.
Зачем — давно хочется! 🤓 И огромный «пинок» — возросший градус ответственности от того что я проверяю работы в магистратуре и на курсах по DS.
Небольшие заметки в контексте интерпретируемости:
Среди базовых алгоритмов, применимых для задачи классификации интерпретируемыми в вероятностном смысле (статья про различие объяснимости и интерпретируемости тут) являются Наивный Байес и Логистическая регрессия.
Почему?
Оба алгоритма прочно стоят ногами на математике. Логистическая регрессия на методе максимального правдоподобия, Байес — на теореме Байеса.
Обучая таким образом эти алгоритмы из коробки (например, используя sklearn), по итогу можно получать математически корректные вероятности.
Что делать с остальными?
Ответ — калибровать! Пока копалась на этой теме наткнулась на интересное исследование, показывающее, что калибровка существенно улучшает вероятности, прогнозируемые SVM/деревьями решений.
Как?
На этот случай нашла на Хабре большую заметку (переведенная статья с medium).
____________________________________
Пока тону где-то под работой и учебой, но надеюсь хотя бы раз в неделю-две что-то информативное сюда готовить. Ну, а пока...
Ваш, пекущий еду, вместо структурированных постов,
Дата-автор!
Продуктивной недели, друзья!
Хабр
Interpretability versus explainability: Интерпретируемость или объяснимость?
При чтении статей в области explainable AI, нередко можно встретить интерпретируемость (Interpretability) и объяснимость (explainability) как взаимозаменяемые сущности. Между этими понятиями...
❤6🔥5
Привет, друзья!
Не могла не обновить дата-валентинки прошлого года и не поздравить вас с 14м февраля!
Поздравляю! Любите, будьте любимы и сохраняйте тепло!
Всем любви и мира! ❤️
С наилучшими пожеланиями,
Ваш дата-автор!
Не могла не обновить дата-валентинки прошлого года и не поздравить вас с 14м февраля!
Поздравляю! Любите, будьте любимы и сохраняйте тепло!
Всем любви и мира! ❤️
С наилучшими пожеланиями,
Ваш дата-автор!
❤🔥16🔥1🤯1
Привет, друзья!
Многие из вас помнят, что я учусь на математика, и Machine learning и AI для меня — это пока большое хобби, переросшее, благодаря университету, в научную деятельность.
Последние два дня я провела в небольшой перезагрузке, и, на вдохновении после курса Практический ML от AI Education, задумалась: в интернетах очень мало задач про ML и DL, которые надо решать ручками, с листочком, на бумажке.
И решила это исправить)
Экспериментально, пока раз в неделю, я буду публиковать 1 тестовую задачу. Разного уровня. На разные определения и метрики. Начнём с простого =)
Задача:
В качестве регуляризации модели мы можем прибегнуть к регуляризациям L1 и L2.
Их название связано с понятием нормы в векторном пространстве. Норма — это правило, сопоставляющее в данном случае вектору его длину.
Выберите верные утверждения:
Многие из вас помнят, что я учусь на математика, и Machine learning и AI для меня — это пока большое хобби, переросшее, благодаря университету, в научную деятельность.
Последние два дня я провела в небольшой перезагрузке, и, на вдохновении после курса Практический ML от AI Education, задумалась: в интернетах очень мало задач про ML и DL, которые надо решать ручками, с листочком, на бумажке.
И решила это исправить)
Экспериментально, пока раз в неделю, я буду публиковать 1 тестовую задачу. Разного уровня. На разные определения и метрики. Начнём с простого =)
Задача:
В качестве регуляризации модели мы можем прибегнуть к регуляризациям L1 и L2.
Их название связано с понятием нормы в векторном пространстве. Норма — это правило, сопоставляющее в данном случае вектору его длину.
Выберите верные утверждения:
🔥3❤2
❤7
Привет, друзья! 🐣
Думаю, 3 дня — достаточное время для хорошего интриганта. Время обсудить тест!
Верные ответы: 4 и 6!
Основная ошибка: пункт 2. Ln нормы существуют! Просто не являются столь же эффективными и осмысленными в большинстве задач так, как нормы L1 и L2. Небольшой обзор таких норм вы можете найти здесь.
Что ещё интересного можно сказать про регуляризацию:
Помимо того что она призвана уменьшить вероятность переобучения модели, сбалансировав её сложность, регуляризация также может быть применена к повышению интерпретируемости модели. И хотя на эту тему удалось найти только одну статью, упрощение сложности модели для повышения интерпретируемости — всегда хороший тон.
А как вы используете регуляризацию на практике или в учебных задачах?
На сим всё!
Ждущий огонечков, если продолжаем рубрику с задачами,
где-то под кучкой работы, 🦗🔥
Ваш дата-автор!
Думаю, 3 дня — достаточное время для хорошего интриганта. Время обсудить тест!
Верные ответы: 4 и 6!
Основная ошибка: пункт 2. Ln нормы существуют! Просто не являются столь же эффективными и осмысленными в большинстве задач так, как нормы L1 и L2. Небольшой обзор таких норм вы можете найти здесь.
Что ещё интересного можно сказать про регуляризацию:
Помимо того что она призвана уменьшить вероятность переобучения модели, сбалансировав её сложность, регуляризация также может быть применена к повышению интерпретируемости модели. И хотя на эту тему удалось найти только одну статью, упрощение сложности модели для повышения интерпретируемости — всегда хороший тон.
А как вы используете регуляризацию на практике или в учебных задачах?
На сим всё!
Ждущий огонечков, если продолжаем рубрику с задачами,
где-то под кучкой работы, 🦗🔥
Ваш дата-автор!
Towards Data Science
Courage to Learn ML: Demystifying L1 & L2 Regularization (part 3) | Towards Data Science
Why L0.5, L3, and L4 Regularizations Are Uncommon
🔥15❤1
Привет, друзья!
Со мной тут поделились свежим манифестом об интерпретируемости.
Из него отдельно хочу отметить многогранность задач, возникающих в области Explainable AI.
🔥 В манифесте детализируются 9:
1. Creating explanations for new types of AI — например для генеративных (GANs) и языковых (LLM) моделей. Также отдельно авторы выделяют построение методов интерпретации для различных подходов к созданию "умного" алгоритма, таких как distributed и collaborative Learning (статья)
2. Augmenting and improving attribution methods что посвящено повышению устойчивости методов к возмущениям в данных и изменениям в гиперпараметрах модели. Тут же авторы выделяют достаточно новую ветку в XAI — генерацию объяснений при помощи GAN.
3. Clarifying the use of concepts in XAI — посвящено несогласованности терминологии. О нём я упоминала в докладах. Несогласованность возникает из-за большого количества областей и конечных приложений XAI.
4. Evaluating XAI methods and explanations — задача, направленная на создание объективных способов оценивать объяснения. Тут выделяют как проектирование новых фреймворков и метрик, но и привлечение людей к оценке объяснений.
5. Supporting the human-centeredness of explanations
— и если о людях-оценщиках говорила задача выше, эта говорит о предоставлении объяснений, уже специально адаптированных для людей, которые их получают.
6. Supporting the multi-dimensionality of explainability — поддерживать мультиразмерность, по другому я бы сказала "инклюзивность", XAI к различным конечным потребителям и уровням использования.
7. Adjusting XAI methods and explanations
— адаптировать объяснений для разных заинтересованных сторон, разных областей и разных целей.
8. Mitigating the negative impact of XAI — менеджерить возможное негативное влияние объяснений — разрабатывать критерии возможной их фальсификации.
9. Improving the societal impact of XAI — или, если переформулировать, повышение и обеспечения доверия к социальному воздействия XAI. Например, в случае генерации быть способными избегать случаев, когда модель генерирует данные, похожие на представителей обучающей выборки (например, пациентов).
Вместо вывода:
Такой разброс задач говорит о том, что область XAI невероятно динамична и востребована в настоящий момент. Как самостоятельная дисциплина, она переходит от этапа формирования к полноправному существованию с генерацией челленджей и задач.
Читать манифест ⬅️
Всё ещё Ваш,
Дата-автор! =)
Со мной тут поделились свежим манифестом об интерпретируемости.
Из него отдельно хочу отметить многогранность задач, возникающих в области Explainable AI.
🔥 В манифесте детализируются 9:
1. Creating explanations for new types of AI — например для генеративных (GANs) и языковых (LLM) моделей. Также отдельно авторы выделяют построение методов интерпретации для различных подходов к созданию "умного" алгоритма, таких как distributed и collaborative Learning (статья)
2. Augmenting and improving attribution methods что посвящено повышению устойчивости методов к возмущениям в данных и изменениям в гиперпараметрах модели. Тут же авторы выделяют достаточно новую ветку в XAI — генерацию объяснений при помощи GAN.
3. Clarifying the use of concepts in XAI — посвящено несогласованности терминологии. О нём я упоминала в докладах. Несогласованность возникает из-за большого количества областей и конечных приложений XAI.
4. Evaluating XAI methods and explanations — задача, направленная на создание объективных способов оценивать объяснения. Тут выделяют как проектирование новых фреймворков и метрик, но и привлечение людей к оценке объяснений.
5. Supporting the human-centeredness of explanations
— и если о людях-оценщиках говорила задача выше, эта говорит о предоставлении объяснений, уже специально адаптированных для людей, которые их получают.
6. Supporting the multi-dimensionality of explainability — поддерживать мультиразмерность, по другому я бы сказала "инклюзивность", XAI к различным конечным потребителям и уровням использования.
7. Adjusting XAI methods and explanations
— адаптировать объяснений для разных заинтересованных сторон, разных областей и разных целей.
8. Mitigating the negative impact of XAI — менеджерить возможное негативное влияние объяснений — разрабатывать критерии возможной их фальсификации.
9. Improving the societal impact of XAI — или, если переформулировать, повышение и обеспечения доверия к социальному воздействия XAI. Например, в случае генерации быть способными избегать случаев, когда модель генерирует данные, похожие на представителей обучающей выборки (например, пациентов).
Вместо вывода:
Такой разброс задач говорит о том, что область XAI невероятно динамична и востребована в настоящий момент. Как самостоятельная дисциплина, она переходит от этапа формирования к полноправному существованию с генерацией челленджей и задач.
Читать манифест ⬅️
Всё ещё Ваш,
Дата-автор! =)
🔥5❤1