Data Blog
1.37K subscribers
100 photos
3 videos
4 files
167 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Привет, друзья!

Сегодня не о теории вероятностей.

Я часто копаюсь в научных статьях, связанных с data science (и не только). На днях наткнулась на особенно-любопытную — Explainable Machine Learning for Scientific Insights and Discoveries.

Статья посвящена подходу к оценке качества алгоритмов машинного и глубокого обучения с точки зрения науки.

Авторы статьи приводят три критерия качества алгоритмов с точки зрения научной ценности — прозрачность, интерпретируемость и объяснимость.

Прозрачностью авторы называют возможность описать ход работы модели. Кроме того, в статье предлагается проводить различие между прозрачностью модели, прозрачностью дизайна и алгоритмической прозрачностью.

Интерпретируемостью авторы называют возможность ответа на вопрос: “Можем ли мы понять, на чем алгоритм ML основывает свое решение?”. Интерпретируемость авторы разбивают по интерпретируемости самой модели и по интерпретируемости соотношения входных и выходных данных.

Объяснимостью авторы называют возможность показать совокупность признаков рассматриваемой предметной области (то есть domain knowlenge), которые в данном примере способствовали принятию решения. Она (объяснимость) разделена в статье на 4 группы: объяснимость по модели, объяснимость по результатам, объяснимость по дизайну модели и объяснимость с точки зрения post-hoc проверки (проверки на основе статистических тестов, например сравнение математического ожидания т-критерием Стьюдента).

На основе данных критериев, в статье приведены примеры научных статей, где часть результатов работы была получена при помощи ИИ.

Для меня остался спорными смутным момент примеров, которые авторы приводят в соответствии с данными определениями прозрачности, интерпретируемости и объяснимости.

Однако система оценки алгоритмов кажется мне полезной, даже с точки зрения повседневных бизнес-решений.

Даже в соревновательных историях, в первую очередь я отдаю предпочтение обучению простых моделей, потому как, опять же по моему мнению, интерпретируемость важнее сотых в качестве.

А что думаете вы, какие критерии алгоритмов машинного обучения с точки зрения ценности наиболее важны на ваш взгляд?

И был ли этот пост интересен/полезен для вас?
Дайте, пожалуйста, знать реакциями и/или также комментариями!🙏
#XAI

Чудного вечера,
Ваш дата-автор!
🔥5
Привет-привет, друзья! Я даже как-то соскучилась по постам тут!

Обещала вам разбирать задачи из теории вероятностей, и слово держу, и этим постом открываю рубрику #задачи! Надеюсь, она поможет вам быть уверенными на собеседованиях, стремительными на тестовых или просто бодрыми скучными вечерами.

Да-да! Задачи ТВ — не кошмар, а хорошая идея провести время. Это прекрасная тонкая головоломка, которая тренирует ум, развивает критическое мышление и обращает внимание на строгость. Ну разве не чудо упражнение?)

И так, встречайте, хитрая и неоднозначная задача из ТВ!

Формулировка:
Чертежная линейка в поперечном сечении представляет собой равносторонний треугольник. У двух таких линеек грани пронумерованы числами 1, 2, 3. Эти линейки бросаются на пол, после чего фиксируются числа, отвечающие их нижним граням. Постройте ПЭС этого опыта. Найдите вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число.

Чтобы было ощутимее, что происходит — прикрепила картинку к задаче.

Разбор:

Без интриги сразу скажу, почему она хитрая. У этой задачи при данной формулировке есть 2! решения и они зависят от того, упорядочены ли линейки. (да, да, тут пахнет комбинаторикой!)

Что делать с такими задачами на собеседовании — при возможности постарайтесь уточнить упорядочено ли выпадают объекты. Иначе ваш ответ может не сойтись с ответом проверяющего. Однако даже если вы напрочь забудете про уточнение, или вам откажут — уверенно рассуждайте вслух и не бойтесь показать два решения.
🔥1👌1
👍2
В чем разница двух ситуаций:

Если линейки бросаются упорядоченно, то ПЭС выглядит так:
Тогда вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число согласно классической схеме равна: (9-3)/9 = 2/3

(9 — число всевозможных исходов, 3 — исходы, удовлетворяющие исследуемому событию)

Если среди линеек нет разделения на первую и вторую, то есть они падают вместе, то ПЭС выглядит так:

{11, 12, 13, 23, 22, 33}

Тогда вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число согласно классической схеме равна: (6-3)/6 = 1/3

(6 — число всевозможных исходов, 3 — исходы, удовлетворяющие исследуемому событию)

Хоп-хоп, и получили вроде похожие, но разные ответы. И это нормально, ведь помните в первых постах по #Вероятность мы говорили, что у опыта может быть не одна модель, не одно возможное определение пространства исходов? Это — тот случай. Какая лучше — рассматривать линейки упорядоченно или нет…ответ даст только эмпирическая проверка.

Вот так, друзья!
Дайте знать, если вам понравился разбор и если они нужны ещё.

Желаю чудесного вечера,
ваш дата-автор
👍1
Друзья, бодрый привет!
Сегодня у меня (впервые) взаимная коллаборация с человеком, который когда-то очень меня вдохновил. И здесь сразу скажу — не смотря на то что это коллаб я пишу вам искренне и с большой радостью что он случился! И если коллабы будут ещё, то только так и будет.

Хочу познакомить вас с Анастасией и её блогами на you tube и в Инстаграм !

Настя работала дата-сатанисткой (шучу: )) Data Scientist’кой в крупных компаниях — МТС, OMD Group, Росбанк и долгое время на практике реализовала построение эффективных (с точки зрения бизнеса, и, как видите, большого бизнеса) ML моделей. У Насти много практического опыта и насмотренности, что сразу видно по контенту, который она публикует!

Это:

- Открытые обучающие материалы по ML/DS для разных уровней (помню, как с гитхабом я впервые познакомилась именно у Насти на канале)
- Информация по карьере и трудоустройству
- Материалы для подготовки к собеседованиям в сфере DS

и многое другое — туториалы, интервью, рекомендации на основе реального опыта собеседований, рассмотрение библиотек и даже Python с 0. Если внимательно изучить все материалы, мне кажется, можно действительно подняться, что называется, «с zero to Hero»

Настя объясняет и рассказывает всё также просто, как я здесь стараюсь описывать математические вещи — от самых основ. Это очень ценно и круто!
В качестве примера, в блоге Анастасии вы сможете узнать про библиотеку Pydantic для подготовки моделей к production — от этого (выпуска моделей в прод) у меня иной раз дергается глаз : )

Ещё у Насти есть школа PyMagic, где готовят специалистов в области ML/DS. К ней, учитывая опыт Анастасии, тоже можно присмотреться, если у вас в планах только старт.

В общем, если вам откликается контент присоединяйтесь!
У Насти качественно, лаконично и полезно, и я действительно вдохновляюсь ею!
🔥12
Друзья! Думаю, комментарии под постом выше многие прочли и хочу обратиться к вам на этом фоне.

Я не хочу блокировать вас за ваши мнения, впечатления и язык изложения, и делать этого не буду. Однако прошу впредь мнения высказывать:

культурно,
уважительно,
аргументировано,
честно.

С точки зрения репутации Насти у меня нет претензий и нет вопросов. Я считаю Анастасию вдохновляющим специалистом. 😌

И я подтверждаю это на собственном опыте взаимодействия с контентом её канала и личным общениям.

Всем спокойствия и мудрости.
👏6
Доброго понедельника, друзья!

Вылезла на Хабр. Пост о графовых нейронных сетях уже ждёт к прочтению там:
https://habr.com/ru/post/697704/

Я анализировала, почему так долго не переносила посты раньше. Ответ прост— стесняюсь и немного страшно — на Хабре больше читателей)

В общем, буду рада вашим взгляду, впечатлениям и конструктивным замечаниям.

Ваш дата-автор!
🔥113❤‍🔥2👍1
Data Blog pinned Deleted message
Спонтанное включение:

Заявку на грант отправили на полуфинальную экспертизу, ну, друзья, подождём!
❤‍🔥8🔥4👍1
Дождались!

Теперь буду защищать проект в 15-16 числах.

Не совсем ожидала пройти обезличенную проверку, поскольку нашла ряд уточнений и дополнений, которые можно было бы дописать к заявке.

Грант мы выиграть не надеемся, но попробовать выступить всё равно круто.

Самое время сесть за презентацию. Но не сегодня — сегодня была конференция от ВУЗа, она всё и я всё. Пожалуй, с завтра.

После выступлений вернусь с постами, пока просто сессия, дела, сессия
👍9🔥6
Два человека, отметившие «нет», простите. Время, так сказать, пришло, и я засела написать про выступление.

Немного слов до:

В целом, сейчас мне не так просто выступать на сколь угодно серьёзных мероприятиях, где необходимо поделиться своими выводами, гипотезами и опытом. Потому что внутри сидит нечто вроде бесконечного самозванца или «недостаточно хорошего» человека.

В книжках описано много способов как с этим бороться и самый (на мой взгляд) эффективный способ — себя хвалить. Помню, как в одном разговоре мой друг сказал «как же я хорош», и именно в тот момент я задумалась – «черт, так тоже можно».

Получается, к слову, пока что так себе, да и пост не об этом, но это было важное вступление. Я обещала поделиться парой своих ошибок.

К делу:

1. Начинать защищаться.
Я неплохо чувствую настрой людей и, выходя к проектору, я заметила некоторой скепсис у ряда других участников. Чем он вызван — предполагать не буду, интересно здесь то, что я сразу, начав выступать начала защищаться. Как? Фразами, вроде «Да, модель здорово обучить, но использовать черный ящик — в реальной работе — так себе верно».

Что тут не так? А то, что обучить модель — это тоже нетривиальный процесс. Достать данные, корректно их подать, а иногда и просто усадить себя за работу – сложно. И такой фразой я обесценила труд.

Поэтому первая ошибка — начинать «петушиться» (да простят меня петухи). Информацию важно доносить спокойно, честно и искренне, без попыток отыграться так, будто во дворе показываем, чья башенка из песка лучше.

2. Торопиться.
В момент выступления от ощущения того что я как-то тут не к месту и вообще в первый раз, я ОЧЕНЬ быстро рассказала всё, из-за чего часть забыла, часть не договорила, часть промямлила. Хотя на вопросы отвечала чуть более внятно (но всё-таки тоже не так, как могла бы ответить на них письменно), мне кажется ещё более быстрый темп говорения отправил бы выступление в тартарары.

Поэтому вторая ошибка — скорость. У каждой презентации есть регламент, и в случае чего лучше рассказать меньше, но яснее, чем всё и криво. Я почитала — говорят, помогает дыхание. Поэтому 16го планирую не забывать дышать!)

Вот. В целом так.
Надеюсь это было полезным и от себя просто попрошу вас не бояться, как я. У знаний нет возраста, нет степени «лучше» или «хуже». Всё, что хочется начать — можно начать, даже если «поздно» или «рано».

Выдохну и напишу немного о том что наисследовала про интерпретацию моделей. Тема мне понравилась)

И отличного вам времени, когда бы вы не прочитали этот текст!)
🔥74👍1
Проект на грант защитила. С аудитории слиняла сразу после выступления, потому что прям стресс..

…наверное ничего так, мои контактные данные член жюри сфоткал и про стажировку спросил🙈😅

А результаты к концу декабря.
🔥11👍3
AI in legal proceedings
Искусственный интеллект как судья


Возвращаемся к информации, друзья! Я очень давно держу этот пост на полке, потому что тема “ИИ в суде” невероятно обширна и подойти к ней можно с разных сторон. Этот пост — обзорный. Мне было интересно его сделать, так как судопроизводство — одна из областей, где интерпретируемость «кровь из носу» нужна.

Поехали!

Если свести весь судебный процесс до минимума, двумя вещами, которые из него нельзя выкинуть окажутся анализ и вынесение решения на основе данных — отсюда мы имеем классическую задачу ИИ в виде признаков и целевой переменной.

С точки зрения человеческих прилагательных, системы ИИ выглядят не заинтересованными и неподкупными, поэтому применение их в суде — это попытка получить объективных цифровых помощников.

Где нужна объективность?

При рассмотрении потенциального риска в лице преступника уже давно присутствует оценка на основе суждений [1]. От субъективных объективным оценка перешла не сразу — потребовалось время и накопление данных — так появились опросники, индексы на их основе и статистический анализ этих индексов. Примеры индексов по ссылке в комментариях [2].

С развитием же идей ИИ, засияло и применение его в судопроизводстве. Здесь я нашла примеры применения двух алгоритмов:

Логистическая регрессия.
На практике было установлено, что если сформировать данные по заключенным, то прогнозирование с помощью логистической регрессии вероятности нарушения дословного освобождения [3] или вероятности повторного ареста/судимости [4] возможно с точностью, которая превышает точность вынесения вердикта только человеком.

Случайные леса.
Кроме регрессии, имеет имеет место быть практика по применению случайных лесов для определения какие испытуемые нуждаются в усиленном надзоре [5] или для прогнозирования, окажется ли испытуемый повторно арестован [6]

Кроме того, предиктивная аналитика показала свою эффективность в сфере социального обеспечения детей [7]. Однако, вопреки эффективности, тема ИИ в области права является скользкой.

Почему?

AI-based системы только кажутся незаинтересованными, неподкупными и объективными.

Все эти качества опровергаются дружно на уровне обучения алгоритма. Любой алгоритм априорно является заинтересованным в наборе данных, на котором он обучается. С точки зрения психологии, на паттерны нашего поведения (а преступление тоже проявление поведения) влияет уже наше восприятие (кто мы — кинестетик, аудиал или визуал), с точки зрения уже больше биологии на них может влиять даже наш генетический код [8].

Вспомните, как выборка обучающих данных может перевернуть лидерборд на хакатоне (а если вам еще не довелось это ощутить – с ног на голову). Отсюда легко видно, что изученные данные на одних вполне могут вести к ошибке на других.

Поэтому любая оценка риска применяется в паре со специалистом на данный момент и не может быть автоматизирована в обозримом будущем.

Вопросы к вам: что думаете на этот счет? Как считаете, возможно ли усовершенствование ИИ до уровня самостоятельности?

Буду рада вас услышать!
Со всем самым добрым,
Ваш дата-автор : )
👍3🔥1
Привет, друзья!

Пишу поздравить вас — с наступающим или наступившим, и от всей души поблагодарить за то что в течение года уделяли мне время — ставили реакции, немного дискутировали, поддерживали и просто читали.
Делясь с вами, я выступила на конференции, подалась на грант (ждем новостей) и открыла для себя много нового : )

Этот блог для меня многое значит. Видя вас здесь, готовя для вас информацию, я всё больше ощущаю свои знания не в воздухе, а под ногами. Это поомогает мне быть уверенне. Смелее. Признавать свои достижения. А я тот ещё "синдроомосамозваночный" человек))

А ещё этот блог помогает влюбляться . Ещё больше, крепче и сильнее в ту чудесную область, которой мы тут с вами объединены 😌

Каждый из вас, чудо.

2022 подарил много сложного и мало кто знает, что подарит год следующий. Но никто не отнимет у вас вас.

Желаю, чтобы вы были в новом году наполнены теплом, любовью, яркостью, уютом и творчеством.
И чтобы тем же были наполнены ваши близкие.

Не обещаю писать что-то длиннее коротких дата-заметок о моей дата-жизни чуть чаще.
Но знаю, что год будет датанасыщенным)

С большой, теплой и яркой любовью,
Ваш дата-автор 💙
15🎉1
Привет, друзья!

У меня к вам небольшая просьба.

Напишите пожалуйста свой топ-3 источника для чтения информации про DS, кроме Хабра, medium’a и stack overflow. 🤔🙏🏻

Спасибо каждому и спасибо за то что остаётесь здесь!

Пока не знаю, чем вас порадовать. Очень многое изучаю, но не всем могу делиться по просьбе научного руководителя. Мир исследований не такой радужный, как мне казалось)

Но я обязательно придумаю, каким контентом смогу вас радовать!)

Никак не прощаюсь и остаюсь на связи,
Ваш Дата-автор
👍3🔥1
С новым утром, друзья!

В общем, я не удержалась. С чудным днём вас!

Любите и будьте любимы. Всегда.

А с дата-валентинками вы знаете, что делать :)

С огромной любовью,
Ваш Дата-автор ❤️
13👍1