Data Blog – Telegram

Data Blog

1.37K subscribers

100 photos

3 videos

4 files

167 links

Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.

Download Telegram

About

Blog

Apps

Platform

1.37K subscribers

Что ж. Я обещала сделать дата-пост с привязкой с машинному обучению и слово держу. Перейдем от абстракции к делу и представим, что у нас есть набор данных из 6 наблюдений, по каждому из которых известны 2 параметра и целевой признак.

Поставщик данных (пусть он будет нашим китайским товарищем) убежден, что признаки связаны с целевой переменной как-то линейно, но как — он не знает и предлагает нам решить задачу.

Представим также, что доступ к sklearn нам заблокирован (не дай Боже), а задачу надо решить здесь и сейчас.

Вздохнем, возьмем бумажку и перепишем ситуацию (картинка).

❤2

325 viewsedited 15:50

Обратите внимание в правый верхний угол картинки..: ) Систему уравнений, которую дал нам товарищ и задачу, которую он поставил, можно переформулировать так:

В результате действия линейного отображения А на каждый объект пространства X, измеренный по двум координатам, получаются значения из пространства Y.

Необходимо: найти правило, которое определяет действие линейного отображения.

Что также эквивалентно системе уравнений: X*x = y.

Во избежание дублирования, изменим обозначение x малое, на малое w. Получается такая задача:

X*w = y

где найти необходимо в точности вектор w.

Теперь перейдем к языку классического алгоритма машинного обучения — линейной регрессии и заметим, что задача обращается в

найти вектор весов w, который для каждого наблюдения X обеспечит его сопоставление с целевой координатой y.

Чувствуете? Только что, бодро и весело, мы перешли с вами к системе линейных уравнений в матричном виде.

Как её решить?

Ответ: Избавиться от X справа равным соотношением, иначе говоря, получить перед w единицу. Сделать это можно при помощи обратного элемента. Не пугайтесь, обратные ребята знакомы нам из школы, например обратный к 5 — это 1/5, обратный к 1/7 — 7. Иными словами, обратными друг к другу называются элементы, дающие в произведении единицу.

В случае матриц единицей считается матрица единичная — матрица, у которой на главной диагонали стоят единицы, а все остальные элементы равны 0.

И так, нам нужно найти такую матрицу, которая в произведении с исходной даст единицу, то есть матрицу, обратную к данной.

Обратные матрицы существуют только у квадратных матриц. Но это не проблема, поскольку при помощи операций умножения матриц и транспонирования мы можем преобразовать нашу матрицу к квадратной и уже к этой квадратной отыскать обратную. Тогда наше решение будет выглядеть так:

❤1

373 viewsedited 15:52

375 views15:53

Решив всё численно найдем зависимость и, умножив всё это дело для новых точек, визуально получим следующее:

383 views15:53

391 views15:53

Ноутбучек с решением и визуализацией приготовила для вас здесь.

Вот такое воскресенье, и вот такой дата-пост!
О чем поговорим на следующей неделе — я подумаю, с опросом к вам вернусь.

Чудного вечера!
Ваш дата-автор.

🔥2

419 viewsedited 16:00

Привет, друзья!

В картинках — официальные результаты хакатона. Довольна — это моё первое личное участие🐒

Завтра по следам напишу пост и скину ссылку на решение и презентацию!

🔥9❤5

339 views11:21

По следам хакатона. Цифровой прорыв 2022.

Привет и доброго вам вечера, друзья!

Долго думала, как назвать формат сегодня. “Делюсь опытом” мне не нравилось, как не крутила, и я выбрала Делюсь соревновательными дата-наблюдениями.

Надеюсь, они будет вам полезны! Поехали!

Моя история с хакатонами начиналась и не заканчивалась даже загрузкой одного результата не один раз. Моими проблемами здесь были такие:

1. Командные нюансы. Здесь стоп-факторы:

- неравномерное распределение обязанностей внутри команды — когда коэффициенты нагрузки не равны даже приближенно. Да, иногда на хакатон важно просто добрать до заветного числа участников в команде, но здесь надо быть трезво готовым к самостоятельной (парной/тройной/etc) работе и оговорить, с теми, кто не участвует в решении, взятие дизайнерских или представительных обязанностей.

- недостаточно разнообразное множество навыков внутри команды;
По набитому — хорошо, когда в команде специалисты разных сфер, особенно если хакатон многоэтапный (частный чемпионат, полуфинал, финал). Иной раз после привычной задачи, например обучения модели и анализа данных, можно столкнуться с задачей непривычной — например, сделать веб-сервис, в котором она будет работать.

Что могу посоветовать:

Собирайте команду друзей, друзья! Разных, прекрасных в своём, друзей. Разговаривайте внутри команды, разделяйте задачи и подкрепляйте соревновательный дух друг друга.

2. Самооценка.
Здесь стоп-факторы в точности только поведенческие и связанные с личным самовосприятием. Они звучат, как “я одна всё равно не приведу качественного решения”, “а что если решение моё будет смешным”, “а я этого давно не делала”.

Кто читает меня в инстаграм, знают, что я работаю над собой и к текущей точке почти уже не слышу этих мыслей внутри. Хакатон — это прежде всего извлекаемый опыт. Это возможность погрузиться в новую историю, описанную цифрами, буквами и распределениями. Это шанс стать лучше и возможность провести время с тем, что любишь. И здесь мне очень нравятся строки из песни:

На табличке надпись - "весь мир — это репетиция"...
…
Пока я думал, что подумают они
Люди думали о том, что подумал я о них
От создания всей человеческой возни
Не было чистовика тут, бесконечный черновик…

Поэтому танцуй, не жалея ног
Счастье может быть мимо ритмов и нот
Слова любви никак не утратят надежду
Оттого, что нацарапаны коряво и небрежно

В этом соревновании я участвовала максимально так, как умею и писала решение так, как его ощущала. И я довольна — кроме хорошего места, у меня теперь есть важные наблюдения, и даже если место было бы ниже, я бы вряд ли расстроилась — ценность знаний и анализа ошибок выше, чем категория цифровой грамоты.

👍3

350 views15:16

Теперь к тем самым формальным и специфическим наблюдениям.

1. Лидерборд, финальный тестовый набор данных и лучшая модель.

Если лидерборд разделен на публичную и приватную части, вторая из названных открывается только после соревнования, не всегда стоит ориентироваться на метрику поданной загрузки.

Чтобы понять, как она может повести себя потом, при вычислении на всех данных, релевантно рассмотреть распределения признаков на всем обучающем+валидационном (1) и финальном тестовом (2) датасете.

Если в спроектированных вами признаках виден сильный distribution shift (несогласованность распределений), то нужно либо ресемплировать набор данных 1, либо продумать другие features.

Кроме того, лучшую модель релевантно выбирать таким образом, чтобы она была наиболее точной при кросс-валидации уже после коррекции согласия распределений в вашем личном ноутбуке.

Такая модель не обязательно будет отдавать лучшую метрику по лидерборду (потому что не понятно, каково разбиение финального тестового набора на public и private части), но она будет известно устойчива к полной части, отработав ближе к валидационным метрикам.

2. Личная эффективность.
Не стоит настраивать себя на участие за призом, предпосылка решить реальную задачу и получить реальный результат своего решения помогает быть продуктивнее и на пике возможностей.

Кроме того, отличным пунктом к повышению интереса может быть запуск baseline-модели. Всё-таки, когда вот, они перед тобой, и ты видишь одни цифры метрики, запал получить другие кратно растёт : )

Вот так, друзья! Сегодня почти что кратко.

Решение прилагаю, презентацию решения тоже, хотя по причине моего шаткого пункта 2 части поста 1, скрипя сердцем) Но! Во благо =)

Буду рада конструктивным оценкам или если решение вам что-то напомнит - на пункте лидерборда, лучшей модели и согласия распределения признаков, я, как вы можете там увидеть, точно попалась.

Будьте смелыми, друзья! Пробуйте и идите вперёд.

Со всем самым тёплым,
Ваш дата-автор.

❤1

417 viewsedited 15:18

Цифровой прорыв 2022.pdf

449 views15:19

Привет, друзья!

Сегодня не о теории вероятностей.

Я часто копаюсь в научных статьях, связанных с data science (и не только). На днях наткнулась на особенно-любопытную — Explainable Machine Learning for Scientific Insights and Discoveries.

Статья посвящена подходу к оценке качества алгоритмов машинного и глубокого обучения с точки зрения науки.

Авторы статьи приводят три критерия качества алгоритмов с точки зрения научной ценности — прозрачность, интерпретируемость и объяснимость.

Прозрачностью авторы называют возможность описать ход работы модели. Кроме того, в статье предлагается проводить различие между прозрачностью модели, прозрачностью дизайна и алгоритмической прозрачностью.

Интерпретируемостью авторы называют возможность ответа на вопрос: “Можем ли мы понять, на чем алгоритм ML основывает свое решение?”. Интерпретируемость авторы разбивают по интерпретируемости самой модели и по интерпретируемости соотношения входных и выходных данных.

Объяснимостью авторы называют возможность показать совокупность признаков рассматриваемой предметной области (то есть domain knowlenge), которые в данном примере способствовали принятию решения. Она (объяснимость) разделена в статье на 4 группы: объяснимость по модели, объяснимость по результатам, объяснимость по дизайну модели и объяснимость с точки зрения post-hoc проверки (проверки на основе статистических тестов, например сравнение математического ожидания т-критерием Стьюдента).

На основе данных критериев, в статье приведены примеры научных статей, где часть результатов работы была получена при помощи ИИ.

Для меня остался спорными смутным момент примеров, которые авторы приводят в соответствии с данными определениями прозрачности, интерпретируемости и объяснимости.

Однако система оценки алгоритмов кажется мне полезной, даже с точки зрения повседневных бизнес-решений.

Даже в соревновательных историях, в первую очередь я отдаю предпочтение обучению простых моделей, потому как, опять же по моему мнению, интерпретируемость важнее сотых в качестве.

А что думаете вы, какие критерии алгоритмов машинного обучения с точки зрения ценности наиболее важны на ваш взгляд?

И был ли этот пост интересен/полезен для вас?
Дайте, пожалуйста, знать реакциями и/или также комментариями!🙏
#XAI

Чудного вечера,
Ваш дата-автор!

🔥5

472 viewsedited 14:24

Привет-привет, друзья! Я даже как-то соскучилась по постам тут!

Обещала вам разбирать задачи из теории вероятностей, и слово держу, и этим постом открываю рубрику #задачи! Надеюсь, она поможет вам быть уверенными на собеседованиях, стремительными на тестовых или просто бодрыми скучными вечерами.

Да-да! Задачи ТВ — не кошмар, а хорошая идея провести время. Это прекрасная тонкая головоломка, которая тренирует ум, развивает критическое мышление и обращает внимание на строгость. Ну разве не чудо упражнение?)

И так, встречайте, хитрая и неоднозначная задача из ТВ!

Формулировка:
Чертежная линейка в поперечном сечении представляет собой равносторонний треугольник. У двух таких линеек грани пронумерованы числами 1, 2, 3. Эти линейки бросаются на пол, после чего фиксируются числа, отвечающие их нижним граням. Постройте ПЭС этого опыта. Найдите вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число.

Чтобы было ощутимее, что происходит — прикрепила картинку к задаче.

Разбор:

Без интриги сразу скажу, почему она хитрая. У этой задачи при данной формулировке есть 2! решения и они зависят от того, упорядочены ли линейки. (да, да, тут пахнет комбинаторикой!)

Что делать с такими задачами на собеседовании — при возможности постарайтесь уточнить упорядочено ли выпадают объекты. Иначе ваш ответ может не сойтись с ответом проверяющего. Однако даже если вы напрочь забудете про уточнение, или вам откажут — уверенно рассуждайте вслух и не бойтесь показать два решения.

🔥1👌1

456 viewsedited 13:41

👍2

463 views13:41

В чем разница двух ситуаций:

Если линейки бросаются упорядоченно, то ПЭС выглядит так:

461 views13:44

467 views13:44

Тогда вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число согласно классической схеме равна: (9-3)/9 = 2/3

(9 — число всевозможных исходов, 3 — исходы, удовлетворяющие исследуемому событию)

Если среди линеек нет разделения на первую и вторую, то есть они падают вместе, то ПЭС выглядит так:

{11, 12, 13, 23, 22, 33}

Тогда вероятность того, что на одной из линеек будет зафиксировано большее, чем на другой, число согласно классической схеме равна: (6-3)/6 = 1/3

(6 — число всевозможных исходов, 3 — исходы, удовлетворяющие исследуемому событию)

Хоп-хоп, и получили вроде похожие, но разные ответы. И это нормально, ведь помните в первых постах по #Вероятность мы говорили, что у опыта может быть не одна модель, не одно возможное определение пространства исходов? Это — тот случай. Какая лучше — рассматривать линейки упорядоченно или нет…ответ даст только эмпирическая проверка.

Вот так, друзья!
Дайте знать, если вам понравился разбор и если они нужны ещё.

Желаю чудесного вечера,
ваш дата-автор

👍1

524 views13:45

Друзья, бодрый привет!
Сегодня у меня (впервые) взаимная коллаборация с человеком, который когда-то очень меня вдохновил. И здесь сразу скажу — не смотря на то что это коллаб я пишу вам искренне и с большой радостью что он случился! И если коллабы будут ещё, то только так и будет.

Хочу познакомить вас с Анастасией и её блогами на you tube и в Инстаграм !

Настя работала дата-сатанисткой (шучу: )) Data Scientist’кой в крупных компаниях — МТС, OMD Group, Росбанк и долгое время на практике реализовала построение эффективных (с точки зрения бизнеса, и, как видите, большого бизнеса) ML моделей. У Насти много практического опыта и насмотренности, что сразу видно по контенту, который она публикует!

Это:

- Открытые обучающие материалы по ML/DS для разных уровней (помню, как с гитхабом я впервые познакомилась именно у Насти на канале)
- Информация по карьере и трудоустройству
- Материалы для подготовки к собеседованиям в сфере DS

и многое другое — туториалы, интервью, рекомендации на основе реального опыта собеседований, рассмотрение библиотек и даже Python с 0. Если внимательно изучить все материалы, мне кажется, можно действительно подняться, что называется, «с zero to Hero»

Настя объясняет и рассказывает всё также просто, как я здесь стараюсь описывать математические вещи — от самых основ. Это очень ценно и круто!
В качестве примера, в блоге Анастасии вы сможете узнать про библиотеку Pydantic для подготовки моделей к production — от этого (выпуска моделей в прод) у меня иной раз дергается глаз : )

Ещё у Насти есть школа PyMagic, где готовят специалистов в области ML/DS. К ней, учитывая опыт Анастасии, тоже можно присмотреться, если у вас в планах только старт.

В общем, если вам откликается контент присоединяйтесь!
У Насти качественно, лаконично и полезно, и я действительно вдохновляюсь ею!

🔥12

632 views07:45

Друзья! Думаю, комментарии под постом выше многие прочли и хочу обратиться к вам на этом фоне.

Я не хочу блокировать вас за ваши мнения, впечатления и язык изложения, и делать этого не буду. Однако прошу впредь мнения высказывать:

культурно,
уважительно,
аргументировано,
честно.

С точки зрения репутации Насти у меня нет претензий и нет вопросов. Я считаю Анастасию вдохновляющим специалистом. 😌

И я подтверждаю это на собственном опыте взаимодействия с контентом её канала и личным общениям.

Всем спокойствия и мудрости.

👏6

627 viewsedited 16:37

Доброго понедельника, друзья!

Вылезла на Хабр. Пост о графовых нейронных сетях уже ждёт к прочтению там:
https://habr.com/ru/post/697704/

Я анализировала, почему так долго не переносила посты раньше. Ответ прост— стесняюсь и немного страшно — на Хабре больше читателей)

В общем, буду рада вашим взгляду, впечатлениям и конструктивным замечаниям.

Ваш дата-автор!

Graph Neural Networks: просто на математическом

Предупреждение и радостная весть: статья рассчитана в том числе на тех, кто видит математику впервые в жизни. Введение: графы и дата-примеры графов Думаю, многие встречали визуализацию с...

🔥11❤3❤‍🔥2👍1

903 viewsedited 09:51