Data Blog

Вы здесь

Anonymous Poll

45%

За теорией по ML

53%

За теорией по математике в ML

43%

За то, что ты тут

16%

За освещением опыта конференций/выступлений/грантов

👀1

88 voters783 views15:56

Data Blog

Data Blog pinned «Новые конференции и продуктивный дата-автор. Привет, друзья! Вас стало больше, рада видеть! У меня сессия на носу, поэтому я уже готовлюсь. Но пишу с новостью!) 3-4 июня буду выступать на DataFest2023, как спикер секции Reliable ML. Точное время…»

06:50

Data Blog

Разбиение на подзадачи как подход к обеспечению прозрачности/интерпретируемости модели.

Задумала провести небольшой ресёрч, посвященный методам интерпретации transformer-based моделей. Почему именно трансформеры — это архитектура, которая начала примерно 6 лет назад от задачи машинного перевода, а сейчас плавно перекочевала на множество других задач (не только из NLP, но и из CV — касалась этого в обзорах главного за 2022 год).

Так вот — пока «рылась» (и роюсь ещё), наткнулась на серию статей [1], [2], [3], посвященных построению интерпретируемой системы детекции сексизма.

Вопреки ожидаемому — рассмотрению механизмов внимания модели, визуализации голов или слоёв, обнаружила иной подход к интерпретируемости — детализация основной задачи на subtasks, с целью повысить контроль над предсказанием.

Что делают:

Берут основную задачу (детекция сексизма) и детализируют её на

1. Бинарную задачу — сексистский пост или нет;
2. Задачу категоризации сексизма на на 1 из 4 классов— угроза, унижение, враждебность или предвзятое убеждение;
3. Задачу выделения подкатегории для одного из 4х классов.

Хотя такой подход не заглядывает напрямую внутрь black box модели, он кажется мне простым и легко широко применимым на практике. Так что, как идея обеспечения контроля над моделью, детализация задачи — то, что можно «мотнуть на ус».

Ещё в ходе написания конспект лекции Игоря Котенкова про трансформеры и постараюсь в ближнем времени собрать библиотеки для интерпретации трансформеров в одну кучу.

Блог живет и будет жить,
Ваш дата-автор =)

❤8🔥2

551 viewsedited 16:05

Data Blog

Привет, друзья!

В это воскресенье выступаю на секции Reliable (надежный) ML с докладом на тему "Explainable AI: что, как и зачем?" в рамках DataFest2023

В докладе:

- Почему XAI востребован сейчас и будет востребован еще долгое время
- Как исследователи классифицируют XAI
- С помощью каких инструментов можно внедрить XAI в работу
- Какие существуют подходы к построению метрик для оценки качества интерпретаций

и в конце также приведу анализ применимости оценки активаций сети в задаче мультиклассовой классификации 🐥

Начало работы секции: 11:00
Мой доклад: 11:45

Как стать слушателем: https://t.iss.one/reliable_ml

Присоединяйтесь!

Будет и запись!)

Reliable ML

Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft

❤8🔥2

617 viewsedited 18:20

Data Blog

Интерпретируемый ИИ. ЧЗК-2.pdf

3.7 MB

Всем как всегда доброго!

Мысли дошли наконец-то закинуть pdf презентации.

Кажется, в воскресенье снова стала самым счатливым пирожком, успев не только выступить, но и комадно поучаствовать в Хакатоне по составлению ML-system design doc.

В остальном же я временно отъехала в получение зачетов и мирские будни =) Но не совсем — трансформерский конспект лекции постепенно оформляю.

Да. Всем наличия work-life balance в этой жизни!

Ваши Дата-автор и презентация во вложении.

🔥10❤1

618 viewsedited 14:39

Data Blog

Привет, друзья-товарищи!)

За моей спиной 40 билетов по геометрии, и я обещала — я сделала — конспект лекции Игоря Котенкова: Transformer, explained in detail.

Для вас, если:

1. Вам интересна архитектура трансформера и хочется понять, как он работает
2. Вы хотите освежить знания по архитектуре в быстром темпе
3. Вы просто любите читать конспекты

Ждёт здесь: с тарательно написан =)

Важно: если встретите опечатки — всегда пишите! К сожалению, я человек и могла их допустить и не увидеть от замылившегося взгляда.

Как всегда ваш,
Дата-автор 🐥

YouTube

Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)

Ссылка на презентацию: https://1drv.ms/p/s!AlnN0aqNwShslRdcd7-WsY9oUm50

Мой телеграм канал: https://t.iss.one/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://t.iss.one/seeallochnaya/3

В этой вводной лекции о трансформерах мы…

❤9🔥3

673 views16:25

Data Blog

Привет, друзья!

Убираюсь тут на своем гугл диске (и это хуже, чем убираться в шкафу) и делюсь интересной заметкой:

Книга Interpretable Machine Learning — A Guide for Making Black Box Models Explainable
Christoph Molnar.

Очень рекомендую тем, кто хочет ответить для себя на вопрос "Что такое интерпретируемый ИИ?", а также тем, кто хочет в начальном приближении разобрать имеющиеся типы методов интерпретаций.

Надеюсь, ваше лето началось отлично (даже несмотря на рабочее время — лето — это всегда круто!😉)

Ваш всё-ещё-на-сессии,
Дата-автор

christophm.github.io

Interpretable Machine Learning

🔥6😁2👍1

604 views15:20

Data Blog

Спонтанное включение.

Не могу не поделиться — тут Гемотест удивляет интересными креативами с утра пораньше. 👀

И интересно, что по их словам и их вопросам ChatGPT валит «экзамен».

К слову, о других limitations GPT мне ещё эта статья понравилась.

🔥3🤔1

605 viewsedited 09:09

Data Blog

Привет, друзья! Сегодня включение ещё более спонтанное:

я взяла грант на проекте "УМНИК"!

Предыстория:

зимой мой научный руководитель предложил мне разработать идею и выступить с ней, ради практики выступлений. Как видите, вышло аж вот так)
Мы ждали результатов полгода, долгое время ходили слухи, и вот дождались!

Впервые получаю грант на свой проект (конечно же ИИ-шный). По предупреждению научника в этой истории стоит заранее запастись любовью к бумажкам, отчетам, печатям, документам и подписям.

Так вот к чему делюсь — леплю опрос ниже!

Сегодня в шоке,
Ваш дата-автор!

🔥14

627 views15:57

Data Blog

Нужно ли рассказывать о том, что там за отрезок жизни начинается после гранта?

Anonymous Poll

74 voters640 views15:58

Data Blog

Привет, друзья!

Прости господи моим нервным клеткам эту сессию в 5 экзаменов и беготню с получением гранта. Официально чувствую себя чемпионом по разрешению входящих задач в потоке, устала и хочу в отпуск.

Но какой отпуск без хорошей и интересной работы? Я серьезно — без неё было бы скучно! =)

На DataFest был отмечен важный нюанс — интерпретируемость (interpretability) не равно объяснимость (explainability). И я решила, что разница должна быть зафиксирована текстом.

Ну, и чтобы не хранить это в ящике, выложила статью на Хабр!

Она ждёт вас там.
Ушла повторять диффуры,

Ваш дата-автор =)

❤10

600 views14:56

Data Blog

Привет, друзья! Закончился 20-ти дневный период на подготовку договора с Фондом…
и я — выжатый лимон!)

Обещала делиться, поэтому пишу. Пусть тут будет ветка #УМНИК #Грант

Напомню, «УМНИК» — программа, позволяющая людям от 18 до 30 лет получить грант в размере 500 000 на год для реализации научной разработки. До момента получения денег проходятся этапы подачи заявки, очной её защиты и отбора жюри.

🍋 Сегодня о том, что происходит в случае выигрыша.

Происходит весёлое — заполнение договора с Фандом. Это чудо света заполняется максимально строго и формально:

— Да бюрократической тавтологии.
— Нет сленговыми названиям.

Никакого бэкэнда и пайплайна машинного обучения — только «разработка серверной компоненты продукта», и «обучение, тестирование и анализ экспертного алгоритма ... продукта».

Договор, и вся программа в целом нюансированы тем, что с одной стороны, фонд требует проводить научную работу, с другой — настаивает на её коммерциализации (обязательно).

По договору за 12 месяцев пирожки-грантополучатели обязаны:

1. Реализовать все работы в договоре (и защитить по ним отчетность дважды — на середине и в конце).
2. Подать заявку на регистрацию прав (заявку на патент) на результаты интеллектуальной деятельности.
3. Разработать бизнес-план проекта в соответствии с требованиями или подать заявку на участие в программе Фонда «Студенческий стартап».
4. Пройти преакселерационную программу, с целью проработки перспектив коммерческого использования результатов НИР;
5. Разработать дорожную карту развития проекта.

Иначе говоря, по договору вы должны работать, учиться бизнесу и патентовать. Звучит как лагерь, причем с хорошими условиями)

Что касается меня:

На договоре я сильно выжалась, потому что подала сырой проект и вообще не планировала получать на него деньги. У меня не было понимания что я хочу материально сделать, и следовательно видения как я буду это делать — отсюда нервы, стресс и большая благодарность людям вокруг — организатор на нашей площадке с нами 24 часа в сутки 7 дней в неделю, мой друг, компетентный в разработке, вуалировал со мной этапы и его ответы помогли мне понять, как копать, когда ты в разработке, как кола — zero.

Если вы приходите на "УМНИК" с четким видением материального продукта и пониманием шагов к его созданию, то пока программа выглядит хорошим способом получить инвестиции в pet-project.

На этом на сегодня всё.
У меня есть некоторые задумки на летний контент канала. Ниже по ним опрос. И это пилотный пост!) Мне будет легче описывать опыт гранта, если вы зададите точечные вопросы!)

Такие сегодня вести.

Ещё не сок, но уже как фрэш,
Ваш Дата-автор.

👍4🥰2

561 viewsedited 19:55

Data Blog

Летний контент канала

Anonymous Poll

44%

Разбор задач из теории вероятностей

40%

Разбор задач из линейной алгебры

35%

Давай про методы интерпретации алгоритмов

51%

Классический Data Analysis

Предложу своё

👍2🤯1

57 voters603 views19:57

Data Blog

Привет, друзья!

Линейная алгебра набрала большой отклик, а я люблю её, как своих котов, так что начнем с неё!

Здесь разобраны 3 типы задач и некоторые трюки при их решении:

1. Нахождение решения системы линейных уравнений
2. Нахождение многочлена по его значениям
3. Исследование векторов на линейную независимость.

Где встречаются линейные уравнения в Data sceince:

1. Порождение линейно зависимых фичей — просто взяли признак и умножили его на число. Это усложняет алгоритм и не добавляет информативности. О косвенной линейной зависимости может говорить также высокая корреляция Пирсона.

2.Обучение линейной регрессии — в идеале мы хотим решить матричное уравнение максимально точно.

Ваши примеры?

На этом всё. Дайте знать, в какую сторону улучшать разборы (но только не почерк).
Пару задач на попрактиковаться оставила в комментариях.

Отличного понедельника!
Ваш Дата-автор) 🐥

Telegraph

3 типа задач из линейной алгебры

Итак, здесь описание 3х типов задач: Нахождение решения системы линейных уравнений Нахождение многочлена по его значениям Исследование векторов на линейную независимость. Поехали! Тип 1. Нахождение решения системы линейных уравнений Суть: задана система…

🔥9👍5

617 viewsedited 11:22

Data Blog

Привет, друзья! 🐥

Вы просили — мы (я и мои голова и пальцы, получается) сделали — сегодня про один из методов интерпретации моделей — Permutation importance.

В статье разобраны 3 пункта:

- Что это за метод интепретации?
- Как корректно интерпретировать результаты метода?
- Где можно найти реализацию метода для применения в своих задачах?

Приятного прочтения!

С огромной любовью к тому, что вы тут (вас аж более 300, боже!),

ваш, пакующий рюкзак на отдых, Дата-автор 💛

Telegraph

Permutation Importance

Перетасовочная важность (Permutation Importance) — метод интерпретируемости для моделей машинного обучения. Он основан на гипотезе, что если признак не является важным, то перетасовка его значений случайным образом не должна существенно изменить качество…

🔥5❤3👍1

561 viewsedited 10:03

Data Blog

scikit-explain — библиотека для объяснения sklearn моделей.

Привет, друзья! Я тут жарюсь в Армении, и пока подтягивала кривыми ещё в терминале руками sklearn в окружение, случайно обнаружила библиотеку scikit-explain. 🐤

В ней реализованы «джентльменский набор» и «дамская сумочка» методик интерпретации — «джентльменский» — потому что методы из библиотеки действительно являются базовыми и достаточными для интерпретации ML алгоритмов, «дамская» — потому что кроме основных есть и другие, расширяющие.

В общем, если вы в основном работаете со sklearn моделями, библиотека scikit-explain может стать удобным инструментом для использования!

Для удобства прилагаю список реализованных методов:

Feature importance:
• Permutation Importance, Grouped Permutation Importance
• SHAP
• First-order PD/ALE Variance (Greenwell et al. 2018 )
• Grouped Permutation Importance (Au et al. 2021)

Feature Effects/Attributions:
• Partial Dependence (PD),
• Accumulated local effects (ALE),
• Random forest-based feature contributions (treeinterpreter)
• Main Effect Complexity (MEC; Molnar et al. 2019)

Feature Interactions:
• Second-order PD/ALE
• Interaction Strength and Main Effect Complexity (IAS; Molnar et al. 2019)
• Second-order PD/ALE Variance (Greenwell et al. 2018)
• Second-order Permutation Importance (Oh et al. 2019)
• Friedman H-statistic (Friedman and Popescu 2008)

Библиотека живая: последнее обновление 2 недели назад (на 27.07.23)

Всем отличных и спокойных вечеров!
Ваш дата-автор:)

GitHub

GitHub - monte-flora/scikit-explain: A user-friendly python package for computing and plotting machine learning explainability…

A user-friendly python package for computing and plotting machine learning explainability output. - GitHub - monte-flora/scikit-explain: A user-friendly python package for computing and plotting ma...

🔥6👍1👀1

742 views18:14

Data Blog

Спонтанный привет, друзья!

Ну точно лопну, если не поделюсь — кажется нашла ферму, где трудятся — растят всякие «искусственные интеллекты» — маленькие дата-сатанисты — ML Mining😈😄

В реальности, конечно, ML Mining — крупная многофункциональная строительная компания в Ереване. Строят, сносят, материалы производят.

А жаль.

Всем много мемов в жизни!

Ваш, чуть выдохнувший в отпуске, Дата-автор :)

😁6❤1👏1

662 views17:46

Data Blog

Привет, друзья!

🐥 Стала плотнее работать с библиотеками, предлагающими методы интерпретации. По пути стали встречаться ошибки и баги, так что я решила начать собирать возможные проблемы и решения в одном месте.

Красивое readme я добавлю позже, а пока приглашаю вас присоединяться к наполнению и использованию такой небольшой базы данных.

Ссылка на репозиторий: XAI_libraries_problems

Устала отдыхать, а у меня и не получается,

🌤 Ваш дата-автор!)

👍5🔥2

661 views10:13

Data Blog

Привет друзья!

Линейная регрессия — алгоритм, с которого многие начинают свой путь в машинном обучении. Вопреки простоте и старости, линейная регрессия остается востребованной, поскольку относиться к интерпретируемым алгоритмам.

Интерпретируемость в данном случае — внутреннее свойство модели, отсюда, как ни странно, для интерпретации важностей признаков нам важно заглянуть внутрь — посмотреть веса.

На практике посмотреть — это полдела. А вторые полдела — проанализировать и продемонстрировать результаты.

В посте (я полюбила телеграф 🐥) собрала 5 методов, как это можно сделать! Внутри разобраны:

1. Прямое представление коэффициентов в виде барплота.
2. Представление коэффициентов виде круговой диаграммы.
3. Рассмотрение относительного вклада коэффициентов.
4. Анализ остатков модели.
5. Построение регионов уверенности.

Код с примерами из статьи доступен в ноутбуке. Там же небольшой cheat sheet по регрессии.

А впереди у нас пост про интерпретацию LLM, но мы еще пишем.

Желаю вам продуктивной работы и теплых дней уходящего лета,
Ваш Дата автор! 🐤

🔥8❤1👍1🤝1

638 views15:46

Data Blog

Не могу этим не поделиться.

Сделайте свой день чуднее — сгенерируйте смешного котика, ботинок, сумку или фасад из собственных каракуль!

Я вот постаралась. 🐥

😁4😍3🔥1

496 views10:39

Data Blog

Друзья! Кто открывал чудесный шевелящийся текст пару постов назад, тот видел, что готовится серия постов про LLM.

Так вот, мы дописали! И нет, "мы" — это не я и мои кошки =)

Сегодня я закончила допрос Андрея (а Андрей — допрос меня), и мы сделали целых два поста про LLM и интерпретацию этих моделей.

В первой части рассмотрены вопросы теории:

- Какие выделяются виды LLM моделей и откуда различия между ними?
- Почему мне и вам полезно знать про LLM и где они могут пригодиться?

Практики:

- Какие библиотеки будут полезны для работы с LLM, и какие используют наиболее?
- Где можно ли обойтись базовыми моделями типа W2V или BoW?

И момент мечтаний:

- Какой тренд в развитии LLM на базе последних исследований?

Мы мучили друг друга две недели и надеемся, что получилось awesome. Ждем вашего прочтения и если будут еще вопросы – ждем ещё вопросов!

А читать...читать здесь 🐤
Кооперация с @awesome_dl

Teletype

Языковые модели (Large Language models)

Они очень старались сделать кратко и интересно, но вышло просто интересно. В кооперации @awesome_dl x @data blog мы решили...

👍10🔥2

1.24K views15:40

About

Blog

Apps

Platform