Привет, друзья!
Линейная алгебра набрала большой отклик, а я люблю её, как своих котов, так что начнем с неё!
Здесь разобраны 3 типы задач и некоторые трюки при их решении:
1. Нахождение решения системы линейных уравнений
2. Нахождение многочлена по его значениям
3. Исследование векторов на линейную независимость.
Где встречаются линейные уравнения в Data sceince:
1. Порождение линейно зависимых фичей — просто взяли признак и умножили его на число. Это усложняет алгоритм и не добавляет информативности. О косвенной линейной зависимости может говорить также высокая корреляция Пирсона.
2.Обучение линейной регрессии — в идеале мы хотим решить матричное уравнение максимально точно.
Ваши примеры?
На этом всё. Дайте знать, в какую сторону улучшать разборы (но только не почерк).
Пару задач на попрактиковаться оставила в комментариях.
Отличного понедельника!
Ваш Дата-автор) 🐥
Линейная алгебра набрала большой отклик, а я люблю её, как своих котов, так что начнем с неё!
Здесь разобраны 3 типы задач и некоторые трюки при их решении:
1. Нахождение решения системы линейных уравнений
2. Нахождение многочлена по его значениям
3. Исследование векторов на линейную независимость.
Где встречаются линейные уравнения в Data sceince:
1. Порождение линейно зависимых фичей — просто взяли признак и умножили его на число. Это усложняет алгоритм и не добавляет информативности. О косвенной линейной зависимости может говорить также высокая корреляция Пирсона.
2.Обучение линейной регрессии — в идеале мы хотим решить матричное уравнение максимально точно.
Ваши примеры?
На этом всё. Дайте знать, в какую сторону улучшать разборы (но только не почерк).
Пару задач на попрактиковаться оставила в комментариях.
Отличного понедельника!
Ваш Дата-автор) 🐥
Telegraph
3 типа задач из линейной алгебры
Итак, здесь описание 3х типов задач: Нахождение решения системы линейных уравнений Нахождение многочлена по его значениям Исследование векторов на линейную независимость. Поехали! Тип 1. Нахождение решения системы линейных уравнений Суть: задана система…
🔥9👍5
Привет, друзья! 🐥
Вы просили — мы (я и мои голова и пальцы, получается) сделали — сегодня про один из методов интерпретации моделей — Permutation importance.
В статье разобраны 3 пункта:
- Что это за метод интепретации?
- Как корректно интерпретировать результаты метода?
- Где можно найти реализацию метода для применения в своих задачах?
Приятного прочтения!
С огромной любовью к тому, что вы тут (вас аж более 300, боже!),
ваш, пакующий рюкзак на отдых, Дата-автор 💛
Вы просили — мы (я и мои голова и пальцы, получается) сделали — сегодня про один из методов интерпретации моделей — Permutation importance.
В статье разобраны 3 пункта:
- Что это за метод интепретации?
- Как корректно интерпретировать результаты метода?
- Где можно найти реализацию метода для применения в своих задачах?
Приятного прочтения!
С огромной любовью к тому, что вы тут (вас аж более 300, боже!),
ваш, пакующий рюкзак на отдых, Дата-автор 💛
Telegraph
Permutation Importance
Перетасовочная важность (Permutation Importance) — метод интерпретируемости для моделей машинного обучения. Он основан на гипотезе, что если признак не является важным, то перетасовка его значений случайным образом не должна существенно изменить качество…
🔥5❤3👍1
scikit-explain — библиотека для объяснения sklearn моделей.
Привет, друзья! Я тут жарюсь в Армении, и пока подтягивала кривыми ещё в терминале руками sklearn в окружение, случайно обнаружила библиотеку scikit-explain. 🐤
В ней реализованы «джентльменский набор» и «дамская сумочка» методик интерпретации — «джентльменский» — потому что методы из библиотеки действительно являются базовыми и достаточными для интерпретации ML алгоритмов, «дамская» — потому что кроме основных есть и другие, расширяющие.
В общем, если вы в основном работаете со sklearn моделями, библиотека scikit-explain может стать удобным инструментом для использования!
Для удобства прилагаю список реализованных методов:
Feature importance:
Feature Effects/Attributions:
Feature Interactions:
Библиотека живая: последнее обновление 2 недели назад (на 27.07.23)
Всем отличных и спокойных вечеров!
Ваш дата-автор:)
Привет, друзья! Я тут жарюсь в Армении, и пока подтягивала кривыми ещё в терминале руками sklearn в окружение, случайно обнаружила библиотеку scikit-explain. 🐤
В ней реализованы «джентльменский набор» и «дамская сумочка» методик интерпретации — «джентльменский» — потому что методы из библиотеки действительно являются базовыми и достаточными для интерпретации ML алгоритмов, «дамская» — потому что кроме основных есть и другие, расширяющие.
В общем, если вы в основном работаете со sklearn моделями, библиотека scikit-explain может стать удобным инструментом для использования!
Для удобства прилагаю список реализованных методов:
Feature importance:
•
Permutation Importance, Grouped Permutation Importance •
SHAP •
First-order PD/ALE Variance (Greenwell et al. 2018 ) •
Grouped Permutation Importance (Au et al. 2021)Feature Effects/Attributions:
•
Partial Dependence (PD), •
Accumulated local effects (ALE), •
Random forest-based feature contributions (treeinterpreter) •
Main Effect Complexity (MEC; Molnar et al. 2019)Feature Interactions:
•
Second-order PD/ALE •
Interaction Strength and Main Effect Complexity (IAS; Molnar et al. 2019) •
Second-order PD/ALE Variance (Greenwell et al. 2018) •
Second-order Permutation Importance (Oh et al. 2019) •
Friedman H-statistic (Friedman and Popescu 2008)Библиотека живая: последнее обновление 2 недели назад (на 27.07.23)
Всем отличных и спокойных вечеров!
Ваш дата-автор:)
GitHub
GitHub - monte-flora/scikit-explain: A user-friendly python package for computing and plotting machine learning explainability…
A user-friendly python package for computing and plotting machine learning explainability output. - GitHub - monte-flora/scikit-explain: A user-friendly python package for computing and plotting ma...
🔥6👍1👀1
Спонтанный привет, друзья!
Ну точно лопну, если не поделюсь — кажется нашла ферму, где трудятся — растят всякие «искусственные интеллекты» — маленькие дата-сатанисты — ML Mining😈😄
В реальности, конечно, ML Mining — крупная многофункциональная строительная компания в Ереване. Строят, сносят, материалы производят.
А жаль.
Всем много мемов в жизни!
Ваш, чуть выдохнувший в отпуске, Дата-автор :)
Ну точно лопну, если не поделюсь — кажется нашла ферму, где трудятся — растят всякие «искусственные интеллекты» — маленькие дата-сатанисты — ML Mining😈😄
В реальности, конечно, ML Mining — крупная многофункциональная строительная компания в Ереване. Строят, сносят, материалы производят.
А жаль.
Всем много мемов в жизни!
Ваш, чуть выдохнувший в отпуске, Дата-автор :)
😁6❤1👏1
Привет, друзья!
🐥 Стала плотнее работать с библиотеками, предлагающими методы интерпретации. По пути стали встречаться ошибки и баги, так что я решила начать собирать возможные проблемы и решения в одном месте.
Красивое readme я добавлю позже, а пока приглашаю вас присоединяться к наполнению и использованию такой небольшой базы данных.
Ссылка на репозиторий: XAI_libraries_problems
Устала отдыхать, а у меня и не получается,
🌤 Ваш дата-автор!)
🐥 Стала плотнее работать с библиотеками, предлагающими методы интерпретации. По пути стали встречаться ошибки и баги, так что я решила начать собирать возможные проблемы и решения в одном месте.
Красивое readme я добавлю позже, а пока приглашаю вас присоединяться к наполнению и использованию такой небольшой базы данных.
Ссылка на репозиторий: XAI_libraries_problems
Устала отдыхать, а у меня и не получается,
🌤 Ваш дата-автор!)
👍5🔥2
Привет друзья!
Линейная регрессия — алгоритм, с которого многие начинают свой путь в машинном обучении. Вопреки простоте и старости, линейная регрессия остается востребованной, поскольку относиться к интерпретируемым алгоритмам.
Интерпретируемость в данном случае — внутреннее свойство модели, отсюда, как ни странно, для интерпретации важностей признаков нам важно заглянуть внутрь — посмотреть веса.
На практике посмотреть — это полдела. А вторые полдела — проанализировать и продемонстрировать результаты.
В посте (я полюбила телеграф 🐥) собрала 5 методов, как это можно сделать! Внутри разобраны:
1. Прямое представление коэффициентов в виде барплота.
2. Представление коэффициентов виде круговой диаграммы.
3. Рассмотрение относительного вклада коэффициентов.
4. Анализ остатков модели.
5. Построение регионов уверенности.
Код с примерами из статьи доступен в ноутбуке. Там же небольшой cheat sheet по регрессии.
А впереди у нас пост про интерпретацию LLM, но мы еще пишем.
Желаю вам продуктивной работы и теплых дней уходящего лета,
Ваш Дата автор! 🐤
Линейная регрессия — алгоритм, с которого многие начинают свой путь в машинном обучении. Вопреки простоте и старости, линейная регрессия остается востребованной, поскольку относиться к интерпретируемым алгоритмам.
Интерпретируемость в данном случае — внутреннее свойство модели, отсюда, как ни странно, для интерпретации важностей признаков нам важно заглянуть внутрь — посмотреть веса.
На практике посмотреть — это полдела. А вторые полдела — проанализировать и продемонстрировать результаты.
В посте (я полюбила телеграф 🐥) собрала 5 методов, как это можно сделать! Внутри разобраны:
1. Прямое представление коэффициентов в виде барплота.
2. Представление коэффициентов виде круговой диаграммы.
3. Рассмотрение относительного вклада коэффициентов.
4. Анализ остатков модели.
5. Построение регионов уверенности.
Код с примерами из статьи доступен в ноутбуке. Там же небольшой cheat sheet по регрессии.
Ваш Дата автор! 🐤
🔥8❤1👍1🤝1
Не могу этим не поделиться.
Сделайте свой день чуднее — сгенерируйте смешного котика, ботинок, сумку или фасад из собственных каракуль!
Я вот постаралась. 🐥
Сделайте свой день чуднее — сгенерируйте смешного котика, ботинок, сумку или фасад из собственных каракуль!
Я вот постаралась. 🐥
😁4😍3🔥1
Друзья! Кто открывал чудесный шевелящийся текст пару постов назад, тот видел, что готовится серия постов про LLM.
Так вот, мы дописали! И нет, "мы" — это не я и мои кошки =)
Сегодня я закончила допрос Андрея (а Андрей — допрос меня), и мы сделали целых два поста про LLM и интерпретацию этих моделей.
В первой части рассмотрены вопросы теории:
- Какие выделяются виды LLM моделей и откуда различия между ними?
- Почему мне и вам полезно знать про LLM и где они могут пригодиться?
Практики:
- Какие библиотеки будут полезны для работы с LLM, и какие используют наиболее?
- Где можно ли обойтись базовыми моделями типа W2V или BoW?
И момент мечтаний:
- Какой тренд в развитии LLM на базе последних исследований?
Мы мучили друг друга две недели и надеемся, что получилось awesome. Ждем вашего прочтения и если будут еще вопросы – ждем ещё вопросов!
А читать...читать здесь 🐤
Кооперация с @awesome_dl
Так вот, мы дописали! И нет, "мы" — это не я и мои кошки =)
Сегодня я закончила допрос Андрея (а Андрей — допрос меня), и мы сделали целых два поста про LLM и интерпретацию этих моделей.
В первой части рассмотрены вопросы теории:
- Какие выделяются виды LLM моделей и откуда различия между ними?
- Почему мне и вам полезно знать про LLM и где они могут пригодиться?
Практики:
- Какие библиотеки будут полезны для работы с LLM, и какие используют наиболее?
- Где можно ли обойтись базовыми моделями типа W2V или BoW?
И момент мечтаний:
- Какой тренд в развитии LLM на базе последних исследований?
Мы мучили друг друга две недели и надеемся, что получилось awesome. Ждем вашего прочтения и если будут еще вопросы – ждем ещё вопросов!
А читать...читать здесь 🐤
Кооперация с @awesome_dl
Teletype
Языковые модели (Large Language models)
Они очень старались сделать кратко и интересно, но вышло просто интересно. В кооперации @awesome_dl x @data blog мы решили...
👍10🔥2
А как вы покупаете картошку?
Anonymous Poll
9%
С компьютерным зрением 👑
62%
Пока без 😎
29%
Я нейросеть ☺️
This media is not supported in your browser
VIEW IN TELEGRAM
Дата-автор покупает картошку. 🍠
Если вы слышите в магните человека, орущего: «Цивилизация, компьютерное зрение!!!» — это я)
P.S. Для малых городов — очень удивительная штука.
Если вы слышите в магните человека, орущего: «Цивилизация, компьютерное зрение!!!» — это я)
P.S. Для малых городов — очень удивительная штука.
🔥9❤🔥3👍3🤣1
Вернёмся к LLM!
Друзья, творческие начала подвезли вторую часть моих дискуссий с Андреем про LLM!
Во второй части я постаралась (очень!) закрыть два основных вопроса — зачем:
- ...интерпретировать LLM?
И как:
- ...справляются в области со сложностями в интерпретации больших лучистых (вы поймете, открыв пост) LLM?
🍒 Вишенкой рассказала о применении самих LLM моделей как методов интерпретации.
С Андреем будем рады ещё вопросам! А если мы не ответим сразу, то быть может именно ваш вопрос станет триггером на новый deep-dive research.
Ну и Читать здесь!
Awesome кооперация с @awesome_dl
Отличного вам начала сентября, друзья! Запасайтесь уютом, теплом, тыквой и картошкой)
Друзья, творческие начала подвезли вторую часть моих дискуссий с Андреем про LLM!
Во второй части я постаралась (очень!) закрыть два основных вопроса — зачем:
- ...интерпретировать LLM?
И как:
- ...справляются в области со сложностями в интерпретации больших лучистых (вы поймете, открыв пост) LLM?
🍒 Вишенкой рассказала о применении самих LLM моделей как методов интерпретации.
С Андреем будем рады ещё вопросам! А если мы не ответим сразу, то быть может именно ваш вопрос станет триггером на новый deep-dive research.
Ну и Читать здесь!
Awesome кооперация с @awesome_dl
Отличного вам начала сентября, друзья! Запасайтесь уютом, теплом, тыквой и картошкой)
Teletype
Методы интерпретации Large Language Models
Вторая часть кооперации двух лучистых пирогов: @data blog x @awesome_dl. В первой части у нас получилось не кратко, но интересно...
🔥4❤1
Привет, друзья! С Днём знаний! 🍁
Пишу закинуть интересную статью: «TRIVEA: Transparent Ranking Interpretation using Visual Explanation of Black-Box Algorithmic Rankers»
В ней методы explainable AI используются для обеспечения прозрачности решения задачи ранжирования.
Опуская другие детали (я не спец в задаче ранжирования), на основе статьи можно вынести два важных и интересных топика:
- методы explainable AI, заявляемые как model-agnostic — то есть применимые к любой модели — полно способны охватить классический кластер задач AI. Так, для анализа процесса ранжирования в статье применены LIME (Local Interpretable Model-Agnostic Explanations) и ICE (Individual Conditional Expectation).
- в применении post-hoc объяснений есть момент субъективности методов. Здесь это проявлено в том моменте, что в статье авторы, исследуя согласованность методов, обнаружили, что она не стабильна и зависит от свойств данных и задачи.
Вот такое спонтанное короткое включение.
Надеюсь, те из вас, кто с детьми, сохраняют бодрость духа, те, кто стартанул в новый учебный год — предвкушают новые события и знания, и те, у кого ничего не изменилось, держат дзен!)
Я где-то между второй и третьей группой,
Ваш Дата-автор! 🐥
Пишу закинуть интересную статью: «TRIVEA: Transparent Ranking Interpretation using Visual Explanation of Black-Box Algorithmic Rankers»
В ней методы explainable AI используются для обеспечения прозрачности решения задачи ранжирования.
Опуская другие детали (я не спец в задаче ранжирования), на основе статьи можно вынести два важных и интересных топика:
- методы explainable AI, заявляемые как model-agnostic — то есть применимые к любой модели — полно способны охватить классический кластер задач AI. Так, для анализа процесса ранжирования в статье применены LIME (Local Interpretable Model-Agnostic Explanations) и ICE (Individual Conditional Expectation).
- в применении post-hoc объяснений есть момент субъективности методов. Здесь это проявлено в том моменте, что в статье авторы, исследуя согласованность методов, обнаружили, что она не стабильна и зависит от свойств данных и задачи.
Вот такое спонтанное короткое включение.
Надеюсь, те из вас, кто с детьми, сохраняют бодрость духа, те, кто стартанул в новый учебный год — предвкушают новые события и знания, и те, у кого ничего не изменилось, держат дзен!)
Я где-то между второй и третьей группой,
Ваш Дата-автор! 🐥
🔥5👍2
Потому что подвожу итоги лета, а ещё потому что Евгений и Елена сильно помогли мне расширить список достижений
🐷 Друзья! Пишу сегодня вам ещё — порекомендовать шикарную школу AI Education и рассказать об их вот-вот стартующих буткемпах:
- Начало MLOps (бесплатный курс, старт 15.09)
- Основы нейронных сетей и NLP (платный курс, старт 20.09)
Пишу, потому что провела с AI Education почти всё лето и за это время:
- Наконец-то вникла, что такое контейнер и как его собрать, поднять и запушить
- Задеплоила веб-сервис с анализом данных и сделала демо веб-сервиса для подбора методик интерпретации (можно пользоваться, но я ещё его улучшу)
- Начала приручать бобра в лице DBeaver
- Повторила математику внутри KNN, регрессий и наивного Байесовского классификатора
- Повторила методы работы с несбалансированными данными
Попутно я перестала ругаться на декораторы, стала лучше чувствовать культуру ООП, ввела в плотную привычку работу через GitHub ивернула 80ГБ памяти на компьютер, но это другая история..:)
🍒 UPD: вишня, друзья! По промокоду DARII на все курсы AI Education у вас будет скидка!
Очень советую школу и не прощаюсь! На второй курс иду сама, потому что мне хочеться и нужно научиться парсить данные, на первый — может тоже, если не лопну от нагрузки)
На деле — рада тому, что вас всё больше, а стеснения у меня иной раз писать посты у меня всё меньше.
Поэтому продолжаю интенсивно стучать по клавишам,
Ваш Дата-автор! 🐓
P.S. не реклама, а, как говорят, "от души".
P.P.S хотела найти какой-нибудь промокод на степик, но не нашла, но потом организаторы курсов прислали мне вишню — и я стала самым счастливым Дата-автором. Пользуйтесь во благо! 😌
P.P.P.S если вы тоже изучили что-то отличное за лето — делитесь в комментариях! Знания — сила, даже когда кажется, что тема старая и всё уже известно)
🐷 Друзья! Пишу сегодня вам ещё — порекомендовать шикарную школу AI Education и рассказать об их вот-вот стартующих буткемпах:
- Начало MLOps (бесплатный курс, старт 15.09)
- Основы нейронных сетей и NLP (платный курс, старт 20.09)
Пишу, потому что провела с AI Education почти всё лето и за это время:
- Наконец-то вникла, что такое контейнер и как его собрать, поднять и запушить
- Задеплоила веб-сервис с анализом данных и сделала демо веб-сервиса для подбора методик интерпретации (можно пользоваться, но я ещё его улучшу)
- Начала приручать бобра в лице DBeaver
- Повторила математику внутри KNN, регрессий и наивного Байесовского классификатора
- Повторила методы работы с несбалансированными данными
Попутно я перестала ругаться на декораторы, стала лучше чувствовать культуру ООП, ввела в плотную привычку работу через GitHub и
🍒 UPD: вишня, друзья! По промокоду DARII на все курсы AI Education у вас будет скидка!
Очень советую школу и не прощаюсь! На второй курс иду сама, потому что мне хочеться и нужно научиться парсить данные, на первый — может тоже, если не лопну от нагрузки)
На деле — рада тому, что вас всё больше, а стеснения у меня иной раз писать посты у меня всё меньше.
Поэтому продолжаю интенсивно стучать по клавишам,
Ваш Дата-автор! 🐓
P.S. не реклама, а, как говорят, "от души".
P.P.S хотела найти какой-нибудь промокод на степик, но не нашла, но потом организаторы курсов прислали мне вишню — и я стала самым счастливым Дата-автором. Пользуйтесь во благо! 😌
P.P.P.S если вы тоже изучили что-то отличное за лето — делитесь в комментариях! Знания — сила, даже когда кажется, что тема старая и всё уже известно)
Stepik: online education
AI Education
🔥12❤1
Computation graph analysis — comgra library…
или привет, друзья! 🐓
Мне прилетела — делюсь дальше — comgra библиотека для анализа вычислительного графа нейронной сети.
Библиотека позволяет:
- анализировать тензоры нейроной сети и их поведение на разных шагах обучения.
- анализировать тензоры нейроной сети и их поведение на разных батчах и даже отдельных наблюдениях при обучении.
- отслеживать зависимость тензоров и градиентов друг от друга.
Если вы знакомы, то comgra некоторый нейросетевой аналог библиотеки treeinterpreter (она поддерживает все sklearn деревья и ансамбли).
Каждому начинающему библиотека будет полезна при учебном процессе, для более детального понимания логики работы сетей.
Продолжающим, и заявленный основной сценарий использования — отладка архитектуры при её разработке.
🐮Совместимость: pytorch
Покладистых всем нейронов, в том числе в голове,
Ваш Дата-автор!
или привет, друзья! 🐓
Мне прилетела — делюсь дальше — comgra библиотека для анализа вычислительного графа нейронной сети.
Библиотека позволяет:
- анализировать тензоры нейроной сети и их поведение на разных шагах обучения.
- анализировать тензоры нейроной сети и их поведение на разных батчах и даже отдельных наблюдениях при обучении.
- отслеживать зависимость тензоров и градиентов друг от друга.
Если вы знакомы, то comgra некоторый нейросетевой аналог библиотеки treeinterpreter (она поддерживает все sklearn деревья и ансамбли).
Каждому начинающему библиотека будет полезна при учебном процессе, для более детального понимания логики работы сетей.
Продолжающим, и заявленный основной сценарий использования — отладка архитектуры при её разработке.
🐮Совместимость: pytorch
Покладистых всем нейронов, в том числе в голове,
Ваш Дата-автор!
🔥4✍2
Оценка Каплан-Мейера, анализ выживаемости….
и загулявший дата-автор.
Привет, друзья! 🐥
Работая работу на днях столкнулась с цензурированными данными и задачей, на них поставленной, которая при другом сборе данных могла бы быть переформирована в задачу анализа выживаемости.
Для меня эти определения были новыми, но я нашла их полезными. Делюсь.
Что такое цензурированные данные?
Пусть поставлена задача наблюдать за объектами во времени. Пусть все объекты имеют какое-то свойство, которое может либо быть на отрезке времени, либо пропасть. Объект называется
- цензурированным справа, если для него известен момент появления наблюдаемого свойства и не известен исход.
- цензурированным слева, если для него не известен момент появления, но известен исход.
- цензурированным с обеих сторон, если для него не известны и момент появления и исход.
Да, тут цензурирование к изображениям они отношения не имеют (кто поймет шутку, тот поймет).
Пример:
Пусть мы наблюдаем за 11ю пациентами с циррозом печени в течение 3 месяцев. И на 2м месяце нам добавились еще 5 из больницы в деревне и для них момент начала цирроза не известен.
Рассмотрим первые 11 человек. Пусть для 7 из них известен момент появления цирроза и они выжили к концу наблюдения. Они цензурированы справа.
Пусть для 3х известен момент начала и они умерли в течение трех месяцев. Они не цензурированы.
И наверное логически вы уже догадались, что наша пятерка из другой больницы цензурирована….слева!
Моделируя задачу на этих данных может быть построена функция выживаемости.
Что за функция выживаемости?
Пусть случайная величина T соответствует продолжительности жизни в выборке из n наблюдений. Вероятность, что T (количество прожитых лет) будет меньше чем x определяет функцию распределения такой величины (пусть F(x)).
Дополнительная функция s(x) = 1 - F(x) называется функцией выживаемости и показывает вероятность прожить больше, чем x лет.
Эта красотка встречается в актуарных расчетах и в медицинских задачах, но может быть применена не только к оцениваю продолжительности жизни. Взмахпалочкой — и функция выживаемости становится функцией, отражающей срок работы устройства.
Как оценить вероятность пережить момент времени, если данные цензурированы?
Для этого может быть применена Оценка Каплан Мейера.
Для этого отрезок времени разбивается на интервалы. Для каждого интервала j считается частное отношения разности числа живых и выбывших в этом интервале к общему количеству наблюдений интервала. Если без букв, то эта величина есть:
П(Rj-dj)/Rj, где Rj — число объектов, доживших до времени j, dj число объектов, не переживших момент времени j, а П —страшненький какой есть знак произведения.
Подробнее + туториал на Python здесь.
И немного послесловия👇🏻
и загулявший дата-автор.
Привет, друзья! 🐥
Работая работу на днях столкнулась с цензурированными данными и задачей, на них поставленной, которая при другом сборе данных могла бы быть переформирована в задачу анализа выживаемости.
Для меня эти определения были новыми, но я нашла их полезными. Делюсь.
Что такое цензурированные данные?
Пусть поставлена задача наблюдать за объектами во времени. Пусть все объекты имеют какое-то свойство, которое может либо быть на отрезке времени, либо пропасть. Объект называется
- цензурированным справа, если для него известен момент появления наблюдаемого свойства и не известен исход.
- цензурированным слева, если для него не известен момент появления, но известен исход.
- цензурированным с обеих сторон, если для него не известны и момент появления и исход.
Да, тут цензурирование к изображениям они отношения не имеют (кто поймет шутку, тот поймет).
Пример:
Пусть мы наблюдаем за 11ю пациентами с циррозом печени в течение 3 месяцев. И на 2м месяце нам добавились еще 5 из больницы в деревне и для них момент начала цирроза не известен.
Рассмотрим первые 11 человек. Пусть для 7 из них известен момент появления цирроза и они выжили к концу наблюдения. Они цензурированы справа.
Пусть для 3х известен момент начала и они умерли в течение трех месяцев. Они не цензурированы.
И наверное логически вы уже догадались, что наша пятерка из другой больницы цензурирована….слева!
Моделируя задачу на этих данных может быть построена функция выживаемости.
Что за функция выживаемости?
Пусть случайная величина T соответствует продолжительности жизни в выборке из n наблюдений. Вероятность, что T (количество прожитых лет) будет меньше чем x определяет функцию распределения такой величины (пусть F(x)).
Дополнительная функция s(x) = 1 - F(x) называется функцией выживаемости и показывает вероятность прожить больше, чем x лет.
Эта красотка встречается в актуарных расчетах и в медицинских задачах, но может быть применена не только к оцениваю продолжительности жизни. Взмах
Как оценить вероятность пережить момент времени, если данные цензурированы?
Для этого может быть применена Оценка Каплан Мейера.
Для этого отрезок времени разбивается на интервалы. Для каждого интервала j считается частное отношения разности числа живых и выбывших в этом интервале к общему количеству наблюдений интервала. Если без букв, то эта величина есть:
П(Rj-dj)/Rj, где Rj — число объектов, доживших до времени j, dj число объектов, не переживших момент времени j, а П —
Подробнее + туториал на Python здесь.
И немного послесловия👇🏻
👍5🔥2
У меня большой кризис в ведении канала, и большой буст относительно работы, которую я делаю ежедневно с течением времени.
С одной стороны, я приобретаю тележку опыта, потому что веду в single проект по гранту, беру подработки по анализу данных и разминаю ручки и мозги на новый год участия в конференциях.
С другой — стопорюсь и "ссыкую", потому что переживаю, что вот этот вот опыт, выводы и какие-то новые штуки, открытые мною, совсем никому не сдались.
Так вот, да, мне как никогда поможет и помогает фидбек от вас — то, что вы как минимум никуда не уходите и ставите все эти чудные реакции 🫶🏻
Я стараюсь, но попутно борюсь с психологическим синдромом самозванца.
Ещё не в нокауте,
Ваш дата-автор!
С одной стороны, я приобретаю тележку опыта, потому что веду в single проект по гранту, беру подработки по анализу данных и разминаю ручки и мозги на новый год участия в конференциях.
С другой — стопорюсь и "ссыкую", потому что переживаю, что вот этот вот опыт, выводы и какие-то новые штуки, открытые мною, совсем никому не сдались.
Так вот, да, мне как никогда поможет и помогает фидбек от вас — то, что вы как минимум никуда не уходите и ставите все эти чудные реакции 🫶🏻
Я стараюсь, но попутно борюсь с психологическим синдромом самозванца.
Ещё не в нокауте,
Ваш дата-автор!
❤20😍3👍2🤮1
Потому что я снова пишу статью, и потому как был услышан запрос от Тимура — одного из читателей канала..
Привет, друзья! 🐥
Каждый раз, когда сажусь писать статью передо мной чистый лист. В последний раз (вчера), я написала на нём «НЕТ ПЛАНА» и ушла пить кофе.
Что писать, даже если это конференция из разряда [надо], что я делаю в такие моменты — делюсь опытом и материалами в посте!
И так, как писать статью, если…
🐷1. Есть тема, нет работы?
Значит вы выполняете обзор — ваш первый шаг. Вам можно попробовать:
— сформулировать свою задачу/тему/проблему так, чтобы ее можно было описать фразой до 5 слов и посмотреть, что в области делают в таких или схожих задачах;
— в качестве точки 0 ищем обзорную статью на свою задачу/фразу/область, чтобы узнать, что сделано из последнего и познакомиться с самыми свежими проблемами и экспериментами;
— если вы готовы и это возможно — проанализировать то, что уже было попробовано до вас. Постараться понять, почему один метод сработал хорошо, а другой хуже? Что я могу попробовать сам(а) и в ближайшее время? А какие идеи возникают у меня? Если идеи есть — записывайте до новой итерации поиска и будущей работы. Если идей нет — просто анализируйте! ;
— Записанные идеи формулируем также короткой фразой и снова идем искать! Вы можете найти либо точную реализацию (это нормально), либо сколь угодно схожую и подвернуть вдохновение для генерации идеи новой или для уточнения старой.
🐮2. Если темы нет:
— думаем, чем нравится заниматься — от общего к частному. Без этого никуда. С будущей научной работой вы будете спать и есть, так что момент «нравится» тут — критически важен.
Ход вашей мысли может быть примерно таков: «мне нравится CV» -> «CV в медицине» -> «а МРТ задачи особенно чудесны» и бинго! Далее ищем научного руководителя со схожей областью интересов и скорее всего идем в первый пункт поста.
🐓3. Если это из разряда надо:
Отдельный пункт. Такое бывает, увы нередко. Когда проходят внутренние конференции университета или кафедры и научный руководитель говорит про какое-то надо принять участие…внутри при таком может возникнуть особенно истерический бунт, (как у меня в первую конференцию) 😄
Что писать и готовить в таких случаях:
— Ревью на работу, которую вы сделали ранее — постарайтесь проанализировать свою прошлую статью, прогнать в голове свежую литературу, и подумать:
• Что я сделал(а) и что можно сделать лучше?
• Что делают в области в схожих задачах?
На основе этого можно родить даже хороший текст, который хотя и будет полу или совсем обзором, но будет цениться как источник информации.
— Обзорник — здесь снова идем в пункт 1.
Вот такие личные наблюдения. Из не личных (🤓), прикрепляю статью про то как писать статьи и на какие технические моменты лучше всего обращать внимание.
Дайте знать, если пост был вам полезен! Лучше всего огонечком!)
В комментариях всегда рада отвечать на вопросы и просто поболтать =)
Ушла агрессивно стучать по клавишам и парсить данные,
Ваш Дата-автор! 🐣
Привет, друзья! 🐥
Каждый раз, когда сажусь писать статью передо мной чистый лист. В последний раз (вчера), я написала на нём «НЕТ ПЛАНА» и ушла пить кофе.
Что писать, даже если это конференция из разряда [надо], что я делаю в такие моменты — делюсь опытом и материалами в посте!
И так, как писать статью, если…
🐷1. Есть тема, нет работы?
Значит вы выполняете обзор — ваш первый шаг. Вам можно попробовать:
— сформулировать свою задачу/тему/проблему так, чтобы ее можно было описать фразой до 5 слов и посмотреть, что в области делают в таких или схожих задачах;
— в качестве точки 0 ищем обзорную статью на свою задачу/фразу/область, чтобы узнать, что сделано из последнего и познакомиться с самыми свежими проблемами и экспериментами;
— если вы готовы и это возможно — проанализировать то, что уже было попробовано до вас. Постараться понять, почему один метод сработал хорошо, а другой хуже? Что я могу попробовать сам(а) и в ближайшее время? А какие идеи возникают у меня? Если идеи есть — записывайте до новой итерации поиска и будущей работы. Если идей нет — просто анализируйте! ;
— Записанные идеи формулируем также короткой фразой и снова идем искать! Вы можете найти либо точную реализацию (это нормально), либо сколь угодно схожую и подвернуть вдохновение для генерации идеи новой или для уточнения старой.
🐮2. Если темы нет:
— думаем, чем нравится заниматься — от общего к частному. Без этого никуда. С будущей научной работой вы будете спать и есть, так что момент «нравится» тут — критически важен.
Ход вашей мысли может быть примерно таков: «мне нравится CV» -> «CV в медицине» -> «а МРТ задачи особенно чудесны» и бинго! Далее ищем научного руководителя со схожей областью интересов и скорее всего идем в первый пункт поста.
🐓3. Если это из разряда надо:
Отдельный пункт. Такое бывает, увы нередко. Когда проходят внутренние конференции университета или кафедры и научный руководитель говорит про какое-то надо принять участие…внутри при таком может возникнуть особенно истерический бунт, (как у меня в первую конференцию) 😄
Что писать и готовить в таких случаях:
— Ревью на работу, которую вы сделали ранее — постарайтесь проанализировать свою прошлую статью, прогнать в голове свежую литературу, и подумать:
• Что я сделал(а) и что можно сделать лучше?
• Что делают в области в схожих задачах?
На основе этого можно родить даже хороший текст, который хотя и будет полу или совсем обзором, но будет цениться как источник информации.
— Обзорник — здесь снова идем в пункт 1.
Вот такие личные наблюдения. Из не личных (🤓), прикрепляю статью про то как писать статьи и на какие технические моменты лучше всего обращать внимание.
Дайте знать, если пост был вам полезен! Лучше всего огонечком!)
В комментариях всегда рада отвечать на вопросы и просто поболтать =)
Ушла агрессивно стучать по клавишам и парсить данные,
Ваш Дата-автор! 🐣
🔥8❤🔥6🤓2
Сёрфинг в интернете, которого вы заслужили: подборка красивых мест, где можно найти статьи. 🏖
Классика жанра:
- Google Академия — статьи по практически любым ключевым словам. На практике пользуюсь ею не чаще обычного гугл поиска, но, как ресурс, Академия достойна быть в списке.
- arxiv.org — от истоков — просто мой любимый ресурс на рандомно почитать статьи. Из перечисленных сайтов — наиболее продвинутая реализация продвинутого поиска. Кстати, очень хорошо размечена выдача для парсинга.
👑 С красивой визуализацией:
- pubmed — вопреки тому, что сайт не на дата-тематику, если интересуетесь делами каких-то методов AI в медицине — советую. Ценность даже больше не в том, чтобы находить статьи, а в том, чтобы прослеживать динамику популярности ключевых слов на боковой панели при расширенном поиске.
- dimensions.ai — товарищ, который по продвинутости и удобоваримости поиска спокойно отодвигает arxiv. Есть даже поиск по авторам! Сбоку также можно красиво и полезно отследить популярность запроса. Использую не так давно, но по функциональности и дизайну — о-гонь!)
- connectedpapers — подкинуто в комментариях! Если бы не совместный вклад, то мы бы и не увидели, где можно смотреть как связаны работы между собой.
Вишенка среди вишенок: 🤌🏻
- paperswithcode — воспроизводимость экспериментов иногда нервно плачет в углу. Однако не с этим инструментом. Просто советую, потому что здесь мой креатив закончился.
Просто существуют:
- sciencedirect и frontiersin — вдруг вам понадобятся больше, чем мне.
Как предпосылку к посту могу сказать только одно: "работаю")
Работаю и лопачу материал со скоростью, которая варьируется от "ленивец из мультика" до "кот, который испортил ботинок".
На связи,
Пекущий грантовый проект,
Ваш Дата автор!
Классика жанра:
- Google Академия — статьи по практически любым ключевым словам. На практике пользуюсь ею не чаще обычного гугл поиска, но, как ресурс, Академия достойна быть в списке.
- arxiv.org — от истоков — просто мой любимый ресурс на рандомно почитать статьи. Из перечисленных сайтов — наиболее продвинутая реализация продвинутого поиска. Кстати, очень хорошо размечена выдача для парсинга.
👑 С красивой визуализацией:
- pubmed — вопреки тому, что сайт не на дата-тематику, если интересуетесь делами каких-то методов AI в медицине — советую. Ценность даже больше не в том, чтобы находить статьи, а в том, чтобы прослеживать динамику популярности ключевых слов на боковой панели при расширенном поиске.
- dimensions.ai — товарищ, который по продвинутости и удобоваримости поиска спокойно отодвигает arxiv. Есть даже поиск по авторам! Сбоку также можно красиво и полезно отследить популярность запроса. Использую не так давно, но по функциональности и дизайну — о-гонь!)
- connectedpapers — подкинуто в комментариях! Если бы не совместный вклад, то мы бы и не увидели, где можно смотреть как связаны работы между собой.
Вишенка среди вишенок: 🤌🏻
- paperswithcode — воспроизводимость экспериментов иногда нервно плачет в углу. Однако не с этим инструментом. Просто советую, потому что здесь мой креатив закончился.
Просто существуют:
- sciencedirect и frontiersin — вдруг вам понадобятся больше, чем мне.
Как предпосылку к посту могу сказать только одно: "работаю")
Работаю и лопачу материал со скоростью, которая варьируется от "ленивец из мультика" до "кот, который испортил ботинок".
На связи,
Пекущий грантовый проект,
Ваш Дата автор!
Google
Google Scholar
Google Scholar provides a simple way to broadly search for scholarly literature. Search across a wide variety of disciplines and sources: articles, theses, books, abstracts and court opinions.
🔥10❤3
Доброго утра, друзья!
Для всех интересующихся — нашла новые статьи со свежего семинара Proceedings of The First International Workshop on eXplainable AI for the Arts (XAIxArts) [Первый международный семинар по объяснимому ИИ в искусстве] 🎨
Если наберем 30 огонечков — залезу, изучу, сделаю обзор! 🤓
А пока продолжаю тонну hard-work из серии "дедлайн вчера, а я уже в сегодня".
Желаю вам чудесных выходных!
Ваш дата-автор!
Для всех интересующихся — нашла новые статьи со свежего семинара Proceedings of The First International Workshop on eXplainable AI for the Arts (XAIxArts) [Первый международный семинар по объяснимому ИИ в искусстве] 🎨
Если наберем 30 огонечков — залезу, изучу, сделаю обзор! 🤓
А пока продолжаю тонну hard-work из серии "дедлайн вчера, а я уже в сегодня".
Желаю вам чудесных выходных!
Ваш дата-автор!
🔥16😢1
Доброго утра, друзья! 🐣
Провожу семантический анализ области Explainable AI и просто не могу не оставить это здесь, пусть это и плохо читаемо.
Видите, как интересно группируются в кластер эти слова, друзья?
Особенное внимание хочу обратить на слово dialogue, потому как использование диалоговых систем (LLM) один из трендов в XAI сейчас! =)
Если наберем (давайте 20!) 🔥, мне важна активность и жизнь здесь, то напишу про этот тренд :)
Чудесного дня,
Ваш дата-автор!
Провожу семантический анализ области Explainable AI и просто не могу не оставить это здесь, пусть это и плохо читаемо.
Видите, как интересно группируются в кластер эти слова, друзья?
Особенное внимание хочу обратить на слово dialogue, потому как использование диалоговых систем (LLM) один из трендов в XAI сейчас! =)
Если наберем (давайте 20!) 🔥, мне важна активность и жизнь здесь, то напишу про этот тренд :)
Чудесного дня,
Ваш дата-автор!
🔥23