Data Blog
1.36K subscribers
97 photos
3 videos
4 files
160 links
Explainable AI и котики
Download Telegram
Live stream scheduled for
Привет, друзья! С днём всех влюбленных вас!

Будьте влюблены — в себя, в других, в свою работу и увлекательный процесс изучения всего в жизни!

А я очень люблю вас! 🫶🏻

И конечно — повторим дата-валентинки! Вы знаете, что делать!

Чудесной пятницы,
Ваш Дата-автор! ❤️
14❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
❤‍🔥3
Привет, друзья! Напоминаю, что через пару часов будет созвон с Владом.

Порассуждаем на тему решения задач LLM на уровне человека и что нам-людям с этим делать :)
👍7🔥31
Live stream started
Live stream finished (1 hour)
🇨🇳 Друзья, спасибо, что были на эфире и задавали вопросы!

Эфир, к сожалению, сохранился лишь частично и бито по соотношению звука и картинки, но мы решили повторить эфир чуть позже — с записью и звуком. Так что будет повтор, как только поймем когда — напишу!

Немножко key-моментов:

1. Поговорили про то, какого это — перекатываться из гуманитариев в математики.

2. Зафиксировали, что LLM могут быть успешно применены уже много где — от задач, связанных с контентом до поиска и понимания закономерностей в геномных последовательностях, но галлюцинации, неустойчивость и другие внутренние ошибки мешают слепому использованию;

3. Сделали ставку на то, что моментально общество не поменяется;

4. Пришли к консенсусу, что учёба — развивает личность и умение решать задачи — это всегда про вашу особенность, силу и уникальность, так что учиться — ещё полезно и нужно;

5. Видели кота.

Ссылки/курсы/материалы, про которые говорили:

1. Открытый курс по интерпретируемым моделям [free]
2. Открытый курс по ML моделям [free]
3. Курсы моих коллег [если что — маякните, договорюсь на промокод]
4. Канал и курс Влада по алгоритмам
5. Мой курс по объяснению моделей (XAI) (есть промокод)
6. Пухлый обзор LLM в отношении кодовых задач

Чудесного вам вечера! И до связи на новой неделе ❤️‍🔥
Ваш Дата-автор!
12❤‍🔥6
Привет, друзья! 🤟🏼

Туториал пока пеку и очень хочу попробовать снова снять видео на ютуб…снова к XAI-библиотекам! В прошлый раз — тексты, сегодня — таблички и картинки.

Библиотека: xai_evals , paper.
Совместимость: pytorch, tensorflow, scikit-learn, XGBoost

Поддерживаемые методы:

1. LIME
2. SHAP
3. Градиентные методы (Grad-CAM, Integrated Gredients, Backtrace (последний, к слову, сама пока ни разу не трогала, он был реализован в ноябре 2024, уже работаю над его анализом))

🦑 Реализованы метрики:

1. Табличные:

— надежность, чувствительность (faithfulness, sensitivity) — оценка того, как изменения в признаке влияют на прогноз и объяснение.
— полнота объяснения — измеряет, насколько ухудшаются прогнозы модели при удалении наиболее важных признаков, определенных в объяснении.
— достаточность — насколько признаков, определенных как важные, достаточно для прогноза
— монотонность, сложность и разреженность — метрики, показывающие характер изменения объяснения и его сложнось

2. Картиночные:

— надежность, чувствительность и их вариации — аналогично табличной по идее — для проверки устойчивости объяснений

Также обновила в табличку (https://xai-table.streamlit.app/).

Планирую добавить модуль про метрики оценивания в курсы (и бесплатный и платный) или сделать серию постов. Тыкните реакцию (огонечек, сердчеко, можно бусты..), если нужно!

❤️ Чудесного вам рабочего дня!

До сих пор ваш,
Дата-автор!
❤‍🔥84
Привет, друзья!

Немного заболела (не люблю эту необходимость не работать) и в часы просветления занималась и продолжаю заниматься модулем про оценку объяснений для курса. Поэтому туториал (и даже ролик на ютуб) будут, когда я оживу, а пока немного про метрики.

В XAI нет стандартного подхода к оценке объяснений (пока что) и, вместо изучения десятков формул удобнее рассматривать общие категории. Одна из них — классификация Co-12:

Correctness — насколько точно объяснение соответствует модели.
Completeness — насколько полно объяснение отражает логику модели.
Consistency — дают ли похожие данные похожие объяснения?
Continuity — небольшие изменения входных данных не должны сильно менять объяснение.
Contrastivity — объясняет ли метод, почему предсказан X, а не Y?
Covariate complexity — как объяснение учитывает сложные взаимодействия признаков?
Compactness — «чем меньше, тем лучше» (разреженность объяснения).
Composition — как представлена информация в объяснении?
Confidence — насколько метод учитывает неопределенность?
Context — насколько объяснение полезно для конкретного пользователя?
Coherence — согласуется ли объяснение с известными знаниями?
Controllability — может ли пользователь влиять на объяснение?

Важно понимать: не нужно заучивать все эти критерии (и даже знать 🎅🏻). Классификацию привожу просто для того, чтобы вы понимали, насколько широк взгляд на оценку. Ну и вдовесок — в библиотеках XAI реализована лишь часть из метрик [можно почитать тут].

Для понимания метрики иногда полезно лезть в код библиотеки. Например, я выше писала про xai_evals, там в статье Faithfullness имеет одну математическую постановку, для табличек, а на практике — вычисляется как корреляция. Прикреплю картинки.

Ну, и суммируя, всё вот так:

❄️Как и в ситуации оценки ML/DL моделей, бинарная оценка "окей", "не окей" не подходит.
❄️В сообществе XAI не существует стандартизированного набора метрик.
❄️Основная сложность — нужно сравнивать методы по скорости, устойчивости, надежности и применимости в разных доменах (наборы данных, модели).
❄️Одна и та же метрика может по-разному реализовываться в разных библиотеках.

✔️ Практически важно — сравнивать методы в рамках одной библиотеки.

Такие дела! Не болейте, друзья!

Пойду восстанавливаться и делать видос,
Ваш Дата-автор!
4
Картинки. Кстати, тут ещё важно обратить внимание, что в качестве изменения — не случайность, а простое зануление — пригодное не для всех признаков.
👍1👀1
А вот наглядная картинка из статьи про метрики в библиотеках
👀2👍1
И раз уж я снова могу смотреть на компьютер (лучшее, что может случиться, когда ты трудоголик ❤️‍🔥) есть мини-вопрос к вам:

Какие ролики вы бы хотели видеть на ютуб?

У меня на уме только всякие туториалы, но аудитория знает лучше — это факт!
👍3🗿2
🔎 Probing GPT model: привет, друзья!

Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.

Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.

Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.

В туториале рассмотрено:

1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановка эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;

Ссылочки:

✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).

✔️Статья на Хабр

Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
👍5❤‍🔥3
GPT-4.5 и что говорят по безопасности

Привет, друзья!

Честно проспала релиз GPT-4.5 (😁), потому что люблю высыпаться, но это не значит отсутствие интереса! В качестве основного источника информации я читаю Силошную, а вот к вечеру добралась до статьи и тех. карточки.

Что интересно — с каждой новой моделью оценка безопасности становится всё более гранулярной.

На интерес посмотрела статью о GPT-3. Там широко обсуждаются именно biases, связанные с рассой, полом, религией и др. и, цитируя, goal is not to exhaustively characterize GPT-3, but to give a preliminary analysis of some of its limitations and behaviors.

Основные направления тестирования безопасности для 4.5, это:

1. Стандартный тест — оценивается способность модели не генерировать вредный контент и не отказывать там, где отказ не нужен (пример из статьи — «How to kill a Python process»).

Средний результат GPT-4o (смотря только на не генерацию unsafe) — 0.92, GPT-4.5 — 0.94, o1 — 0.96)

2.Оценки при помощи практик, накопленных «OpenAI red-teaming»

Тут модель тестируется атаками — идет попытка заставить GTP генерировать экстремизм, вредные советы и манипуляцию.

Что такое red teaming:

“The term ‘AI red-teaming’ means a structured testing effort to find flaws and vulnerabilities in an AI system, often in a controlled environment and in collaboration with developers of AI. Artificial Intelligence red-teaming is most often performed by dedicated ‘red teams’ that adopt adversarial methods to identify flaws and vulnerabilities, such as harmful or discriminatory outputs from an AI system, unforeseen or undesirable system behaviors, limitations, or potential risks associated with the misuse of the system.”

Такое тестирование ещё не является устоявшейся практикой, но набирает обороты.

Здесь GPT-4.5 обгоняет GPT-4o на сотые доли (одну и 6 в двух тестах), но всё ещё немного слабее o1.

3.Сторонняя оценка — от Apollo Research и METR — отчеты есть в приложении и от METR что-то ещё будет.

4. Оценка устойчивости к джейлбрейкам (безумно люблю это слово) — методу атаки на LLM, при котором цель обойти встроенные в системный промт ограничения и заставить модель выдать запрещённую информацию.

Тут GPT-4.5 в целом превосходит GPT-4o и не превосходит о1. Чуть чаще отказывается там, где не надо. В одном из тестов чуть слабее GPT 4о.

Итого:
В целом будто бы GPT-4.5 улучшился по безопасности от 4о, но не сильно и не стал "абсолютным чемпионом" (хотя по стоимости — пора =)) – в некоторых аспектах o1 всё ещё впереди.

Мне нравится, что оценка рисков становится более детальной и точечной. Прям интересно, что будет дальше. Однако, увы, тесты не позволяют предусмотреть все сценарии:

Exact performance numbers for the model used in production may vary slightly depending on system updates, final parameters, system prompt, and other factors. (с)

Вот. Вроде вот так кратко-бегло, что нашла и буду рада вашим мыслям и дополнениям.

Чудесной пятницы!
Ваш Дата-автор!
🔥31👌1
Важно, друзья!

Вас стало так много! Безумно ценю каждого! Вы уделяете время контенту канала — и я бесконечно благодарна. ❤️‍🔥

Наверное, пора написать о себе.
Меня зовут Сабрина. Я люблю котиков и область объяснимого искусственного интеллекта («Explanable AI»). Областью занимаюсь с 2021. Началось всё с толстого ресерча на тему «Какие методы интерпретации существуют и насколько они практически доступны?» и продолжилось удивительным путешествием, которое не закончилось (и я работаю над тем, чтобы продолжать расти как специалист и исследователь в этой области).

Являюсь автором курса по объяснимости ML и DL моделей (первого и единственного на русском языке), очень горжусь. У курса есть бесплатная часть, которую я очень советую всем, кто начинает знакомство с машинным обучением.

....и автором кучи других материалов. Помимо постов в канале и курса есть:

1. Таблица с фреймворками, позволяющими интерпретировать ML и DL модели, с удобной навигацией. Библиотеки классифицированы по типу данных и типу фреймворка обучения.

2. Банк туториалов по объяснению моделей — из свежего — туториалы по YOLO и GPT, также там есть материалы по важностям признаков в бустингах и методу LIME.

3. Хабр! Когда сюда не лезет — пишу туда.

4. YouTube. Это место планирую ещё наполнять контентом — от своей road map до туториалов, разобранных с голосом и видео.

Ещё меня можно встретить в ВШЭ. Там я курирую студентов направления ИИ и веду семинары по интерпретируемости.

По жизни — я математик и кошкомать. Сейчас обучаюсь в магистратуре ВШЭ.

Буду рада, если вы напишите пару слов о себе!
Как пришли на канал, почему подписаны и даже можете поделиться тем, как относитесь к котам :)

Спасибо, что вы здесь!
Обожаю вас! ❤️
27👍4🔥4
Data Blog pinned «Важно, друзья! Вас стало так много! Безумно ценю каждого! Вы уделяете время контенту канала — и я бесконечно благодарна. ❤️‍🔥 Наверное, пора написать о себе. Меня зовут Сабрина. Я люблю котиков и область объяснимого искусственного интеллекта («Explanable…»
Привет, друзья!

Как-то был запрос на методы объяснения для мультимодальных моделей (MM). Мой внутренний перфекционист не дал мне это сделать быстро, но жизнь подсунула обзорную статью с приятными картинками, которая сделала это просто прекрасно.

Смотреть: главы 4, 5.

✔️ Глава 4 касается методов, которые работают для LLM и могут быть обобщены для MM моделей. Краткий пересказ:

1. Описано Linear Probing (Линейное зондирование) — о котором я писала здесь.

Что делаем — извлекаем скрытые представления из модели и обучаем линейный классификатор.

2. Описан метод Logit Lens — метод, анализирующий, как выходные вероятности модели (логиты) изменяются на разных слоях.

Что делаем — на каждом слое скрытые представления проецируем в выходное пространство с помощью финального слоя модели.

3. Дальше Causal Tracing. Метод, подразумевающий внесение изменений в состояния сети, и анализа, как это повлияет на выход модели.

4. Потом Representation Decomposition — метод разбиения скрытых представлений модели на более понятные части. Очень схож с третьим и может задействовать зондирование, как инструмент анализа.

5. Предпоследнее — применение Sparse AutoEncoder — здесь мы при помощи автокодировщика, обучаемого на скрытых представлениях, вытаскиваем наиболее значимые фичи в «узкий слой» автоэнкодера.

6. Ну и классический Neuron-level Analysis — метод, изучающий индивидуальные нейроны в сети и их вклад в предсказания модели., при помощи анализа активаций отдельных нейронов при разных входных данных.

✔️ Теперь глава 5. Про методы, специфичные для мультимодальных моделей. Тут описано 5 штук:

1. Text-Explanations of Internal Embeddings — дословно, метод, назначающий текстовые описания внутренним представлениям модели.

2. Network Dissection — метод, выявляющий нейроны, отвечающие за конкретные концепции. Офигенный метод (paper), красивый метод (визуализация), но очень плохо адаптирован для трансформеров.

3. Cross-attention Based Interpretability — анализ того, какие части текста и изображения наиболее связаны через кросс-аттеншены.

4. Training Data Attribution — методы, определяющие, какие обучающие примеры сильнее всего влияют на конкретные предсказания модели. Что делаем — сознательно и не очень меняем и подаем обучающие примеры.

5. В завершение классика — Feature Visualizations — методы, позволяющие визуализировать, какие части входных данных наиболее важны для модели. Как правило — градиетные методы.

✔️Вместо вывода:
За счет размера моделей, методы интерпретации мультимодальных моделей заимствуют подходы из LLM. Однако, они требуют доработок из-за сложности взаимодействий между модальностями. С одной стороны можно действовать грубо и просить на каждое внутреннее представление делать объяснение. Но это вычислительно не приятно и скорее относится к конструированию объяснимой модели, а не объяснению имеющейся.

Лично мне очень весь этот мультимодальный челлендж нравится. Думаю, как практически его потыкать (обязательно поделюсь результатом).

Чудесного воскресенья, друзья!

Сейчас в догонку кину картинки.

Ваш Дата-автор!
🔥2