Исследование, которое объединяет результаты научных статей и публикаций практикующих специалистов, с целью синтеза доказательств по конкретному вопросу (с использованием заранее определённого протокола)
Anonymous Quiz
47%
Мета-анализ
19%
Мета-обзор
15%
Систематический обзор
20%
Системный обзор
Два часа видеоуроков о доказательной медицине в курсе "Доказательная медицина и общество" от Европейского университета в Санкт-Петербурге.
Поможет узнать о:
- кризисе экспертизы в современном мире;
- как справляться с множественностью знаний о здоровье;
- современных стандартах "Надлежащих практик"
- альтернативных моделях клинических исследований;
- как врачи принимают решения
и многом другом.
Курс читают Екатерина Бороздина (социолог), Павел Васильев (историк медицины, права и гендера) и Ольга Звонарева (исследовательница науки, техники и медицины).
https://stepik.org/course/118349/promo
Поможет узнать о:
- кризисе экспертизы в современном мире;
- как справляться с множественностью знаний о здоровье;
- современных стандартах "Надлежащих практик"
- альтернативных моделях клинических исследований;
- как врачи принимают решения
и многом другом.
Курс читают Екатерина Бороздина (социолог), Павел Васильев (историк медицины, права и гендера) и Ольга Звонарева (исследовательница науки, техники и медицины).
https://stepik.org/course/118349/promo
Stepik: online education
Доказательная медицина и общество
Курс поможет понять, какой вклад социальные и гуманитарные науки могут внести в изучение и развитие доказательной медицины.
Forwarded from Счетная палата РФ
Минпромторг научится оценивать эффективность мер господдержки.
Как пишет КоммерсантЪ, ведомство объявило госзакупку по разработке практико-ориентированной модели использования инструментов доказательной политики. Это позволит сформировать практические рекомендации для повышения эффективности действующих мер поддержки российских промышленных предприятий по линии ведомства.
Применение доказательных подходов в госуправлении – перспективное направление. Счетная палата поддерживает такие инициативы. Напомним, что до 5 августа мы принимаем заявки от госслужащих на конкурс по докполитике: https://ach.gov.ru/page/contest-2022.
Узнать больше о том, что такое доказательный подход, как его применять на практике и какие эффекты он дает, можно на сайте СП РФ.
Как пишет КоммерсантЪ, ведомство объявило госзакупку по разработке практико-ориентированной модели использования инструментов доказательной политики. Это позволит сформировать практические рекомендации для повышения эффективности действующих мер поддержки российских промышленных предприятий по линии ведомства.
Применение доказательных подходов в госуправлении – перспективное направление. Счетная палата поддерживает такие инициативы. Напомним, что до 5 августа мы принимаем заявки от госслужащих на конкурс по докполитике: https://ach.gov.ru/page/contest-2022.
Узнать больше о том, что такое доказательный подход, как его применять на практике и какие эффекты он дает, можно на сайте СП РФ.
28 июля НИУ ВШЭ проводит научно-экспертный семинар серии «Доказательный подход в социальной политике: pro et contra».
Тема семинара: «Доказательная социальная политика: парадигмальное разнообразие, банки социальных программ с доказанной эффективностью и возможности применения в России».
Основной докладчик: кандидат экономических наук, заместитель директора Института социальной политики Оксана Вячеславовна Синявская
🗓 Мероприятие пройдет 28 июля, с 16 до 18 часов.
Принять участие можно в очном или заочном формате.
Для участия требуется предварительная регистрация (ссылка на форму регистрации)
По ссылке доступна аннотация к докладу спикера.
Мы уже зарегистрировались и примем участие.
Тема семинара: «Доказательная социальная политика: парадигмальное разнообразие, банки социальных программ с доказанной эффективностью и возможности применения в России».
Основной докладчик: кандидат экономических наук, заместитель директора Института социальной политики Оксана Вячеславовна Синявская
🗓 Мероприятие пройдет 28 июля, с 16 до 18 часов.
Принять участие можно в очном или заочном формате.
Для участия требуется предварительная регистрация (ссылка на форму регистрации)
По ссылке доступна аннотация к докладу спикера.
Мы уже зарегистрировались и примем участие.
Доказательная политика опирается на синтез доказательств.
Специальные исследования с целью синтеза различных доказательств называются систематическими обзорами.
Мета-анализ - это разновидность систематического обзора. Он представляет собой статистическое исследование, которое позволяет объединить результаты множества научных статей, докладов или выяснить причины различий результатов. Мета-анализ часто используется для анализа и обобщения результатов RCT, но не только.
При проведении мета-анализа используются специальные статистические процедуры, позволяющие учесть различия в размере выборок, различиях в подходах к методологии исследования и т.д. Пример - мета-регрессионный анализ.
В Python, R, Stata есть отдельные библиотеки (PythonMeta в Python, metafor, meta, metasents в R, meta-analysis в Stata)
Вот два примера мета-анализа.
1. Мета-анализ оценок отдачи от образования в России за 1990–2000-е гг. (Лукьянова А. Л., 2010)
2. Мета-анализ оценок гендерного разрыва в оплате труда в России
(Рощин С. Ю., Емелина Н. К., 2022)
Специальные исследования с целью синтеза различных доказательств называются систематическими обзорами.
Мета-анализ - это разновидность систематического обзора. Он представляет собой статистическое исследование, которое позволяет объединить результаты множества научных статей, докладов или выяснить причины различий результатов. Мета-анализ часто используется для анализа и обобщения результатов RCT, но не только.
При проведении мета-анализа используются специальные статистические процедуры, позволяющие учесть различия в размере выборок, различиях в подходах к методологии исследования и т.д. Пример - мета-регрессионный анализ.
В Python, R, Stata есть отдельные библиотеки (PythonMeta в Python, metafor, meta, metasents в R, meta-analysis в Stata)
Вот два примера мета-анализа.
1. Мета-анализ оценок отдачи от образования в России за 1990–2000-е гг. (Лукьянова А. Л., 2010)
2. Мета-анализ оценок гендерного разрыва в оплате труда в России
(Рощин С. Ю., Емелина Н. К., 2022)
Большинство исследований бедности и расходов населения опираются на опросы. Такие опросы требуют постоянного внимания респондентов в течение нескольких часов (например, при ответах на вопросы о расходах на различные группы товаров). Можно предположить, что в ходе длительных опросов респонденты устают, их внимание рассеивается. В результате снижается качество ответов на вопросы в более "поздних" частях опроса.
Как количественно оценить эффект усталости от опроса?
В новом препринте описана оценка на основе рандомизации порядка, в котором появляются различные модули вопросов. Рандомизация генерирует экзогенную вариацию во времени появления вопроса для респондента. Это позволило сравнить ответы на один и тот же вопрос, когда он появляется в ходе опроса раньше или позже, и количественно оценить расхождение в ответах.
Рандомизация была проведена в рамках опросов о получении пособий в сельских районах Либерии и Малави. Опросы длились в среднем около 2,5 часов. В результате рандомизации среднее время до появления конкретного вопроса изменилось примерно на 30 минут.
Исследователи оценивали эффект в зависимости от двух типов вопросов.
Открытые вопросы задаются без предложения набора вариантов ответов. Например, респондентов просили указать трансферты, которые они передавали. В этом случае каждый дополнительный час опроса вызывает уменьшение количества перечисленных элементов на 26-64%.
Закрытые вопросы предполагают предварительное кодирование списка элементов для ответов. Например, в разделе «Расходы на продукты питания» приводится список примерно из 35 продуктов и вопросы о каждом из них отдельно. В этом случае каждый дополнительный час опроса вызывает увеличение частоты ответа об отсутствии значений для этого элемента на 10-19%. Кроме того, дополнительный час времени опроса значительно снижает общую стоимость расходов на питание на и оказывает еще большее влияние (в процентном выражении) на более мелкие категории (например, трансферты).
Как количественно оценить эффект усталости от опроса?
В новом препринте описана оценка на основе рандомизации порядка, в котором появляются различные модули вопросов. Рандомизация генерирует экзогенную вариацию во времени появления вопроса для респондента. Это позволило сравнить ответы на один и тот же вопрос, когда он появляется в ходе опроса раньше или позже, и количественно оценить расхождение в ответах.
Рандомизация была проведена в рамках опросов о получении пособий в сельских районах Либерии и Малави. Опросы длились в среднем около 2,5 часов. В результате рандомизации среднее время до появления конкретного вопроса изменилось примерно на 30 минут.
Исследователи оценивали эффект в зависимости от двух типов вопросов.
Открытые вопросы задаются без предложения набора вариантов ответов. Например, респондентов просили указать трансферты, которые они передавали. В этом случае каждый дополнительный час опроса вызывает уменьшение количества перечисленных элементов на 26-64%.
Закрытые вопросы предполагают предварительное кодирование списка элементов для ответов. Например, в разделе «Расходы на продукты питания» приводится список примерно из 35 продуктов и вопросы о каждом из них отдельно. В этом случае каждый дополнительный час опроса вызывает увеличение частоты ответа об отсутствии значений для этого элемента на 10-19%. Кроме того, дополнительный час времени опроса значительно снижает общую стоимость расходов на питание на и оказывает еще большее влияние (в процентном выражении) на более мелкие категории (например, трансферты).
NBER
Exhaustive or Exhausting? Evidence on Respondent Fatigue in Long Surveys
Living standards measurement surveys require sustained attention for several hours. We quantify survey fatigue by randomizing the order of questions in 2-3 hour-long in-person surveys. An additional hour of survey time increases the probability that a respondent…
Мы подвели итоги второго конкурса практик и инициатив по доказательной политике.
В этот раз полностью перестроили процесс работы конкурсной комиссии, сделав его последовательным, еще более прозрачным и понятным.
В конкурсной комисии работали руководители департаментов, инспекций, ведущие эксперты Счетной палаты, а также эксперты из области оценки программ и политик и научных исследований в этой области, экспертную оценку заявок проводили аналитики данных и социологи Счетной палаты.
Получили более 80 заявок на участие от 64 команд государственных и муниципальных служащих.
Вот результаты.
✅Номинация «Анализ проблем»
1️⃣ место - не присуждалось.
2️⃣ место – Управление экономического развития Липецкой области за анализ проблемы дифференциации заработных плат работников образовательных учреждений.
3️⃣ место – Департамент экономического развития, инвестиций и торговли городского округа Самара за создание цифровых профилей зданий и сооружений для поддержки решений в градостроительной политике города.
Члены конкурсной комиссии отдельно отметили:
- Комитет по социальной политике Санкт-Петербурга за применение смешанной методологии социологического исследования для выявления потребности в создании профессиональной социотеки
✅Номинация «Прогнозирование и перспективная оценка»
1️⃣ место – Управление экономического развития Липецкой области за анализ потенциальных изменений положения граждан при монетизации льгот ЖКХ, позволивший обосновать решение о нецелесообразности реформы.
1️⃣ место (инициатива) – Министерство лесного хозяйства и охраны объектов животного мира Приморского края за инициативу использования пространственного анализа данных со спутников с целью прогнозирования границ территорий с высокими рисками возгорания
2️⃣ место – не присуждалось.
3️⃣ место – не присуждалось.
Члены конкурсной комиссии отдельно отметили:
- Департамент экономики Ямало-Ненецкого автономного округа за за инициативу оценки рынка труда в регионе при условии неблагоприятной динамики мировой конъюнктуры на углеводородное сырье.
✅Номинация «Оценка влияния»
1️⃣ место – Федеральная служба по труду и занятости (Роструд) за инициативу по проведению оценки влияния дополнительного профессионального образования на занятость и уровень заработной платы населения..
2️⃣ место – не присуждалось.
3️⃣ место – Министерство экономики Краснодарского края за инициативу по проведению оценки влияния региональных субсидий водоканалам на уровень потерь в теплосетях.
Члены конкурсной комиссии отдельно отметили:
- Банк России за оценку последствий макропруденциальных мер по ограничению рисков потребительского кредитования в России.
✅Номинация «Анализ данных для модернизации процессов»
1️⃣ место – Министерство цифрового развития Удмуртской Республики за применение широкого спектра методов анализа, позволившего комплексно улучшить процессы предоставления государственных услуг через МФЦ.
2️⃣ место – не присуждалось.
3️⃣ место – Федеральная служба по труду и занятости (Роструд) за инициативу применения риск-ориентированного подхода к выявлению и мониторингу недобросовестных работодателей.
Члены конкурсной комиссии отдельно отметили:
- Министерство финансов Российской Федерации за инициативу применения риск-ориентированного подхода при проведении внутреннего аудита с целью выявления неэффективности расходования бюджетных средств,
- Администрацию городского округа город Дзержинск Нижегородской области за инициативу по практическому моделированию бюджетных доходов, которая имеет потенциал для широкого масштабирования.
В этот раз полностью перестроили процесс работы конкурсной комиссии, сделав его последовательным, еще более прозрачным и понятным.
В конкурсной комисии работали руководители департаментов, инспекций, ведущие эксперты Счетной палаты, а также эксперты из области оценки программ и политик и научных исследований в этой области, экспертную оценку заявок проводили аналитики данных и социологи Счетной палаты.
Получили более 80 заявок на участие от 64 команд государственных и муниципальных служащих.
Вот результаты.
✅Номинация «Анализ проблем»
1️⃣ место - не присуждалось.
2️⃣ место – Управление экономического развития Липецкой области за анализ проблемы дифференциации заработных плат работников образовательных учреждений.
3️⃣ место – Департамент экономического развития, инвестиций и торговли городского округа Самара за создание цифровых профилей зданий и сооружений для поддержки решений в градостроительной политике города.
Члены конкурсной комиссии отдельно отметили:
- Комитет по социальной политике Санкт-Петербурга за применение смешанной методологии социологического исследования для выявления потребности в создании профессиональной социотеки
✅Номинация «Прогнозирование и перспективная оценка»
1️⃣ место – Управление экономического развития Липецкой области за анализ потенциальных изменений положения граждан при монетизации льгот ЖКХ, позволивший обосновать решение о нецелесообразности реформы.
1️⃣ место (инициатива) – Министерство лесного хозяйства и охраны объектов животного мира Приморского края за инициативу использования пространственного анализа данных со спутников с целью прогнозирования границ территорий с высокими рисками возгорания
2️⃣ место – не присуждалось.
3️⃣ место – не присуждалось.
Члены конкурсной комиссии отдельно отметили:
- Департамент экономики Ямало-Ненецкого автономного округа за за инициативу оценки рынка труда в регионе при условии неблагоприятной динамики мировой конъюнктуры на углеводородное сырье.
✅Номинация «Оценка влияния»
1️⃣ место – Федеральная служба по труду и занятости (Роструд) за инициативу по проведению оценки влияния дополнительного профессионального образования на занятость и уровень заработной платы населения..
2️⃣ место – не присуждалось.
3️⃣ место – Министерство экономики Краснодарского края за инициативу по проведению оценки влияния региональных субсидий водоканалам на уровень потерь в теплосетях.
Члены конкурсной комиссии отдельно отметили:
- Банк России за оценку последствий макропруденциальных мер по ограничению рисков потребительского кредитования в России.
✅Номинация «Анализ данных для модернизации процессов»
1️⃣ место – Министерство цифрового развития Удмуртской Республики за применение широкого спектра методов анализа, позволившего комплексно улучшить процессы предоставления государственных услуг через МФЦ.
2️⃣ место – не присуждалось.
3️⃣ место – Федеральная служба по труду и занятости (Роструд) за инициативу применения риск-ориентированного подхода к выявлению и мониторингу недобросовестных работодателей.
Члены конкурсной комиссии отдельно отметили:
- Министерство финансов Российской Федерации за инициативу применения риск-ориентированного подхода при проведении внутреннего аудита с целью выявления неэффективности расходования бюджетных средств,
- Администрацию городского округа город Дзержинск Нижегородской области за инициативу по практическому моделированию бюджетных доходов, которая имеет потенциал для широкого масштабирования.
Forwarded from Счетная палата РФ
В рамках ХХ Форума стратегов на кейс-сессии «Доказательная политика: практики и вызовы. Итоги второго конкурса Счетной палаты» состоялось награждение победителей конкурса СП по докполитике.
Отбор победителей проходил по четырем номинациям: анализ проблем, прогнозирование и перспективная оценка, оценка влияния и анализ данных для модернизации процессов.
Подробно о победителях конкурса и их работах на сайте СПРФ.
Представляя итоги конкурса, Алексей Кудрин рассказал о перспективах применения доказательного подхода в разных сферах деятельности:
💬Успех любой стратегии заключается в качественном планировании, понимании приоритетов, механизмов достижения этих приоритетов. Именно доказательная политика способствует решению этих задач и может совершить революцию в системе государственного управления.
💬Сегодня доказательные подходы активно развиваются во всем мире. Как правило, речь о трех направлениях: развитии законодательных требований, развитии компетенций, создании репозиториев доказательств.
💬Программно-целевое управление, заложенное в основу института госпрограмм, предполагает создание такой среды, которая генерировала бы данные для своевременного принятия решений. Эти данные должны отвечать на вопрос, какие меры в госпрограммах работают без результата для граждан, а где этот результат нужно поддержать допфинансированием.
💬«Революция данных» подтолкнула в том числе и меры доказательной политики к развитию. Сейчас мы должны упорядочить наши цели в использовании данных, перестроить отчетность министерств и ведомств, предприятий и учреждений для того, чтобы использовать достоверные и актуальные данные.
Запись мероприятия здесь
Отбор победителей проходил по четырем номинациям: анализ проблем, прогнозирование и перспективная оценка, оценка влияния и анализ данных для модернизации процессов.
Подробно о победителях конкурса и их работах на сайте СПРФ.
Представляя итоги конкурса, Алексей Кудрин рассказал о перспективах применения доказательного подхода в разных сферах деятельности:
💬Успех любой стратегии заключается в качественном планировании, понимании приоритетов, механизмов достижения этих приоритетов. Именно доказательная политика способствует решению этих задач и может совершить революцию в системе государственного управления.
💬Сегодня доказательные подходы активно развиваются во всем мире. Как правило, речь о трех направлениях: развитии законодательных требований, развитии компетенций, создании репозиториев доказательств.
💬Программно-целевое управление, заложенное в основу института госпрограмм, предполагает создание такой среды, которая генерировала бы данные для своевременного принятия решений. Эти данные должны отвечать на вопрос, какие меры в госпрограммах работают без результата для граждан, а где этот результат нужно поддержать допфинансированием.
💬«Революция данных» подтолкнула в том числе и меры доказательной политики к развитию. Сейчас мы должны упорядочить наши цели в использовании данных, перестроить отчетность министерств и ведомств, предприятий и учреждений для того, чтобы использовать достоверные и актуальные данные.
Запись мероприятия здесь
Forwarded from Reliable ML
ML System Design Course 2022 - лекции
Список и краткое содержание опубликованных лекций открытого курса ODS 2022
🥳Хопа! Пока мы с вами обсуждали АБ-тесты, в ML System Design Course 2022 подъехали новые крутые лекции.
Вот список всех лекций курса на текущий момент:
1. Практическое применение машинного обучения. Делать ML-модели легко, трудно делать полезные ML-модели. В первой лекции дается определение “дизайна систем машинного обучения”, разбираются предположения ML-систем, их традиционные области применения и отличия академического и промышленного машинного обучения.
2. Основы проектирования ML-систем. Дизайн - это работа с ограничениями, и во второй лекции мы разбираем источники этих ограничений, постановку задачи, метрики и бейзлайны.
3. Обучающие данные. Машинное обучение основано на данных, и в этой лекции мы обсудим проблемы разметки и подготовки данных, проблему дисбаланса классов и сэмплирование.
4. Подготовка и отбор признаков. Задача подготовки данных - упростить обучение модели. Обсуждаем аугментацию для разных типов данных, использование синтетических данных, работу с выбросами и пропущенными значениями, масштабирование, конструирование и отбор признаков. Отдельно мы разговариваем о даталиках - данных, доступных при обучении, но недоступных при использовании модели.
5. Выбор модели, разработка и обучение модели. Сердце ML-системы - модель (или несколько моделей) машинного обучения. Нужно начинать с простого, проверять предположения модели и аккуратно сравнивать разные подходы. Обсуждаем ансамбли, распределенное обучение, гадаем по графикам лосс-функции и калибруем вероятности.
6. Оценка качества модели. Важно не только качество ML-модели, но и качество системы целиком. Обсуждаем качество интерфейса, данных и самой модели. Строим простые бейзлайны. Проверяем качество модели на пьяницах-спортсменах, тестируем модель на устойчивость и вспоминаем парадокс Симпсона. Единственная лекция, в которой есть хоть какие-то примеры кода.
7. Развертывание систем. Архитектура развертывания модели определяет, где будет работать модель, когда будет производится инференс, как модель получит запрос пользователя и как пользователь получит ответ модели. Предсказания можно делать на лету, по запросу, а можно сделать заранее и отдавать готовые по мере необходимости. Что-то лучше считать все в облаке, а что-то прямо на устройстве клиента. Можно ускорить инференс нейронной сети с помощью ONNX или ENOT.AI, раскидать нейронку на несколько GPU с помощью Accelerate и использовать оптимизированные CUDA-ядра DeepSpeed. Главное - не запутаться.
8. Диагностика ошибок и отказов ML-систем. Диагностика проблем с данными. Мониторинг. Обсуждаем естественную и отложенную разметку, прокси-метрики и петлю обратной связи. Разбираем примеры, где деньги - плохая метрика, википедию жарят, а метки зависят от временного горизонта. Рассматриваем специфичные для ML-систем отказы и ошибки, выбросы, крайние случаи, сравнение распределений, мониторинг, усталость от алертов и устройство SLA.
9. Мониторинг и обучение на потоковых данных. Шаблоны обмена данными, асинхронные взаимодействия, издатели, подписчики, Kafra, RabbitMQ, Pub/Sub - вот краткий список того, о чем невозможно рассказать в одной лекции. Но мы попробовали.
10. Жизненный цикл модели. Есть разные модели жизненного цикла ML-систем, но все они сходятся в одном - модель, скорее всего, придется неоднократно переделывать. Новые версии модели нужно будет сравнить со старыми, и решить - какие лучше. Разберем тестирование моделей на живых пользователях, data-centric подход и непрерывное переобучение моделей.
На странице курса также доступны презентации и списки рекомендованных к прочтению материалов для каждой лекции.
Всего планируется 14 лекций + 2 лекции в качестве новогоднего подарка от @Reliable ML🎄.
Не переключайтесь!
#tech #ml_system_design
Список и краткое содержание опубликованных лекций открытого курса ODS 2022
🥳Хопа! Пока мы с вами обсуждали АБ-тесты, в ML System Design Course 2022 подъехали новые крутые лекции.
Вот список всех лекций курса на текущий момент:
1. Практическое применение машинного обучения. Делать ML-модели легко, трудно делать полезные ML-модели. В первой лекции дается определение “дизайна систем машинного обучения”, разбираются предположения ML-систем, их традиционные области применения и отличия академического и промышленного машинного обучения.
2. Основы проектирования ML-систем. Дизайн - это работа с ограничениями, и во второй лекции мы разбираем источники этих ограничений, постановку задачи, метрики и бейзлайны.
3. Обучающие данные. Машинное обучение основано на данных, и в этой лекции мы обсудим проблемы разметки и подготовки данных, проблему дисбаланса классов и сэмплирование.
4. Подготовка и отбор признаков. Задача подготовки данных - упростить обучение модели. Обсуждаем аугментацию для разных типов данных, использование синтетических данных, работу с выбросами и пропущенными значениями, масштабирование, конструирование и отбор признаков. Отдельно мы разговариваем о даталиках - данных, доступных при обучении, но недоступных при использовании модели.
5. Выбор модели, разработка и обучение модели. Сердце ML-системы - модель (или несколько моделей) машинного обучения. Нужно начинать с простого, проверять предположения модели и аккуратно сравнивать разные подходы. Обсуждаем ансамбли, распределенное обучение, гадаем по графикам лосс-функции и калибруем вероятности.
6. Оценка качества модели. Важно не только качество ML-модели, но и качество системы целиком. Обсуждаем качество интерфейса, данных и самой модели. Строим простые бейзлайны. Проверяем качество модели на пьяницах-спортсменах, тестируем модель на устойчивость и вспоминаем парадокс Симпсона. Единственная лекция, в которой есть хоть какие-то примеры кода.
7. Развертывание систем. Архитектура развертывания модели определяет, где будет работать модель, когда будет производится инференс, как модель получит запрос пользователя и как пользователь получит ответ модели. Предсказания можно делать на лету, по запросу, а можно сделать заранее и отдавать готовые по мере необходимости. Что-то лучше считать все в облаке, а что-то прямо на устройстве клиента. Можно ускорить инференс нейронной сети с помощью ONNX или ENOT.AI, раскидать нейронку на несколько GPU с помощью Accelerate и использовать оптимизированные CUDA-ядра DeepSpeed. Главное - не запутаться.
8. Диагностика ошибок и отказов ML-систем. Диагностика проблем с данными. Мониторинг. Обсуждаем естественную и отложенную разметку, прокси-метрики и петлю обратной связи. Разбираем примеры, где деньги - плохая метрика, википедию жарят, а метки зависят от временного горизонта. Рассматриваем специфичные для ML-систем отказы и ошибки, выбросы, крайние случаи, сравнение распределений, мониторинг, усталость от алертов и устройство SLA.
9. Мониторинг и обучение на потоковых данных. Шаблоны обмена данными, асинхронные взаимодействия, издатели, подписчики, Kafra, RabbitMQ, Pub/Sub - вот краткий список того, о чем невозможно рассказать в одной лекции. Но мы попробовали.
10. Жизненный цикл модели. Есть разные модели жизненного цикла ML-систем, но все они сходятся в одном - модель, скорее всего, придется неоднократно переделывать. Новые версии модели нужно будет сравнить со старыми, и решить - какие лучше. Разберем тестирование моделей на живых пользователях, data-centric подход и непрерывное переобучение моделей.
На странице курса также доступны презентации и списки рекомендованных к прочтению материалов для каждой лекции.
Всего планируется 14 лекций + 2 лекции в качестве новогоднего подарка от @Reliable ML🎄.
Не переключайтесь!
#tech #ml_system_design
Окей, доказательная политика.
Задача приоритизации (выбора одной из нескольких альтернатив) - самая часто встречающаяся задача в госуправлении. Речь может идти о выборе одного из нескольких инвестиционных проектов, программ с наибольшим риском для достижения цели,оптимальных технологий здоровья или нуждающихся в долговременном уходе.
При этом критерий выбора обычно не единственный. Как правило, необходимо рассматривать целый ряд критериев - например, критериев доступности, влияния
на окружающую среду, здоровья населения и т.д. Задача осложняется тем, что критерии часто имеют сложную структуру и могут конфликтовать между собой.
В таких условиях могут помочь мультикритериальные методы - один из классов алгоритмов теории принятия решений. Важно, что мультикритериальные методы могут быть инструментом, который позволяет сделать более
прозрачным процесс выбора критериев и оценки их важности - этот процесс предполагает вовлечение и диалог между заинтересованными сторонами.
Об этом и о двух полезных алгоритмах MCDA (с примерами и тетрадками Python) экспертная записка Счетной палаты.
Задача приоритизации (выбора одной из нескольких альтернатив) - самая часто встречающаяся задача в госуправлении. Речь может идти о выборе одного из нескольких инвестиционных проектов, программ с наибольшим риском для достижения цели,оптимальных технологий здоровья или нуждающихся в долговременном уходе.
При этом критерий выбора обычно не единственный. Как правило, необходимо рассматривать целый ряд критериев - например, критериев доступности, влияния
на окружающую среду, здоровья населения и т.д. Задача осложняется тем, что критерии часто имеют сложную структуру и могут конфликтовать между собой.
В таких условиях могут помочь мультикритериальные методы - один из классов алгоритмов теории принятия решений. Важно, что мультикритериальные методы могут быть инструментом, который позволяет сделать более
прозрачным процесс выбора критериев и оценки их важности - этот процесс предполагает вовлечение и диалог между заинтересованными сторонами.
Об этом и о двух полезных алгоритмах MCDA (с примерами и тетрадками Python) экспертная записка Счетной палаты.
ach.gov.ru
Официальный сайт Счетной палаты Российской Федерации
С ростом объемов научной информации появляется все больше различных форм и видов обзоров, упорядочивающих уже накопленные доказательства по данной теме.
Наибольшее распространение обзоры имеют в медицине. В этой области все больше накапливается систематических обзоров по одной тематике, и появляются обзоры обзоров (umbrella review). Как правило, это обзоры эффективности различных альтернативных интервенций. За пределами медицины зонтичных обзоров практически нет.
Но обзоры становятся популярными и в других областях с ростом потребности синтеза результатов оценок влияния (IE) и других оценок программ и проектов - оценок эффективности, реализации (процессов) и т.д. Простейшая форма обзора - карты доказательных пробелов (пример для госполитики роста доходов и снижения бедности, xlsx). В этом случае картируется мера госполитики и качество всех доказательств влияния на определенный социально-экономический показатель.
Обзоры не проводятся бессистемно и субъективно. Как правило, только нарративный обзор не отличается строгой методологией и включает в себя схематичные описания без широкого охвата источников.
Даже методологически упрощенные "быстрые обзоры", которые могут занимать не 1-1,5 года, а несколько месяцев (как правило, 2-4 месяца), предполагают конкретный протокол исследования.
Обзор предметного поля (scoping review) – анализ большого объема литературы по широкой тематике с целью установления границ предметного поля. Отличие от системных обзоров - отсутствие критической оценки доказательств. Предметом обзора предметного поля может быть "социальная изоляция пожилых", "применение блокчейн в здравоохранении" или "приверженность к антигипертензивной терапии в России".
Дерево решений "как выбрать нужный обзор" от Cornell University и схема ниже
Наибольшее распространение обзоры имеют в медицине. В этой области все больше накапливается систематических обзоров по одной тематике, и появляются обзоры обзоров (umbrella review). Как правило, это обзоры эффективности различных альтернативных интервенций. За пределами медицины зонтичных обзоров практически нет.
Но обзоры становятся популярными и в других областях с ростом потребности синтеза результатов оценок влияния (IE) и других оценок программ и проектов - оценок эффективности, реализации (процессов) и т.д. Простейшая форма обзора - карты доказательных пробелов (пример для госполитики роста доходов и снижения бедности, xlsx). В этом случае картируется мера госполитики и качество всех доказательств влияния на определенный социально-экономический показатель.
Обзоры не проводятся бессистемно и субъективно. Как правило, только нарративный обзор не отличается строгой методологией и включает в себя схематичные описания без широкого охвата источников.
Даже методологически упрощенные "быстрые обзоры", которые могут занимать не 1-1,5 года, а несколько месяцев (как правило, 2-4 месяца), предполагают конкретный протокол исследования.
Обзор предметного поля (scoping review) – анализ большого объема литературы по широкой тематике с целью установления границ предметного поля. Отличие от системных обзоров - отсутствие критической оценки доказательств. Предметом обзора предметного поля может быть "социальная изоляция пожилых", "применение блокчейн в здравоохранении" или "приверженность к антигипертензивной терапии в России".
Дерево решений "как выбрать нужный обзор" от Cornell University и схема ниже
Никакой доказательной политики нет, если научное знание производится и не используется. Увы, как правило. Ежегодно в рецензируемых журналах публикуются сотни тысяч статей. А вот случаев реального использования оценок влияния крайне мало - по сути, единицы.
Но тут интересно, что такое «реальное использование знания» – в первую очередь, оценок влияния.
Такое использование можно разделить на инструментальное, концептуальное, символическое [1] и использование в процессе [2].
1️⃣. Инструментальное использование – это непосредственное использование результатов для принятия решений отменить, продолжить, расширить или сократить программу (информирование планирования и бюджетирования), а также для разработки дизайна новых или корректировки уже существующих программ. Например, оценки влияния были использованы для корректировки критериев нуждаемости при выплате пособий в Филиппинах и обоснования увеличения финансирования программы поддержки занятости молодежи в Уганде [3].
2️⃣. Концептуальное использование - конкретных действий в отношении программы не предпринимается, но меняется понимание других программ, знание используется для политических и общественных обсуждений. Знание может использоваться в составе более широкой доказательной базы как предмет синтеза доказательств (выше был пост про обзоры), по результатам которого уже могут приниматься решения, - например, бесплатное распространение сеток для предотвращения малярии (J-PAL).
3️⃣. Символическое использование – используется сам факт проведения оценки, а не результаты. Первая оценка влияния программы Progresa была важным фактором поддержки решения эту программу продолжать. Аналогично – повышение верхней границы возраста детей с 16 до 18 лет при получении пособий в ЮАР (оценка влияния выступила как противовес распространенному на тот момент мифу о влиянии таких пособий на детей на подростковую беременность).
4️⃣. Использование в процессе – сопутствующие изменения в восприятии или организационные изменения в процедурах и культуре. К ним относится изменение культуры использования доказательств, совершенствование стратегического планирования как результат использования теории изменений, повышение значения критического и «оценочного» взгляда на программу и признание необходимости корректировок на основе получаемых знаний.
Вот пример рефлексии над использованием оценок влияния от Всемирного банка: Независимая группа по оценке (IEG) характеризует это использование как весьма «умеренное»: в лучшем случае 1/3 играла роль в информировании решений в отношении программы или дизайна других программ, 1/2 - использовалась в ходе политических и общественных обсуждений [4].
[1] Johnson et al. 2009. “Research on Evaluation Use: A Review of the Empirical Literature from 1986 to 2005.” American Journal of Evaluation 30 (3): 377–410.
[2] Patton, M. 1997. Utilization-focused Evaluation: The New Century Text. 3rd ed. Thousand Oaks, CA
[3] Manning R. et al. (2022): Impact evaluation and synthesis – how far are they being used in low- and middle-income countries? Journal of Development Effectiveness
[4] Ramirez, B., E. Javier, I. Yenice. 2012. “World Bank Group Impact Evaluations: Relevance and Effectiveness.”: World Bank.
Но тут интересно, что такое «реальное использование знания» – в первую очередь, оценок влияния.
Такое использование можно разделить на инструментальное, концептуальное, символическое [1] и использование в процессе [2].
1️⃣. Инструментальное использование – это непосредственное использование результатов для принятия решений отменить, продолжить, расширить или сократить программу (информирование планирования и бюджетирования), а также для разработки дизайна новых или корректировки уже существующих программ. Например, оценки влияния были использованы для корректировки критериев нуждаемости при выплате пособий в Филиппинах и обоснования увеличения финансирования программы поддержки занятости молодежи в Уганде [3].
2️⃣. Концептуальное использование - конкретных действий в отношении программы не предпринимается, но меняется понимание других программ, знание используется для политических и общественных обсуждений. Знание может использоваться в составе более широкой доказательной базы как предмет синтеза доказательств (выше был пост про обзоры), по результатам которого уже могут приниматься решения, - например, бесплатное распространение сеток для предотвращения малярии (J-PAL).
3️⃣. Символическое использование – используется сам факт проведения оценки, а не результаты. Первая оценка влияния программы Progresa была важным фактором поддержки решения эту программу продолжать. Аналогично – повышение верхней границы возраста детей с 16 до 18 лет при получении пособий в ЮАР (оценка влияния выступила как противовес распространенному на тот момент мифу о влиянии таких пособий на детей на подростковую беременность).
4️⃣. Использование в процессе – сопутствующие изменения в восприятии или организационные изменения в процедурах и культуре. К ним относится изменение культуры использования доказательств, совершенствование стратегического планирования как результат использования теории изменений, повышение значения критического и «оценочного» взгляда на программу и признание необходимости корректировок на основе получаемых знаний.
Вот пример рефлексии над использованием оценок влияния от Всемирного банка: Независимая группа по оценке (IEG) характеризует это использование как весьма «умеренное»: в лучшем случае 1/3 играла роль в информировании решений в отношении программы или дизайна других программ, 1/2 - использовалась в ходе политических и общественных обсуждений [4].
[1] Johnson et al. 2009. “Research on Evaluation Use: A Review of the Empirical Literature from 1986 to 2005.” American Journal of Evaluation 30 (3): 377–410.
[2] Patton, M. 1997. Utilization-focused Evaluation: The New Century Text. 3rd ed. Thousand Oaks, CA
[3] Manning R. et al. (2022): Impact evaluation and synthesis – how far are they being used in low- and middle-income countries? Journal of Development Effectiveness
[4] Ramirez, B., E. Javier, I. Yenice. 2012. “World Bank Group Impact Evaluations: Relevance and Effectiveness.”: World Bank.
Майкл Пэттон - один из ведущих специалистов в мире по оценке - о заблуждениях и упрощениях, связанных с концептом оценки (прежде всего, оценки программ и проектов):
1️⃣. Оценка прежде всего про данные. Надежные данные, безусловно, важны. Но оценка – это процесс определения ценности предмета оценки, то есть оценка – прежде всего о процессе профессионального суждения.
2️⃣. Оценка прежде всего о суждении. Суждение – это не «конечный результат» оценки. Суждение используется для обоснования при принятии решения. В этом ценность самой оценки.
3️⃣. Оценка прежде всего о принятии решений. Решение зависит от вопроса – того фокуса, для которого оценка генерирует данные.
4️⃣. Оценка прежде всего о вопросе. Но вопрос оценки зависит от ценностей заинтересованных сторон
5️⃣. Оценка прежде всего о ценностях. Ценности операционализируются через критерии - на этом строится логика оценки (выбор или разработка критерия, построение стандарта результата, собственно оценка на его основе). Критерии определяют направление оценки, в том числе то, какие формулируются цели, какие задаются вопросы и к каким выводам можно придти в итоге. При этом критерии часто остаются неявными или являются некорректно или размыто сформулированными, показывает [1]. Но, например, стандарты @auditgov обязывают явно прописывать критерии в программе аудита до его начала (полевого этапа).
6️⃣. Оценка прежде всего о критериях. Критерии отражают приоритеты важности, конвертируют ценности в профессиональное суждение. При этом оценка строится вокруг заинтересованных сторон, пользователей отчетов по оценке, лиц, принимающих решения – то есть не столько методы, сколько люди находятся в центре оценки.
7️⃣. Оценка – это какой-то один аспект – данные, суждение, решения, вопросы, ценности или критерии. Оценка - это все же динамическая система, последовательный процесс, в котором важен не один аспект, а их комплекс.
[1] Evaluative Criteria in Practice: Findings from an Analysis of Evaluations Published in Evaluation and Program Planning
/ Evaluation and Programm Planning. 2023 https://www.sciencedirect.com/science/article/abs/pii/S0149718923000034
1️⃣. Оценка прежде всего про данные. Надежные данные, безусловно, важны. Но оценка – это процесс определения ценности предмета оценки, то есть оценка – прежде всего о процессе профессионального суждения.
2️⃣. Оценка прежде всего о суждении. Суждение – это не «конечный результат» оценки. Суждение используется для обоснования при принятии решения. В этом ценность самой оценки.
3️⃣. Оценка прежде всего о принятии решений. Решение зависит от вопроса – того фокуса, для которого оценка генерирует данные.
4️⃣. Оценка прежде всего о вопросе. Но вопрос оценки зависит от ценностей заинтересованных сторон
5️⃣. Оценка прежде всего о ценностях. Ценности операционализируются через критерии - на этом строится логика оценки (выбор или разработка критерия, построение стандарта результата, собственно оценка на его основе). Критерии определяют направление оценки, в том числе то, какие формулируются цели, какие задаются вопросы и к каким выводам можно придти в итоге. При этом критерии часто остаются неявными или являются некорректно или размыто сформулированными, показывает [1]. Но, например, стандарты @auditgov обязывают явно прописывать критерии в программе аудита до его начала (полевого этапа).
6️⃣. Оценка прежде всего о критериях. Критерии отражают приоритеты важности, конвертируют ценности в профессиональное суждение. При этом оценка строится вокруг заинтересованных сторон, пользователей отчетов по оценке, лиц, принимающих решения – то есть не столько методы, сколько люди находятся в центре оценки.
7️⃣. Оценка – это какой-то один аспект – данные, суждение, решения, вопросы, ценности или критерии. Оценка - это все же динамическая система, последовательный процесс, в котором важен не один аспект, а их комплекс.
[1] Evaluative Criteria in Practice: Findings from an Analysis of Evaluations Published in Evaluation and Program Planning
/ Evaluation and Programm Planning. 2023 https://www.sciencedirect.com/science/article/abs/pii/S0149718923000034
YouTube
7 common evaluation misconceptions (oversimplications) and one reconceptualization
Oft-repeated assertions can become internalized beliefs that feel familiar and true even as they narrow and even distort our perspectives. Social media facilitates rapid dissemination of simple repetitive messages. Bottom line conclusions. Memes. Truisms.…
Сегодня в 14:00 - вебинар по мультикритериальным методам для поддержки принятия решений:
🔹Как мультикритериальные методы оценки могут помочь разрешить комплексные управленческие задачи?
🔹Как применять эти методы?
🔹Какие ограничения применения?
⬇️ Для участия нужно зарегистрироваться по ссылке до 12:00 20 января.
Присоединяйтесь!
🔹Как мультикритериальные методы оценки могут помочь разрешить комплексные управленческие задачи?
🔹Как применять эти методы?
🔹Какие ограничения применения?
⬇️ Для участия нужно зарегистрироваться по ссылке до 12:00 20 января.
Присоединяйтесь!
Ценность государственного аудита зависит от двух факторов: 1) уровня потерь, который может обнаружить аудит, и 2) способности государства реагировать на результаты аудита.
Потери могут быть двух видов. Первый вид - потери умышленного и активного характера (есть чья-то прямая выгода), это коррупция, мошенничество и финансовые нарушения законодательства, которые с ними связаны. Второй вид - “пассивные” потери из-за неэффективности при проведении выбранных мер госполитики (неправильная реализация) или неэффективности в форме стратегических ошибок при самом отборе мер (неправильный стратегический выбор). Здесь нет прямой выгоды, причинами могут быть недостаточные компетенции, отсутствие стимулов снижать издержки, неоптимальность значимых систем (например, систем госзакупок, стратегического планирования) и т.д. Есть исследования, которые показывают, что пассивные потери - основной источник потерь в госрасходах, они составляют до 83% [1].
Уровень потерь отрицательно коррелирован с состоятельностью государства, а возможность реагировать на потери - положительно. То есть чем больше способность государства выбирать и эффективно реализовывать собственные решения, тем выше качество регулирования, меньше уровень нарушений и стратегических недостатков, выше возможности делать работу над ошибками и исправлять их. И в этом случае отдача от аудита может себя не оправдать - например, в 2015 г. канадский внешний государственный аудит обошелся бюджету в 23 млн долларов, при этом помог обнаружить потерь только на 1 млн долларов. В периоды стихийных бедствий, пандемий, войн значение и ценность госаудита снижаются (значительно снижается состоятельность государства), при этом проходит больше разнообразных обсуждений на тему сохранения релевантности аудита (например, в ИНТОСАИ).
На поверхности вывод о том, что ценность аудита выше там, где состоятельность государства средняя (потери есть, но есть и возможности их устранять). Но по сути речь идет не о “состоятельности государства в целом”, а о возможности, например, устранять бухгалтерские нарушения (легче), реагировать на системные финансово-бюджетные нарушения (сложнее) или выстраивать административно-бюрократические системы со сложными стимулами (еще сложнее) и достигать конечных результатов для граждан (аналогично). Проблема госаудита скорее не в том, что стратегический аудит (и внешний, и внутренний) не нужен при потере способности государства реагировать на сложные результаты аудита, а в необходимости постоянной подстройки к потенциалу реакции на любые результаты. Постоянный квест в поисках ценности.
Любителям разрывных регрессий можно прочитать исследование количественных эффектов аудита [2]. Рабочая модель на страничку, обзор исследований - картинками ниже.
[1] (Bandiera, Prat, 2008) https://ceistorvergata.it/RePEc/rpaper/RP115.pdf
[2] (Cuneo и др., 2023) https://www.nber.org/system/files/working_papers/w30975/w30975.pdf
Потери могут быть двух видов. Первый вид - потери умышленного и активного характера (есть чья-то прямая выгода), это коррупция, мошенничество и финансовые нарушения законодательства, которые с ними связаны. Второй вид - “пассивные” потери из-за неэффективности при проведении выбранных мер госполитики (неправильная реализация) или неэффективности в форме стратегических ошибок при самом отборе мер (неправильный стратегический выбор). Здесь нет прямой выгоды, причинами могут быть недостаточные компетенции, отсутствие стимулов снижать издержки, неоптимальность значимых систем (например, систем госзакупок, стратегического планирования) и т.д. Есть исследования, которые показывают, что пассивные потери - основной источник потерь в госрасходах, они составляют до 83% [1].
Уровень потерь отрицательно коррелирован с состоятельностью государства, а возможность реагировать на потери - положительно. То есть чем больше способность государства выбирать и эффективно реализовывать собственные решения, тем выше качество регулирования, меньше уровень нарушений и стратегических недостатков, выше возможности делать работу над ошибками и исправлять их. И в этом случае отдача от аудита может себя не оправдать - например, в 2015 г. канадский внешний государственный аудит обошелся бюджету в 23 млн долларов, при этом помог обнаружить потерь только на 1 млн долларов. В периоды стихийных бедствий, пандемий, войн значение и ценность госаудита снижаются (значительно снижается состоятельность государства), при этом проходит больше разнообразных обсуждений на тему сохранения релевантности аудита (например, в ИНТОСАИ).
На поверхности вывод о том, что ценность аудита выше там, где состоятельность государства средняя (потери есть, но есть и возможности их устранять). Но по сути речь идет не о “состоятельности государства в целом”, а о возможности, например, устранять бухгалтерские нарушения (легче), реагировать на системные финансово-бюджетные нарушения (сложнее) или выстраивать административно-бюрократические системы со сложными стимулами (еще сложнее) и достигать конечных результатов для граждан (аналогично). Проблема госаудита скорее не в том, что стратегический аудит (и внешний, и внутренний) не нужен при потере способности государства реагировать на сложные результаты аудита, а в необходимости постоянной подстройки к потенциалу реакции на любые результаты. Постоянный квест в поисках ценности.
Любителям разрывных регрессий можно прочитать исследование количественных эффектов аудита [2]. Рабочая модель на страничку, обзор исследований - картинками ниже.
[1] (Bandiera, Prat, 2008) https://ceistorvergata.it/RePEc/rpaper/RP115.pdf
[2] (Cuneo и др., 2023) https://www.nber.org/system/files/working_papers/w30975/w30975.pdf