душно про дату
816 subscribers
23 photos
1 file
34 links
Матстат и около него. В интернете кто-то не прав.
Download Telegram
Подведем промежуточный итог. В генеральной совокупности у нас есть эстиманд, который мы ощупываем на основе выборки с помощью эстиматора. Ключевое свойство эстиматора — состоятельность: при увеличении объема выборки состоятельные эстиматоры выдают оценки, которые приближаются к эстиманду. Без этого свойства машинка не едет, можно расходиться.
Второе свойство, милое, но не необходимое — это несмещенность эстиматора.
(Не)состоятельность и (не)смещенность эстиматора могут комбинироваться в любых сочетаниях.
8👍6🔥3
Часть 4. Смещения и байасы в эпидемиологии и биомедицине.

Проблемы начинаются, когда матстат сталкивается с биомедом. Вы все наверняка слышали про смещение оценок (bias), которое сильно не нравится людям в биомеде. Про то, что конфаундинг (спутывающие факторы) может смещать наши оценки, делая их biased. Про смещенные выборки и прочее такое. И что это плохо, потому что никакие большие выборки от этого не спасают и не лечат его, буууууу!

Подстава в том, что люди в эпидемиологии и биомеде называют байасом не то, что под этим понимают статистики. То, что медики и эпидемиологи называют смещенными / байаснутыми оценками, в классической статистике называют несостоятельностью.

Дайте этой мысли настояться, оцените ее иронию.

Чтобы совсем всех запутать, состоятельность и несмещенность может быть не только у точечных эстиматоров, но еще и статистических тестов, например. А еще доверительные интервалы тоже могут быть (не)состоятельными. Но это совсем другая история.
14🔥6👍3
Про неопределенность (1/4)

Наткнулся на вот такую презентацию, там много разного красивого, есть над чем подумать, рекомендасьон. Тем не менее, сам материал будет читаться легче, если мы проведем в своей голове разницу между неопределенностями алеаторной и эпистемической. Если понять эту разницу, то сразу исчезнет путаница между доверительным и предсказательным интервалами, а также стандартной ошибкой и стандартным отклонением.

Слайд номер 48: на картинке зелеными точечками изображены сами измерения (видимо, это jitter plot), а также среднее и пачка разных интервалов. Давайте посмотрим на них поближе.
🔥53👍1
🔥63👍2
Про неопределенность (2/4). Эпистемическая неопределенность.

Начнем с доверительных интервалов. Мы помним, что статистика — это инструмент индуктивного вывода: имея на руках выборку, мы пытаемся что-то сказать о параметре в генеральной совокупности, которая нам недоступна целиком. Соответственно, с процессом статистического вывода и формирования представлений о параметре сопряжена некоторая неопределенность.

Пример: представим, что нас интересует среднее (наш эстиманд) в генеральной совокупности; вся ГС нам недоступна, поэтому мы набираем выборку, считаем среднее арифметическое (наш эстиматор) и ДИ к нему. Огрубляя, ширину ДИ можно рассматривать как погрешность сложного многосоставного
процесса измерения средней в ГС.

Интуитивно понятно, что чем шире ДИ, тем больше неопределенность нашего вывода (= выше погрешность). Тем не менее, если мы будем увеличивать объем выборки, интервалы будут сужаться, стремясь схлопнуться в точку. То есть, набирая больше данных, мы снижаем неопределенность. Таким образом, в этом примере речь идет о неопределенности, которая связана с нашим недостатком знаний об изучаемом параметре, и эта неопределенность уменьшается при увеличении выборки (= получении дополнительной информации), поэтому такая неопределенность называется эпистемической (ну или неопределенностью, связанной со статвыводом).

Доверительные интервалы (и их ширина), а также стандартная ошибка (SE) описывают как раз эпистемическую неопределенность (заметим, что в большинстве случаев ширина ДИ — это SE, умноженная на некоторую константу).
🔥8👍42
Про неопределенности (3/4). Алеаторная неопределенность.

Теперь задумаемся: как себя ведет SD при увеличении объема выборки? Нетрудно заметить, что с увеличением выборки (при некоторых технических допущениях, которые нас сейчас не очень волнуют) SD сходится к конкретному числу: стандартному отклонению в генеральной совокупности. То есть, ширина интервала mean +- SD не сходится к нулю. Заметим также, что теорема Чебышёва нам гарантирует, что в интервал типа mean +- 2*SD измерения попадают с вероятностью 75%. Иными словами, каждое следующее измерение с вероятностью 75% попадет в такой интервал. То есть такой интервал не описывает среднее или наши представления о нем, он описывает поведение членов генеральной совокупности, или в некотором смысле предсказывает их поведение.

Просуммируем: интервалы типа mean +- SD не схлапываются в точку с ростом выборки (т.е. мы не можем избавиться от этой неопределенности увеличивая объем выборки, получая информацию из новых наблюдений). Такой тип неопределенности называется алеаторная или предсказательная неопределенность.

Название происходит от латинского alea — азартные игры. Действительно, бросая игральную кость вновь и вновь, вы не приближаетесь к тому, чтобы предсказать сколько очков выпадет в следующем раунде. Эта неопределенность не происходит из вашего незнания о поведении кости, а является неотъемлемым свойством игральной кости.
🔥9👍21
Про неопределенность (4/4). Итого.

1. Есть эпистемическая неопределенность, которая связана с попыткой сказать что-то о параметере распределения и происходит из ограниченности нашего знания. Эпистемическая неопределенность описывается с помощью SE или ДИ и уменьшается с ростом выборки.

2. Алеаторная неопределенность является органичным свойством генеральной совокупности (или, шире, механизма производства данных), описывает вариабельность или изменчивость поведения отдельных элементов ГС и не уменьшается с простым увеличением объема выборки. Описывается с помощью SD, дисперсии или, например, IQR.

3. Отображать неопределенность на графиках и репортировать в тексте — это отличная идея, так и надо.

4. Важно однако правильно выбирать тип неопределенности, который вы хотите репортировать: алеаторный или эпистемический, и подбирать соответствующие инструменты.
Обычно в Таблице 1 и секции с описанием данных имеет смысл репортировать алеаторную неопределенность, поэтому мы там видим боксплоты, SD, IQR.
В части, посвященной статвыводу, важно репортировать неопределенность этого статвывода, поэтому там мы часто видим ДИ и, опционально SE для наших оценок.
🔥16👍51
Хозяйке на заметку

Хорошее упражнение, которое даёт пищу для размышлений. Возьмите какой-нибудь датасет (лучше лонгитудинальный, например, Orthodont) и попытайтесь создать его синтетическую версию, которая будет воспроизводить оригинальный датасет и его закономерности. Можете представить, что готовитесь к конференции и хотите на примере датасета показать классные штуки, но разглашать исходные данные нельзя, потому что потому.

Узнаете много интересного.

#хозяйке_на_заметку
😁7👍3🔥3
Через час начнется следующая лекция из вот этого цикла. В этот раз разговариваем про категоризацию непрерывных данных и что с этим подходом (не) так. Подробности и пароли-явки по ссылке.

Ну а я в качестве полезного тизера положу пост Ильи Бирмана: дизайнеры, например, интуитивно понимают, что не так с разбиением на категории. Более того, с этим не так можно столкнуться и в повседневной жизни.
👍3
Без возрастных категорий

Когда бегаешь в Эпл-часах, они измеряют некий параметр VO₂ max, который характеризует твою кардиовыносливость. Я бегаю по чуть-чуть, и вот однажды прошлой весной этот VO₂ max у меня упал ниже среднего. Я расстроился и стал думать, как бы мне бегать получше, чтобы вырос обратно. Бегал-бегал, но всё лето он болтался вокруг того же значения, никак не становясь выше среднего.

И вот после очередной тренировки VO₂ max чуть-чуть упал, но Эпл показал, что он стал выше среднего! А благодаря теореме Коши, Вейерштрасса или кого-то из этих ребят мы понимаем, что если значение непрерывной функции было ниже некоторого значения, а потом упало, то оно ну никак не может стать выше этого значения. Я пошёл разбираться, что там произошло.

Оказалось, что с прошлой тренировки мне успело исполниться сорок лет, и я перешёл из категории 30—39 лет в категорию 40—49 лет, и среднее для меня резко уменьшилось — с 43 мл/кг/мин до 38 мл/кг/мин. То есть в логике Эпла между людьми 30 и 39 лет нет никакой разницы, но конкретно в день, когда тебе исполняется сорок, нормативы для тебя резко снижаются.

Делить людей на категории может быть необходимо, если у вас есть ограниченное количество различных предложений для них. Вы можете сделать только два правовых статуса, только три типа билетов, только пять размеров носков — вам приходится искусственно делить всех на категории, потому что писать каждому индивидуальные правила или делать индивидуальное предложение нерационально.

Но если вы работаете с большими данными, то нет причин искусственно снижать разрешение в тысячи раз. Вы можете показать каждому среднее именно для его возраста, или среди всех людей с разбросом 3 месяца вокруг него, или что угодно ещё. Это среднее будет не резко меняться в случайные моменты жизни раз в десять лет, а плавно падать естественным образом.
👍14😁6🔥31
Пишите постмортемы

Хозяйке на заметку, стараюсь делать сам и рекомендую другим: после окончания каждого проекта пишите «постмортем». Можете в дневничок, можете в блог, можете в обсидиан или куда там еще.

Если вы столкнулись с какими-то нестандартными проблемами или задачами, которые заставили вас напрячься — опишите их и ход своей мысли. Написали какую-то классную функцию, которая упрощает жизнь, нашли изящное решение в коде, которое можно переиспользовать? Упомяните их, включите их в свой набор сниппетов. Если какая-то часть проекта была для вас особенно приятной и порадовала вас — упомяните и ее. И наоборот, если было что-то особенно бесявое, то обязательно напишите про это.

Во-первых, так у вас появится более точное понимание того, куда уходят ваши силы и к каким результатам это приводит. Во-вторых, это поможет отслеживать ваш профессиональный рост. В-третьих, это все неплохой материал для постов: получаете контент практически без усилий, да еще и, вероятно, сэкономите кому-то силы и нервы (делай добро и бросай его в воду). Наконец, это поможет вам быстрее нашуршать решения в ситуациях типа «блин, как же я это в прошлый раз делал».

Вообще свой набор сниппетов (и, шире, библиотек и прочих утилит и приблуд) чем-то восходит к традициям старых мастеров: раньше, во времена гильдий, у каждого мастера был свой собственный набор инструментов, который он собирал на протяжении своей жизни или получал в наследство от своего учителя, и который оставлялся в наследство подмастерьям.

#бэкстейдж #хозяйке_на_заметку
👍195🔥4
Рубрика #ярмарка_тщеславия на связи. Сегодня буду на стриме с Юрой Борзило, будем налаживать связи между миром бизнеса и аб-тестов и мир (био)статистики. Поговорим, как я докатился до жизни такой. Заглядывайте на огонёк.

На канал Юры тоже подписывайтесь; читать про статистику вне медицинского контекста полезно и развивает извилины.
👍4
Forwarded from Борзило
Завтра проведем эфир с настоящим статистиком 🚨

Матвей Славенко
- биостатистик в университетской больнице Мотол, Прага. Преподает в Институте Биоинформатики. Выпускник Матфиза Карлова университета (Прага). Автор канала "Душно про дату"

Что обсудим?
1. Как вообще люди попадают в статистику?
2. Что самое сложно на старте изучения статистики?
3. Рабочие задачи Матвея в роли статистика
4. Какие основные сложности в работе?
5. Почему выбрал работать в медицине, а не в бизнесе?
6. Много ли статистиков уходят работать в бизнес или остаются в науке?
7. Как и в каких задачах статистика может помочь бизнесу?
8. Твое мнение: Можно ли заниматься АБ тестами без профильного образования по статистике?
9. Как ты вообще относишься к теме АБ тестов в бизнесе?
10. Куда вообще сейчас развивается статистика? Новые тренды

Если у вас есть вопросы к Матвею, то пишите в комменты (чур не спрашивать что такое p-value 😁)

Когда и где?
09 июля(среда), 19.00 мск
Ссылка на zoom где все пройдет(100 мест)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍7
Подъехала запись стрима с Юрой Борзило. Штуки, которые упоминались:
1. Магистерская программа по теорверу и матстату, вот тут можете почитать учебный план.
2. ТГ-канал Института биоинформатики. Как раз заканчивается набор на полугодовую программу по биостату.
3. Отдельно упомяну канал Юры. Если интересно, что может пойти не так с рандомизированными исследованиями в бузинесе, можете полистать методичку авторства Юры и поискать по каналу слово "ошибка".

Также помашу кулаками после драки: к вопросу о могут ли люди без спецобразования аб-тестить.

Могут, но есть ряд проблем, которые надо иметь в виду. Во-первых, в интернете и печатных книгах полно шлака на тему статистики. Начиная от безобидных неточностей, через относительно безвредные мифы и заблуждения и заканчивая полностью неверной чушью. За примерами ходить далеко не надо, см. те же обсуждения "нужна ли нормальность для проведения т-теста" и "регрессии строят для предсказания". Отделить зерна от плевел будет трудно. Во-вторых, вас будут поджидать проблемы, специфичные для вашей области приложения, и эти проблемы могут быть не освещены в источниках общей или другой направленности. Пример: в медицинских РКИ вас, скорее всего, не заботит сетевой эффект, в то время как в аб-тестах вы с этим столкнетесь относительно быстро. В итоге стандартный в айтишке подход "воскурим маны и гайды и освоим базу" работает плохо, нужно уметь отличать дельные маны от вредных. То есть, чтобы растить свои скиллы, нужно уже иметь неплохую такую базу, которую на семестральных курсах введения в теорвер и матстат обычно не дают.

Если пофантазировать, уходя в область спекуляций, достаточно элегантным решением может стать модель (внешнего) менторства. Итак, у вас есть коллектив сотрудников, которые "прослушали один семестр матстата", и вы хотите аб-тестить. Дальше вы находите одного-двух людей с профильным образованием, которые будут менторами. Основную работу (дизайн, сбор даты, анализ, написание отчета) будут делать как раз рядовые сотрудники, а ведущие статистики выступают в качестве консультантов: комментируют предложенные решения и предлагают улучшения, указывают на ошибки, коучат, предлагают источники на почитать, предупреждают о возможных подводных камнях и следят за базовой методологией (то самое "зачем мы это делаем и не фигню ли мы делаем"). В итоге растет внутренняя экспертиза, вы не тратите время на чтение всякой ерунды (и попытки понять, ерунда ли это или дело пишут) и применяете неплохие практики тестирования. Этот же подход может хорошо сработать в связке с "прикормить статистика со стороны": вам необязательно иметь этих труЪ-статистиков в штате, вполне может оказаться, что с их стороны достаточно нескольких часов в неделю.

В идеале, конечно, старшие статистики должны быть сами с опытом применения матстата в бизнес-контексте, но, мне кажется, это необязательно. Если они заинтересованы в сотрудничестве, добрать контекст они смогут относительно быстро и просто через чтение гайдов и статей: у них как раз есть база для того, чтобы быстро отсеивать ерунду.
👍7🔥61
душно про дату
Подъехала запись стрима с Юрой Борзило. Штуки, которые упоминались: 1. Магистерская программа по теорверу и матстату, вот тут можете почитать учебный план. 2. ТГ-канал Института биоинформатики. Как раз заканчивается набор на полугодовую программу по биостату.…
Вышесказанное, в принципе, касается и академии в ее расширенном понимании. Шлак в книгах "статистика для биологов/лингвистов/врачей" тоже бывает, вплоть до полного непонимания метода, пример тут. Узкоспециальные для данной области приколы в наличии. Коллектив людей типа "был семестр матстата в унике" — дано по умолчанию. Поэтому подход с приглашением гостевого статистика, который будет ревьюить ваши подходы и коучить сотрудников вашей лабы тоже вполне себе работоспособен, со всеми плюшками в виде роста внутренней экспертизы вашей лабы в среднесрочной перспективе и скачкообразным ростом качества вашей работы практически с первых часов работы со статистиком. Пример такого сотрудничества обсуждали на стриме.

Видимо, #хозяйке_на_заметку
👍4🔥3
Понедельник день тяжёлый, поэтому несу вам два факта на порассуждать. Можете считать, что это статистические коаны.

1. У большинства людей количество конечностей выше среднего.

2. Большинство водителей утверждают, что они водят лучше среднего.

Почему первое - это просто факт, а второе нам продают как когнитивное искажение?
🔥10🤔3
Из комментариев, с привкусом дискретной математики и теории графов.
Forwarded from Evgeny Bakin
Вкину ещё теоремку из теории графов: Ваши сексуальные партнёры, скорее всего, имели в среднем больше сексуальных партнёров, чем Вы.
👍1
factor_analysis_slavenko.html
129.4 KB
Про факторный анализ

Отвечал на вопрос в личке, напишу и тут, очень коротко.

Надо различать анализ главных компонент (principal component analysis, PCA) и факторный анализ (factor analysis, FA). PCA иногда называют факторным анализом, особенно почему-то в социальных науках, но они совсем про разное. PCA вращает облако точек так, чтобы новые координаты были самыми подходящими в каком-то смысле. Факторный анализ же — это модель, которая пытается описать корреляции показателей с помощью латентных (скрытых) переменных.

PCA прост, как топор. ФА гораздо более красивая и сложная штука, и его надо уметь правильно готовить; просто насыпать дату в софт и получить решение можно, но с шансами это будет шляпа. Кроме того, ФА не имеет однозначного решения, его аутпут надо еще постобработать подходящим способом (выбор подходящей ротации). К сожалению, по моим ощущениям, людей, которые реально умеют работать с ФА, мало.

Про ФА есть симпатичная статья на вики.

Также прикладываю короткую презентацию-введение в суть ФА, которую когда-то готовил для семинара. Возможно, она кому-то сэкономит силы и время в попытках разобраться, что же такое этот ваш факторный анализ и как его приспособить в хозяйстве.

UPD: добавлю, что умение готовить FA в весомой степени лежит не в математике метода, а в понимании предметной области: чтобы применять факторный анализ как положено, вы должны очень хорошо понимать, какие такие скрытые переменные вы ищете и почему они должны быть в вашей дате.
17👍5
душно про дату
Понедельник день тяжёлый, поэтому несу вам два факта на порассуждать. Можете считать, что это статистические коаны. 1. У большинства людей количество конечностей выше среднего. 2. Большинство водителей утверждают, что они водят лучше среднего. Почему первое…
Давайте обсудим.

У большинства из нас две руки и две ноги, но есть не очень большой процент людей, у которых конечностей меньше. В итоге распределение случайной величины "количество конечностей у случайно выбранного человека" дискретно, сильно скошено, мода и медиана равны четырем, матожидание чуть меньше четырех. Почти у всех людей количество конечностей выше среднего, если считать, что под "средним" понимается матожидание. Если же считать, что под средним понимается медиана, то все равно выходит, что у подавляющего большинства медианное количество конечностей.

Факт, что большинство водителей считают, что они водят "лучше среднего" часто подают как пример когнитивных искажений: мол, очевидно, что большинство не может водить лучше среднего, duh. Как показывает пример с конечностями — не очевидно.
👍11🔥9🤔43😁1