Немного о Бокс Кокс (Box Cox) трансформации.
Часто распределение экспериментальных данных, с которыми мы сталкиваемся в работе, отличаются от нормальных. При этом большое количество статистических методов в своей математической основе имеют допущение о нормальности распределения значений. Разумеется, существуют непараметрические критерии, которые не обладают таким ограничением, но их мощность (то есть вероятность найти значимые различия, там где они реально есть) в среднем ниже. Поэтому имеет смысл приводить свои данные к нормальному виду.
Бокс Кокс преобразование относится к семейству монотонных преобразований с помощью степенных функций. Идея метода состоит в подборе оптимальной степени (обозначаемой лямбда λ), при возведении в которую данные будут лучше соответствовать нормальному распределению. Обычно лямбда подбирается в диапазоне [-5;5].
Наиболее встречаемые значения параметра: 0, что соответствует логарифму от исходных данных (log(Y)), 0.5, что соответствует квадратному корню (Y0.5 = √(Y)), 1 как линейное преобразование, 2 как квадрат исходных данных (далее куб и четвертая и тд степень). Отрицательные значения: Y^-0.5 = 1/(√(Y)), Y^-1 = 1/Y, Y^-2 = 1/Y^2.
После трансформации необходимо проверить видоизмененные данные на соответствие нормальному распределению графически и с помощью статистических критериев, например теста Шапиро-Уилка.
Стоит обратить внимание, что применение любых видов трансформации может затруднить дальнейшую интерпретацию результатов. Например, в случае работы с линейными моделями, коэффициенты регрессии имеют определенный физический смысл относительно параметров. Можно привести пример: при изменении количества школ в штате на единицу, происходит такое-то изменение уровня образования/числа убийств, или что-то в подобном духе. Интерпретация исходных данных интуитивно понятна. Сложнее будет объяснять, скажем, как количество школ возведенное в степень -1.6 скажется на зависимой переменной и что это может значить. Поэтому с трансформацией необходимо обращаться осторожно и всегда держать в голове возможный физический смысл степенных коэффициентов.
Подробнее с формулами можно ознакомиться здесь: https://www.statisticshowto.com/box-cox-transformation/
Часто распределение экспериментальных данных, с которыми мы сталкиваемся в работе, отличаются от нормальных. При этом большое количество статистических методов в своей математической основе имеют допущение о нормальности распределения значений. Разумеется, существуют непараметрические критерии, которые не обладают таким ограничением, но их мощность (то есть вероятность найти значимые различия, там где они реально есть) в среднем ниже. Поэтому имеет смысл приводить свои данные к нормальному виду.
Бокс Кокс преобразование относится к семейству монотонных преобразований с помощью степенных функций. Идея метода состоит в подборе оптимальной степени (обозначаемой лямбда λ), при возведении в которую данные будут лучше соответствовать нормальному распределению. Обычно лямбда подбирается в диапазоне [-5;5].
Наиболее встречаемые значения параметра: 0, что соответствует логарифму от исходных данных (log(Y)), 0.5, что соответствует квадратному корню (Y0.5 = √(Y)), 1 как линейное преобразование, 2 как квадрат исходных данных (далее куб и четвертая и тд степень). Отрицательные значения: Y^-0.5 = 1/(√(Y)), Y^-1 = 1/Y, Y^-2 = 1/Y^2.
После трансформации необходимо проверить видоизмененные данные на соответствие нормальному распределению графически и с помощью статистических критериев, например теста Шапиро-Уилка.
Стоит обратить внимание, что применение любых видов трансформации может затруднить дальнейшую интерпретацию результатов. Например, в случае работы с линейными моделями, коэффициенты регрессии имеют определенный физический смысл относительно параметров. Можно привести пример: при изменении количества школ в штате на единицу, происходит такое-то изменение уровня образования/числа убийств, или что-то в подобном духе. Интерпретация исходных данных интуитивно понятна. Сложнее будет объяснять, скажем, как количество школ возведенное в степень -1.6 скажется на зависимой переменной и что это может значить. Поэтому с трансформацией необходимо обращаться осторожно и всегда держать в голове возможный физический смысл степенных коэффициентов.
Подробнее с формулами можно ознакомиться здесь: https://www.statisticshowto.com/box-cox-transformation/
Statistics How To
Box Cox Transformation: Definition, Examples
What is a Box Cox transformation? Definition and examples in plain English. What is Lambda in a Box Cox? When you should run the transformation.
👍2
О формулах.
Меня часто спрашивают, насколько нужно разбираться в математических основах критериев, если все можно написать в одну строчку в R или любом другом статистическом инструменте. Я думаю так, необходимо всегда понимать общие принципы метода, и в особенности его ограничения и допущения. Точные формулы всегда можно посмотреть на википедии или в оригинальной статье о методе, но они обычно и не нужны, так как нет большого смысла реализовывать вручную то, что уже написано и протестировано большим сообществом ученых, аналитиков и программистов. Важно понимать, например, чем односторонний т-критерий отличается от двустороннего или есть ли разница в порядке написания факторов в многофакторном дисперсионном анализе при несбалансированном дизайне (про это, думаю, будет отдельный пост).
И для понимания этих отличий нужно сравнивать формулы, но часто это уже понятно расписано, правда не всегда на русском языке. Поэтому для успешного освоения методов нужно не бояться формул и понимать формальный язык математики ) (а еще английский)
Меня часто спрашивают, насколько нужно разбираться в математических основах критериев, если все можно написать в одну строчку в R или любом другом статистическом инструменте. Я думаю так, необходимо всегда понимать общие принципы метода, и в особенности его ограничения и допущения. Точные формулы всегда можно посмотреть на википедии или в оригинальной статье о методе, но они обычно и не нужны, так как нет большого смысла реализовывать вручную то, что уже написано и протестировано большим сообществом ученых, аналитиков и программистов. Важно понимать, например, чем односторонний т-критерий отличается от двустороннего или есть ли разница в порядке написания факторов в многофакторном дисперсионном анализе при несбалансированном дизайне (про это, думаю, будет отдельный пост).
И для понимания этих отличий нужно сравнивать формулы, но часто это уже понятно расписано, правда не всегда на русском языке. Поэтому для успешного освоения методов нужно не бояться формул и понимать формальный язык математики ) (а еще английский)
👍1
Выбросы!! Что делать?
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев.
Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп?
Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса.
К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа.
Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни.
Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев.
Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп?
Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса.
К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа.
Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни.
Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
👍1
тестовое сообщение - работает ли возможность комментировать посты
P.S. на тему предыдущего поста можно комментировать также здесь, чтобы не создавать отдельные сообщения
P.S. на тему предыдущего поста можно комментировать также здесь, чтобы не создавать отдельные сообщения
Методы ресемплинга как альтернатива методам классической статистики.
Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.
Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.
Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).
Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.
Продолжение в следующем посте =>
Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.
Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.
Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).
Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.
Продолжение в следующем посте =>
🔥4👍1
Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
🔥4👍1👏1
Список источников:
Johnston, M. G., & Faulkner, C. (2021). A bootstrap approach is a superior statistical method for the comparison of non-normal data with differing variances. The New phytologist, 230(1), 23–26. https://doi.org/10.1111/nph.17159
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 314 с.
Johnston, M. G., & Faulkner, C. (2021). A bootstrap approach is a superior statistical method for the comparison of non-normal data with differing variances. The New phytologist, 230(1), 23–26. https://doi.org/10.1111/nph.17159
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 314 с.
🔥2
Статистика и R в науке и аналитике pinned «Методы ресемплинга как альтернатива методам классической статистики. Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?". Однако после изучения материалов на эту тему пришла к выводу…»