Статистика и R в науке и аналитике
4.95K subscribers
45 photos
98 links
Всем привет!
Подробнее о канале со списком самого интересного: https://t.iss.one/stats_for_science/108
Чат канала: https://t.iss.one/chat_stats_for_science
По всем вопросам - @lena_astr
Download Telegram
Всем привет! Давненько тут не было постов, исправляюсь. На этот раз предлагаю подборку обучающих материалов по статистике с моими очень ценными комментариями и мнениями о них)

Книги:
1. Статистика и котики. Информация например здесь
Книгу все советуют для новичков в статистике, признаться, я сама ее прочитала уже спустя некоторое время работы со статистикой, поэтому мне было особенно легко ее воспринимать. Книга действительно очень забавная, написана приятным языком, мне понравилось. Однако могу отметить, что более сложные темы стат анализа, например про факторный анализ написано скорее запутанно, чем понятно, поэтому я бы тоже рекомендовала книгу именно новичкам в статистике.

2. Голая статистика. Информация здесь
Эту книгу тоже советуют новичкам, ее я не читала, но судя по отзывам, там довольно простой стиль изложения, многим нравится.

3. Медико-биологическая статистика Гланца. Скачать здесь https://medstatistic.ru/articles/glantz.pdf
Относительно неплохая книга, раньше тоже советовали начинающим статистикам-биологам и медикам, особенно когда не было вышеприведенных книг. Здесь чуть более строгий язык повествования, но все еще не перегруженный формулами и терминами. Существенный минус - книжка старая, здесь нет описания поправок на множественное тестирование FDR.

4. Теория вероятностей и математическая статистика, Гмурман В.Е. https://lib.maupfib.kg/wp-content/uploads/2015/12/Teoria_veroatnosty_mat_stat.pdf
Книга уже чуть более сложная, помимо базовых вещей, здесь разобрано про Монте-Карло пермутационные тесты и немного про скрытые марковские модели.

5. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. В.К. Шитиков, Г.С. Розенберг
https://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Это уже немного в сторону от базовых вещей в статистике, здесь действительно целая книга, посвященная применению бутстрепа для анализа данных. Не могу похвастаться что осилила ее, но мне очень понравилось введение про сам принцип, во многом опиралась на него, пока писала про бутстреп на канале. Очень рекомендую почитать тем, кто интересуются бутстрепом.

6. Statistics in a Nutshell, Sarah Boslaugh. Издательство O'Reilly.
Нашла ссылку только на первое издание https://theswissbay.ch/pdf/Gentoomen%20Library/Maths/Statistics/OReilly.Statistics.in.a.Nutshell.A.Desktop.Quick.Reference.Aug.2008.pdf
Есть перевод на русский, говорят неплохой, но находили неточности в переводе. Мне кажется именно эта книга должна быть мастхев для интересующихся и работающих со статистикой людей, потому что здесь есть баланс между простым языком изложения и в то же время не поверхностным.
Единственное, что вызвало у меня недоумение, это отсутствие главы про поправки на множественное тестирование вообще, хотя книга относительно новая. Зато здесь есть много других очень важных вещей, например принципы планирования исследования, анализ мощности стат тестов, работа с пропущенными значениями и тп. Сама планирую приобрести бумажную версию книги.

Курсы:
Здесь все просто, советую три курса по статистике на степике от Анатолия Карпова
https://stepik.org/course/76/syllabus
https://stepik.org/course/524/syllabus
https://stepik.org/course/2152/syllabus
курсы замечательные, именно с первой части курса я перестала бояться и начала осваивать статистику. Думаю, все и так про них наслышаны, я присоединяюсь к позитивным отзывам и рекомендациям.
Есть еще вот такой курс, Математическая статистика
https://stepik.org/course/326/syllabus
Это курс для продвинутых, я его пока не прошла, но когда-нибудь соберусь.

Пишите комментарии, что читали и проходили, понравилось или нет, а также добавляйте свои материалы!

#literature #base_stat #recommendation #stat_hard
👍181
Квартет Энскомба (Anscombe's) или важность визуализации данных перед началом анализа

Подготовила небольшую статью о таком любопытном наборе данных, который показывает что нужно опираться не только на средние-стандартные отклонения, но и точно знать, что происходит в данных, опираясь на визуализацию.
https://rpubs.com/lena_astr/958484

Бонусом список ссылок на книги и статьи по качественному представлению данных.
Попробовала сделать свой первый документ на quarto, пока полет нормальный, но почему-то на github pages слетело форматирование, поэтому пока залила на rpubs.
Конечно, не всегда можно так легко отразить на одном или нескольких графиках, что происходит в данных. Так что о способах визуализировать многомерные данные, например данные экспрессии генов, поговорим в следующий раз.

#R #base_stat
👍22
Пределы погрешностей: что это, зачем использовать и как интерпретировать?

Продолжаем тему базовой статистики (кстати базовой не значит простой). Рада представить разбор видов error bar, их различий и правильной интерпретации:

https://ubogoeva.github.io/R4Analytics/posts/types_of_error_bars.html

Тема оказалась сложнее, чем я рассчитывала, например, я сама не знала что пределы погрешностей существуют двух принципиально разных типов. Но думаю получилось интересно, по крайней мере мне точно было интересно писать. В этот раз сверстала в Rmd файл, с quarto пока не разобралась, почему на github pages размещается некрасиво.
Бонусом альтернативные способы визуализации данных. Прикрепляю еще небольшой тизер к посту, очень нравится получившаяся картинка.

Пишите комментарии, какие виды error bar используете для представления своих данных, сталкивались ли с их неправильной интерпретацией и понравились ли предложенные способы визуализации?

#base_stat #R #ggplot2 #data_vis
🔥22👍8🐳51
Новое видео про описательные статистики 📊

Я после перерыва выпустила первое видео из серии статистики, посмотреть его можно здесь. К сожалению не успела на этих выходных записать продолжение, но чуть позже должна найти время на запись. Немного непривычен формат коротких лекций без общения с аудиторией, психологически проще рассказывать кому-то и в менее сжатой форме. Для ютуб-формата нужно делать материал более концентрированным с четкими границами тем. Думаю, это более удобно для слушателя, но сложнее для лектора.

А какой формат для восприятия более удобен и привычен вам? Короткие 10-15 минутные видео по одной теме или полуторачасовые лекции на более широкий спектр тем? Пишите в комментарии или ставьте реакции: ✍️ за длинные лекции, 👀 за более короткий ютуб-формат.

#stats #base_stat
41🔥20👀1211👍6
Задачка по DnD и терверу 🎲

Задачу увидела у друзей, но паттерн совпадает с теми задачами, которые мне встречались на собеседованиях.

Условие звучит так:
У нас есть проверка со сложностью 15. Что выгоднее, иметь преимущество или прибавку +4?

Расшифровка: кидаем кубик д20 (значения на кубике от 1 до 20), если выпало число 15 или больше, значит, прошли проверку.
Преимущество — выбираем лучший результат из бросков двух кубиков.
Прибавка +4 — бросаем один кубик и прибавляем 4 к выпавшему значению.

Пишите свои варианты решений и ответов в комментарии (можно прятать под спойлеры), завтра опубликую свое.

Для тех, кому задача покажется слишком простой, предлагаю еще подумать над тем, может ли измениться ситуация в зависимости от сложности проверки (например, при сложности 10, будет ли отличаться ответ) и если существует закономерность, то какая.

На собеседованиях я не сталкивалась с задачами на кубик д20, но были очень похожие про обычный кубик с шестью гранями.

И немного про механику проверок:

В DnD персонажи проходят различные проверки — на внимательность, магию и тд. В зависимости от выбранных характеристик персонажа, у них существуют прибавки к значениям, выпавшим на кубике. Также, в зависимости от ситуации (и от характеристик персонажа) бывает преимущество (выбрать лучшее значение из бросков двух кубиков) или помеха (выбрать худшее значение из бросков двух кубиков). И вот мои друзья задумались, что лучше выбрать, и зависит ли это от сложности проверки.


#base_stat #stat_fun #probability_theory
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍20🤔8🔥5❤‍🔥31
Долгожданный разбор курса “Основы статистики” на степике

Итак, это свершилось, я наконец-то дописала разбор и опубликовала его здесь

https://ubogoeva.github.io/R4Analytics/posts/review_of_statistics_course.html

Немного контекста: в качестве вводного курса по статистике часто рекомендуют курс “Основы статистики” Анатолия Карпова на степике. Однако многие считают, что курс устарел и содержит много неточностей и ошибок, и я решила подробно разобрать, какие именно.
Постаралась следовать формату “критикуешь - предлагай” и самостоятельно раскрыть темы, которые были недостаточно объяснены в курсе, дополнив их источниками для дальнейшего изучения.

В конце разбора предлагаю свой список рекомендованных источников для изучения статистики на любой уровень подготовки.

В вычитке и корректировке формулировок финальной версии мне очень помог крутой статистик Матвей Славенко (рекомендую подписаться на его канал душно про дату).

#base_stat #stats
6🔥113👍16👌6❤‍🔥54🎉3
Правильный ответ на вопрос про боксплот: нет правильного ответа

Мнения в опросе разделились, побеждает ответ про максимальные и минимальные значения в пределах 1.5 IQR, а также довольно популярным оказался ответ про верхний и нижний квартили (на момент написания поста 31% и 19%, соответственно).

Однако я сама проголосовала за отсутствие однозначного ответа, так как в боксплоте могут быть разные настройки усов, поэтому нужно всегда подписывать, что означает ваш боксплот и читать обозначения. В большинстве случаев дефолтный боксплот будет действительно с наблюдаемым максимальным и минимальным значением от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты.
В комментариях к опросу их обсудили, выношу их сюда в пост.

- Минимум и максимум: довольно часто встречаются боксплоты, где усы обозначают максимум и минимум, даже в статье Variations of Box Plots он именно такой (спасибо Максиму Кузнецову @bqmaks за ссылку на статью).
- 10% и 90% данных: в FastQC, биоинформатическом туле для контроля качества секвенирования, усы боксплотов обозначают 10% и 90% данных, цитата из документации:
The upper and lower whiskers represent the 10% and 90% points

Пример боксплотов оттуда на прикрепленной картинке

- Верхний и нижний квартили обычно обозначают сам ящик, а не усы, возможно популярность этого варианта объясняется тем, что люди невнимательно прочитали вопрос
- Все остальные варианты. Как было подмечено в комментариях, при желании в боксплоте можно настроить все что угодно, даже стандартное отклонение и доверительные интервалы, что конечно не рекомендуется делать.

На картинке к опросу боксплот соответствовал самому дефолтному варианту с 1.5 IQR, код для построения был такой:

library(tidyverse)
library(palmerpenguins)

penguins %>%
filter(species == 'Gentoo') %>%
ggplot(aes(species, bill_length_mm))+
geom_boxplot()+
theme_minimal()


Таким образом, наиболее близким к правильному ответу будет вариант, что усы боксплота соответствуют наблюдаемым максимальным и минимальным значениям от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты, поэтому всегда нужно подписывать и проверять подписи ✍️

P.S. приходите 20 мая на лекцию по визуализации данных: https://bioinf.me/stat_myths

#base_stat
5🔥31👍1474