человек наук
4.14K subscribers
413 photos
18 videos
297 links
Красота окружающего мира глазами учёного. По всем вопросам пишите @science_boy
Download Telegram
К статистике, особенно "официальной" всегда много вопросов. Собирать данные очень сложно, это не всегда делается корректно, а порой и намеренно фальсифицируется. Тем не менее, при большом количестве данных внезапно бывает кристально ясно видно интересные эффекты и тренды, несмотря на шум

Буквально сегодня вышла статья (пока – препринт) о избыточной смертности у мужчин в России в 2022 году. Мужчины в целом умирают от сторонних причин удивительно активно: смертность исторически была выше, чем у женщин, в 3,2-3,6 раз. Однако, этот тренд постепенно снижался. Но в 2022 году внезапно что-то случилось и произошёл скачок до 3,8 (красная точка), хотя тренд по доковидным данным предсказывал значение ниже 3,1. В абсолютном выражении это даёт около 20 тысяч смертей, которых без этого скачка могло бы не быть

В комментариях есть график по возрастным группам. Тренд ломается только для мужчин до 49 лет, особенно резко – в группах 20-29 лет

#статистика
А вот как выглядит связь потребления кофе и часов сфокусированной работы. До 2 чашек чем больше я пью кофе, тем больше обычно работаю, но на 3 зависимость внезапно ломается и лишь самый продуктивный день дотягивает до медианного с двумя чашками кофе

Оставлю вам на подумать, почему это так, а пока расскажу историю. Во время учёбы нам давали набор данных пациентов с сердечно-сосудистыми заболеваниями. В нём наблюдалась интересная закономерность: некурящие люди чаще страдали тяжёлыми стадиями, а курящие чаще оказывались здоровыми

Что же получается, надо курить и болезни обойдут вас стороной? Нет, дело в другом. Люди с тяжёлыми состояниями получают больше рекомендаций от докторов: в том числе бросить курить. А здоровые могут вдоволь покупать сигареты, пока у них нет серьёзных заболеваний

Не забывайте: статистическая связь не означает причинную

#статистика #байки
человек наук
Забавная опечатка в препринте. Что бы вы предпочли, рано умереть здоровым или долго жить, но болеть?
Кажется, нужны пояснения, потому что ошибок тут хватает. Этот график* – пример кривой выживания, очень частой иллюстрации в медицинских статьях. По горизонтальной оси отложено время, а по вертикальной – процент пациентов, доживших до этого времени (обычно после начала заболевания или постановки диагноза). Разные кривые и цвета обозначают группы людей. Например, для лёгкой тяжести кривая была бы сверху: пациенты живут долго, а для групп с тяжёлыми стадиями кривая бы быстро падала вниз

Здесь группы всего две: больные и здоровые. Вот только авторы перепутали надписи местами, поэтому здоровые у них стремительно умирают, а больные – долго (но счастливо ли?) живут. Возвращаем рубрику с плохими графиками?

*Корректнее сказать, что это схема, потому что за ней не стоит никаких данных: авторы просто изобразили концепт

#статистика
Когда я учился в Институте биоинформатики, в домашних заданиях по статистике встречались курьёзные распределения необычной формы. Они были созданы преподавателем искусственно, чтобы подсветить особенности разных методов. Я как-то заметил, что было бы странно увидеть такое в реальных данных, а преподаватель ответил, что всякое бывает

За время работы я насмотрелся на этакое всякое сполна. Реальные данные бывают страннее, чем может придумать любой преподаватель. Вот пример распределения площади жилья во Франции построенного в 2010 году. Угадайте, с какого количества квадратных метров закон обязует нанимать лицензированного архитектора для построения плана?

Но самая неприятная ситуация – когда неизвестны объясняющие картину факты, а на руках только странные данные

#статистика
человек наук
Когда я учился в Институте биоинформатики, в домашних заданиях по статистике встречались курьёзные распределения необычной формы. Они были созданы преподавателем искусственно, чтобы подсветить особенности разных методов. Я как-то заметил, что было бы странно…
Распределение, которое показалось мне нереалистичным на занятии, выглядело как нормальное, но с периодическими пиками – неожиданно более частыми значениями. Как вы думаете, на что я недавно случайно наткнулся? Именно на такое распределение в реальных данных

Это характеристики девушек с сайта знакомств. На фоне угадываются ожидаемые плавные распределения, но видны также пики на круглых значениях. Если с ростом и весом это ещё понятно: не все помнят их с точностью до единицы, то внезапная остановка возраста на 30 и 35 годах – настоящая научная загадка

Интересный момент для аналитиков: обратите внимание как размер шкалы влияет на подобное искажение данных. Если ошибка на 5-10 сантиметров – это в целом немного, то плюс-минус 5 килограммов – это уже значительно. Особенно если на этих данных базируется последующий анализ: скажем, выделение группы людей с нормальным индексом массы тела

Есть и другой пример подобного распределения, но довольно политический. Кидайте 🫡, если хотите его увидеть

#статистика
человек наук
Распределение, которое показалось мне нереалистичным на занятии, выглядело как нормальное, но с периодическими пиками – неожиданно более частыми значениями. Как вы думаете, на что я недавно случайно наткнулся? Именно на такое распределение в реальных данных…
По многочисленным просьбам, точёные пики Путина

Данные выборов во многих странах публикуются в открытый доступ, порой разжигая дискуссии. Конечно, ни один статистический метод не скажет, что выборы прошли неправильно: для этого нужны независимые наблюдатели. Но данные порой показывают закономерности, необъяснимые случайностью. Иногда, чтобы в них разобраться, не обойдёшься без хорошего образования (пример для заинтересованных). Но бывает и иначе

Вот визуализация официальных данных по результатам голосования о поправках к Конституции России. Первый график – распределение явок на участки, ниже – процент голосований „за“. Распределения начинаются вполне плавно, но затем появляются внезапные пики – в точности на круглых отметках в 70%, 75% и далее. На графике справа сверху, где каждая точка – это избирательный участок, видно даже вафельный рисунок

График справа снизу показывает степень аномалий на этих и предыдущих выборах. Найти ссылки на статьи по ним, а также все данные и источники можно здесь

#статистика
человек наук
Побывал на конференции исследователей лёгких. Один из докладов начинался со слов „Вы все, конечно, тысячу раз видели этот график“. Я видел его впервые, но он действительно интересный, поэтому решил поделиться и с вами Здесь изображены данные исследования…
В комментариях в ВК обратили внимание, что в исследовании была группа невосприимчивых к курению людей, у которых не развивалась ХОБЛ. Это правда, таких было целых 54%. Хотя на мой взгляд, вероятность практически 50/50 всё ещё звучит так себе. Как говорится, курить по пачке в день – тяжёлый путь, но разве нам нужны лёгкие?

Однако не забывайте, что курение приводит не только к ХОБЛ. Согласно большому исследованию факторов риска рака, курение – на первом месте по количеству лет качественной жизни, потерянных из-за развития опухолевых заболеваний. Помимо более очевидных раков лёгких, дыхательных путей и губ, оно также связано с онкологическими заболеваниями в желудочно-кишечном тракте и даже лейкемией

На этом графике ещё много интересного, оставлю на самостоятельное изучение :) Пишите в комментариях, что вам показалось любопытным

#медицина #статистика
человек наук
К статистике, особенно "официальной" всегда много вопросов. Собирать данные очень сложно, это не всегда делается корректно, а порой и намеренно фальсифицируется. Тем не менее, при большом количестве данных внезапно бывает кристально ясно видно интересные эффекты…
Пару дней назад в медиа была новость, что росстат почему-то решил закрыть для публики статистику смертей от внешних причин. Впрочем, авторы исследования пишут, что это не проблема: сотрудники росстата охотно поделились актуальными данными после запроса по почте. Необычайно высокая мужская смертность в 2023 году только усилилась: авторы оценивают количество избыточных смертей в 37860, больше 100 человек в день. Вместе с 2022 годом это даёт около 58500 смертей мужчин, которых не ожидалось по трендам в прошлом

#статистика
человек наук
А вот как выглядит связь потребления кофе и часов сфокусированной работы. До 2 чашек чем больше я пью кофе, тем больше обычно работаю, но на 3 зависимость внезапно ломается и лишь самый продуктивный день дотягивает до медианного с двумя чашками кофе Оставлю…
А вот такое встретилось в данных, с которыми работаю сейчас. По оси Х – возраст пациентов, по Y – оценка здоровья лёгких, измеренная как максимальный объем воздуха, который человек может выдохнуть за секунду. Лёгкие обычно с возрастом работают хуже, но в группе бывших курильщиков (former, оранжевые точки) закономерность обратная: чем старше человек, тем лучше функция лёгких. Ваши теории, почему это так? Принимаются только неправильные ответы

#статистика #медицина
человек наук
Математическая задачка! В статье по изучению клеток при хронической обструктивной болезни лёгких учёные-медики собирали данные от нескольких групп пациентов, по 3 человека в каждой. Возраст людей в группах они указали в формате M ± S, где M – среднее, а S…
В комментариях прозвучали правильные ответы. А теперь сюжетный поворот: авторы сделали опечатку. В первой группе средний возраст — 73 года. Вот уж действительно, в трёх соснах заблудились

Если у вас так мало наблюдений в группах, не надо по ним считать средние, отклонения, корреляции и натальные карты. Просто напишите все числа!

#статистика