человек наук
3.76K subscribers
380 photos
18 videos
270 links
Красота окружающего мира глазами учёного. По всем вопросам пишите @science_boy
Download Telegram
человек наук
Вы, возможно, видели визуализацию жизни в виде квадратов, обозначающих недели. Это удивительно компактно: даже 100 лет могут поместиться на листе бумаги. Кто-то печатает подобные листы и еженедельно закрашивает новый квадрат: говорят, мотивирует чем-то заниматься…
Сделал календарь жизни для России. Каждый квадрат – это одна неделя, каждая строчка – один год. Можно закрашивать по квадрату раз в неделю, чтобы наблюдать, где вы находитесь :)

Наблюдения, которые сделал, пока собирал данные:
• Россия гораздо более однородна в плане правил, чем США: большинство прав человек получает во время совершеннолетия
• Однако статистика рождаемости и продолжительности жизни довольно сильно варьирует по регионам. Например, средний возраст рождения первого ребёнка – 26 лет в среднем по стране и 23,4 года в Чечне
Мужчины живут удивительно мало. Их средняя продолжительность жизни – всего на 2,6 года больше пенсионного возраста! У женщин – почти на 18

Что ещё добавить на календарь? И что происходит с людьми от 30 до 60 лет?

#статистика
Ещё один интересный график. Это связь ВВП на душу населения и ожидаемой продолжительности жизни

Картина очень чёткая – чем богаче страна, тем дольше живёт её население. Но есть и интересные особенности:
• Горизонтальная шкала логарифмическая: изменение на одно деление означает увеличение ВВП в 2 раза. Каждый следующий шаг сделать в 2 раза сложнее
• Кажется, что на уровне 80-85 лет пока достигается потолок. Это особенно сильно чувствуется на линейной оси (в комментариях) и видно, если посмотреть траектории по времени. Скорее всего, это объясняется тем, что в этом возрасте люди сталкиваются с болезнями, которые человечество пока не научилось эффективно лечить: рак, сердечно-сосудистые и нейродегенеративные заболевания

Ещё было бы интересно понять, чем отличаются страны с похожим ВВП на душу населения. Почему в России живут почти на 10 лет меньше, чем в Греции, Чили и Хорватии, и на одном уровне с бедной Молдовой? Почему в богатых Брунее и Саудовской Аравии живут меньше, чем в Японии и Израиле?

#статистика
В комментариях к посту про связь экономики страны и длительности жизни писали, что корреляции не всегда означают причинно-следственную связь. Это очень важная тема и частая ошибка в медиа и культуре (писал о ней здесь). Но как же понять, где есть связь, а где случайность?

У науки есть на это ответ – рандомизированные исследования. В группе изменяется один признак и исследуется, поменяется ли другой. Простой пример – клинические испытания. Понять, правда ли лекарство помогает при болезни можно, дав случайной подгруппе пациентов плацебо

Но это работает не всегда. Вот забавный пример: на уровне стран есть довольно сильная корреляция потребления шоколада (с поправкой на величину населения) и количества нобелевских лауреатов. Где едят больше шоколада – получают больше Нобелевских премий

Почему это так – совершенно непонятно. Как проверить причинность – тоже: как провести рандомизированное (желательно слепое) исследование для целых стран? На тему этого примера написан не один десяток научных статей

#статистика
К статистике, особенно "официальной" всегда много вопросов. Собирать данные очень сложно, это не всегда делается корректно, а порой и намеренно фальсифицируется. Тем не менее, при большом количестве данных внезапно бывает кристально ясно видно интересные эффекты и тренды, несмотря на шум

Буквально сегодня вышла статья (пока – препринт) о избыточной смертности у мужчин в России в 2022 году. Мужчины в целом умирают от сторонних причин удивительно активно: смертность исторически была выше, чем у женщин, в 3,2-3,6 раз. Однако, этот тренд постепенно снижался. Но в 2022 году внезапно что-то случилось и произошёл скачок до 3,8 (красная точка), хотя тренд по доковидным данным предсказывал значение ниже 3,1. В абсолютном выражении это даёт около 20 тысяч смертей, которых без этого скачка могло бы не быть

В комментариях есть график по возрастным группам. Тренд ломается только для мужчин до 49 лет, особенно резко – в группах 20-29 лет

#статистика
А вот как выглядит связь потребления кофе и часов сфокусированной работы. До 2 чашек чем больше я пью кофе, тем больше обычно работаю, но на 3 зависимость внезапно ломается и лишь самый продуктивный день дотягивает до медианного с двумя чашками кофе

Оставлю вам на подумать, почему это так, а пока расскажу историю. Во время учёбы нам давали набор данных пациентов с сердечно-сосудистыми заболеваниями. В нём наблюдалась интересная закономерность: некурящие люди чаще страдали тяжёлыми стадиями, а курящие чаще оказывались здоровыми

Что же получается, надо курить и болезни обойдут вас стороной? Нет, дело в другом. Люди с тяжёлыми состояниями получают больше рекомендаций от докторов: в том числе бросить курить. А здоровые могут вдоволь покупать сигареты, пока у них нет серьёзных заболеваний

Не забывайте: статистическая связь не означает причинную

#статистика #байки
человек наук
Забавная опечатка в препринте. Что бы вы предпочли, рано умереть здоровым или долго жить, но болеть?
Кажется, нужны пояснения, потому что ошибок тут хватает. Этот график* – пример кривой выживания, очень частой иллюстрации в медицинских статьях. По горизонтальной оси отложено время, а по вертикальной – процент пациентов, доживших до этого времени (обычно после начала заболевания или постановки диагноза). Разные кривые и цвета обозначают группы людей. Например, для лёгкой тяжести кривая была бы сверху: пациенты живут долго, а для групп с тяжёлыми стадиями кривая бы быстро падала вниз

Здесь группы всего две: больные и здоровые. Вот только авторы перепутали надписи местами, поэтому здоровые у них стремительно умирают, а больные – долго (но счастливо ли?) живут. Возвращаем рубрику с плохими графиками?

*Корректнее сказать, что это схема, потому что за ней не стоит никаких данных: авторы просто изобразили концепт

#статистика
Когда я учился в Институте биоинформатики, в домашних заданиях по статистике встречались курьёзные распределения необычной формы. Они были созданы преподавателем искусственно, чтобы подсветить особенности разных методов. Я как-то заметил, что было бы странно увидеть такое в реальных данных, а преподаватель ответил, что всякое бывает

За время работы я насмотрелся на этакое всякое сполна. Реальные данные бывают страннее, чем может придумать любой преподаватель. Вот пример распределения площади жилья во Франции построенного в 2010 году. Угадайте, с какого количества квадратных метров закон обязует нанимать лицензированного архитектора для построения плана?

Но самая неприятная ситуация – когда неизвестны объясняющие картину факты, а на руках только странные данные

#статистика
человек наук
Когда я учился в Институте биоинформатики, в домашних заданиях по статистике встречались курьёзные распределения необычной формы. Они были созданы преподавателем искусственно, чтобы подсветить особенности разных методов. Я как-то заметил, что было бы странно…
Распределение, которое показалось мне нереалистичным на занятии, выглядело как нормальное, но с периодическими пиками – неожиданно более частыми значениями. Как вы думаете, на что я недавно случайно наткнулся? Именно на такое распределение в реальных данных

Это характеристики девушек с сайта знакомств. На фоне угадываются ожидаемые плавные распределения, но видны также пики на круглых значениях. Если с ростом и весом это ещё понятно: не все помнят их с точностью до единицы, то внезапная остановка возраста на 30 и 35 годах – настоящая научная загадка

Интересный момент для аналитиков: обратите внимание как размер шкалы влияет на подобное искажение данных. Если ошибка на 5-10 сантиметров – это в целом немного, то плюс-минус 5 килограммов – это уже значительно. Особенно если на этих данных базируется последующий анализ: скажем, выделение группы людей с нормальным индексом массы тела

Есть и другой пример подобного распределения, но довольно политический. Кидайте 🫡, если хотите его увидеть

#статистика
человек наук
Распределение, которое показалось мне нереалистичным на занятии, выглядело как нормальное, но с периодическими пиками – неожиданно более частыми значениями. Как вы думаете, на что я недавно случайно наткнулся? Именно на такое распределение в реальных данных…
По многочисленным просьбам, точёные пики Путина

Данные выборов во многих странах публикуются в открытый доступ, порой разжигая дискуссии. Конечно, ни один статистический метод не скажет, что выборы прошли неправильно: для этого нужны независимые наблюдатели. Но данные порой показывают закономерности, необъяснимые случайностью. Иногда, чтобы в них разобраться, не обойдёшься без хорошего образования (пример для заинтересованных). Но бывает и иначе

Вот визуализация официальных данных по результатам голосования о поправках к Конституции России. Первый график – распределение явок на участки, ниже – процент голосований „за“. Распределения начинаются вполне плавно, но затем появляются внезапные пики – в точности на круглых отметках в 70%, 75% и далее. На графике справа сверху, где каждая точка – это избирательный участок, видно даже вафельный рисунок

График справа снизу показывает степень аномалий на этих и предыдущих выборах. Найти ссылки на статьи по ним, а также все данные и источники можно здесь

#статистика
человек наук
Побывал на конференции исследователей лёгких. Один из докладов начинался со слов „Вы все, конечно, тысячу раз видели этот график“. Я видел его впервые, но он действительно интересный, поэтому решил поделиться и с вами Здесь изображены данные исследования…
В комментариях в ВК обратили внимание, что в исследовании была группа невосприимчивых к курению людей, у которых не развивалась ХОБЛ. Это правда, таких было целых 54%. Хотя на мой взгляд, вероятность практически 50/50 всё ещё звучит так себе. Как говорится, курить по пачке в день – тяжёлый путь, но разве нам нужны лёгкие?

Однако не забывайте, что курение приводит не только к ХОБЛ. Согласно большому исследованию факторов риска рака, курение – на первом месте по количеству лет качественной жизни, потерянных из-за развития опухолевых заболеваний. Помимо более очевидных раков лёгких, дыхательных путей и губ, оно также связано с онкологическими заболеваниями в желудочно-кишечном тракте и даже лейкемией

На этом графике ещё много интересного, оставлю на самостоятельное изучение :) Пишите в комментариях, что вам показалось любопытным

#медицина #статистика
человек наук
К статистике, особенно "официальной" всегда много вопросов. Собирать данные очень сложно, это не всегда делается корректно, а порой и намеренно фальсифицируется. Тем не менее, при большом количестве данных внезапно бывает кристально ясно видно интересные эффекты…
Пару дней назад в медиа была новость, что росстат почему-то решил закрыть для публики статистику смертей от внешних причин. Впрочем, авторы исследования пишут, что это не проблема: сотрудники росстата охотно поделились актуальными данными после запроса по почте. Необычайно высокая мужская смертность в 2023 году только усилилась: авторы оценивают количество избыточных смертей в 37860, больше 100 человек в день. Вместе с 2022 годом это даёт около 58500 смертей мужчин, которых не ожидалось по трендам в прошлом

#статистика
человек наук
А вот как выглядит связь потребления кофе и часов сфокусированной работы. До 2 чашек чем больше я пью кофе, тем больше обычно работаю, но на 3 зависимость внезапно ломается и лишь самый продуктивный день дотягивает до медианного с двумя чашками кофе Оставлю…
А вот такое встретилось в данных, с которыми работаю сейчас. По оси Х – возраст пациентов, по Y – оценка здоровья лёгких, измеренная как максимальный объем воздуха, который человек может выдохнуть за секунду. Лёгкие обычно с возрастом работают хуже, но в группе бывших курильщиков (former, оранжевые точки) закономерность обратная: чем старше человек, тем лучше функция лёгких. Ваши теории, почему это так? Принимаются только неправильные ответы

#статистика #медицина
человек наук
Математическая задачка! В статье по изучению клеток при хронической обструктивной болезни лёгких учёные-медики собирали данные от нескольких групп пациентов, по 3 человека в каждой. Возраст людей в группах они указали в формате M ± S, где M – среднее, а S…
В комментариях прозвучали правильные ответы. А теперь сюжетный поворот: авторы сделали опечатку. В первой группе средний возраст — 73 года. Вот уж действительно, в трёх соснах заблудились

Если у вас так мало наблюдений в группах, не надо по ним считать средние, отклонения, корреляции и натальные карты. Просто напишите все числа!

#статистика
Нашёл совершенно очаровательную книгу „What We Really Do All Day“ (Чем мы на самом деле занимаемся весь день). Оказывается, в Великобритании уже почти сто лет проводится исследование того как люди распределяют время в течение дня. Людям из тысяч семей выдают дневники, в которых нужно отмечать, чем они были заняты в конкретное время. Собирая такую информацию раз в 15 лет, учёные понимают тренды, по которым меняется общество

На графике – распределение времени по разным активностям в течение дня. Любопытно выглядят горбы в 1961 году и современности, показывающие сон, гигиену и еду (в самом низу каждого графика). В середине 20 века люди обедали и ужинали практически синхронно. Сегодня эти горбы почти ушли – британцы рассинхронизировались в приёмах пищи. Ещё люди стали проводить больше времени с детьми и меньше времени снаружи дома. А вот спать меньше не стали, вопреки популярному мнению о том как куча техники вокруг отвлекает от просмотра сновидений

#статистика #книги
Помнится, одной из причин покидаться ракетами для России была защита русского языка за пределами страны. Рассуждения об этичности такой политики оставим гуманитариям, а как технари мы можем посмотреть на данные, чтобы оценить её эффективность. Исследователи проанализировали 4 миллиона твитов от 62 тысяч пользователей X/твиттера из Украины. Популярность русского языка в них со временем падала, но в начале 2020 года количество постов на украинском в день было практически вдвое меньше. К 2022 году украинский стал чуть популярнее, а после – стал уверенно опережать русский

Не менее впечатляют тренды на уровне отдельных пользователей. Огромное количество тех, кто раньше писал преимущественно или только на русском языке, после февраля 2022 стало предпочитать украинский или писать исключительно на нём (изображения 5 и 6 в статье). Обратные случаи тоже есть, но их кратно меньше

Учитывая похожие тренды в других странах и сокращение населения России, с такими защитниками языка никаких врагов не надо

#статистика
человек наук
Бластим: называет меня в рекламе „гуру“ (не надо больше так, пожалуйста) Гуру: пытается нарисовать пример кластеризации, но получается… кхм, так себе В преддверии нового курса по ML в биологии проведу открытую лекцию. Тема – «Машинное обучение: когда статистики…
Запись лекции о том, почему мы любим статистику, когда её недостаточно и как машинное обучение приходит на помощь. Говорят, на рутубе тоже есть, но тут уж сами ищите, у меня от него травма

Слайды тоже доступны. Рекомендую всё же запись, иначе может сложиться впечатление, что я только ругаю статистику. Это не так: мы все её любим и используем. Но в презентации есть пара примеров, когда в погоне за p-value за открытие выдаётся статистически значимый, а практически – бесполезный результат. В машинном обучении благодаря совсем другому подходу к оценке результата такое выглядело бы смешно

Конечно, в машинном обучении тоже можно сделать лажу (прям как в том меме с граблями). Но об этом поговорим как-нибудь в другой раз

#видео #статистика
Сперва подумалось, что ИИ придумал информацию, слишком уж это хорошо звучало. Но прочитав затем обзор (кстати, после подкаста это делать значительно проще), оказалось, что кофе действительно чаще связывают с положительными эффектами на здоровье. Авторы проанализировали 201 мета-анализ наблюдательных исследований (когда у людей просто собирали статистику по выпитому кофе и здоровью) и 17 мета-анализов с рандомизированными исследованиями (когда участников разделённых случайным образом просили пить определённое количество кофе и смотрели как это изменяет их здоровье). Суммарно это данные по более чем миллиону людей изо всех частей света. Потребление кофе оказалось связано с:
☕️ Меньшим риском смерти от всех причин
☕️ Сниженным риском сердечно-сосудистых заболеваний и смерти от них
☕️ Меньшим риском различных раков
☕️ Сниженным риском диабета II типа
☕️ Пониженным риском заболеваний печени
☕️ Сниженным риском болезней Паркинсона и Альцгеймера, а также депрессии

Большая доза кофе как правило усиливала эти эффекты, но не далее 3-4 чашек в день

Негативные эффекты в основном касаются беременных: у них есть риск рождения ребёнка с меньшим весом и повышенный риск прерывания беременности. Также у потребляющих кофе женщин в целом наблюдалось больше переломов. В остальном авторы осторожно говорят, что кофе выглядит полезным, но призывают к дальнейшим исследованиям с лучшей рандомизацией

Так что получается, моё guilty pleasure всё это время было здоровым образом жизни?

#медицина #статистика
человек наук
Запись лекции о том, почему мы любим статистику, когда её недостаточно и как машинное обучение приходит на помощь. Говорят, на рутубе тоже есть, но тут уж сами ищите, у меня от него травма Слайды тоже доступны. Рекомендую всё же запись, иначе может сложиться…
В лекции я приводил несколько примеров, когда статистика формально даёт „значимый“ результат, позволяя делать выводы, но практически в этом очень мало пользы. Вот реальный случай из статьи. Меня зацепил заголовок, да и введение было интересно читать: авторы рассуждают об индивидуальной восприимчивости лекарств и как связать её с генетикой через так называемые „фармакогены“. При помощи анализа таких генов может получиться предсказывать ответ на лекарство у конкретного человека и улучшить терапию. „Наш анализ выявил множество интересных открытий“, – пишут авторы

Но затем я дочитал до иллюстрации и ужаснулся. „Открытия“, сделанные авторами, формально верны. Например, статистика говорит, что на графиках снизу линия, описывающая вариативность экспрессии фармакогенов между разными клетками и у разных людей, не горизонтальна. Но насколько такая связь практически значима?

Честь авторам за то, что они не стали прятать данные и показали основания выводов. Но статью читать я дальше не стал

#статистика@chelovek_nauk
Вот ещё один пример из лекции. Здесь авторы рассуждают об очень острой теме: предсказание интеллекта по генетике. Оценивают интеллект по успеваемости в школе: лучше какого процента учеников у человека были оценки

Нет одного гена, который предсказывал бы успеваемость, но авторы собирают несколько тысяч отличий в геномах в так называемую „полигенетическую оценку“. Такие оценки „могут привнести мощную конструкцию интеллекта в любую область наук о жизни“: пишут авторы. А ниже, – „Эти оценки могут предсказать 4% вариабельности интеллекта“

На этом моменте уже закрадываются подозрения: 4% объяснённой вариабельности не звучат как „мощная конструкция“. Но дальше становится только хуже. Продолжение в следующем посте, а пока можете посмотреть на чудесные иллюстрации достойные попадания в рубрику с ужасными графиками. В отличие от примера из предыдущего поста, здесь они не были показаны сразу, а оказались спрятаны в самом конце статьи

#статистика@chelovek_nauk #биология@chelovek_nauk
человек наук
Вот ещё один пример из лекции. Здесь авторы рассуждают об очень острой теме: предсказание интеллекта по генетике. Оценивают интеллект по успеваемости в школе: лучше какого процента учеников у человека были оценки Нет одного гена, который предсказывал бы успеваемость…
Что же не так в статье из предыдущего поста? Начать можно с графика слева. Сразу бросается в глаза отстутствие очевидной зависимости. Если бы оценка интеллекта по генотипу работала идеально, мы бы видели прямую линию до правого верхнего угла: чем больше предсказанный интеллект, тем больше настоящий. Вместо этого мы видим невнятную кляксу, немного повёрнутую вдоль желанной диагонали

Но ещё хуже становится, если взглянуть на оси. Почему после 0.1 идёт 2, а потом 15? Какое значение у точки между 75 и 98%? Может быть как 77, так и 95. Это даже не логарифмическая ось, это какое-то надругательство над визуализацией. А главное, совершенно непонятно – зачем, график всё равно не показывает никакую связь

Возникает вопрос: есть ли вообще смысл интерпретировать этот результат? В негативном смысле – да: по генотипу довольно плохо можно предсказать интеллект. Представьте, что доктор с прискорбным выражением лица говорит вам: „К сожалению, по полигенетической оценке ваш ребёнок будет учиться хуже 90% детей“. Как использовать эту информацию? Да никак: в среднем при таком результате вы бы ожидали, что он будет учиться лучше 15%, но он может превзойти и 99.9%. На втором графике видно, что топ 10% людей с самым высоким предсказанным интеллектом и 10% с самым низким очень сильно пересекаются по реальным оценкам в школе. Хотя чудесные оси опять же мешают понять, как это выглядит на самом деле

При всём этом авторы пишут: „полигенетические оценки полезны для индивидуального предсказания“. Каким образом? Я не понимаю

Проблема статистического подхода здесь в том, что он не оценивает предсказательную силу. Он проверяет, правда ли, что связь между предсказанными и настоящими оценками нулевая, и говорит, что такие данные маловероятны при нулевой связи. Но насколько связь сильная – уже неважно

#статистика@chelovek_nauk