Всем привет! Я завел уютный блог DataWondering.com, чтобы постить статьи про DS/ML/HealthTech и прочие любопытные для меня вещи.
Этот канал — русскоязычное продолжение блога, куда я в дополнение буду кидать материалы из моих курсов, лекции, статьи и рандомные заметки :)
Несколько слов обо мне (@dmitryserg):
▫️ Меня зовут Дима и я руковожу европейской Data Science командой в компании ŌURA, которая выпускает умные кольца
▫️ В HealthTech работаю c 2019-го, хотя начинал свою карьеру в геймдеве, что было крайне весело и полезно для развития навыков
▫️ Здесь [ссылка на запись] можно послушать, как я рассказывал про Data Science в HealthTech на ФКН ВШЭ (спасибо @Ppilif за приглашение)
▫️ А здесь [ссылка на запись] про Data Science в геймдеве
▫️ Я очень люблю заниматься нестандартными и иногда трешовыми исследованиями, особенно на открытых данных: [Анализ стенограмм Госдумы], [Предсказание распространения ковида], [Парсинг мемов в питоне]
▫️ Последние 10 лет активно преподаю в разных местах, от приглашенных лекций в разных универах, до собственных онлайн курсов и специализаций. Некоторые материалы периодически выкладываю в открытый доступ, например, здесь [ссылка на гитхаб] можно найти несколько открытых уроков из моей Data Science специализации в OTUS, а здесь [ссылка на медиум] лежит мой лонгрид по временным рядам из открытого курса по машинному обучению от ODS.ai
И еще немного ссылок:
▫️ [GitHub]
▫️ [LinkedIn]
▫️ [Medium]
Этот канал — русскоязычное продолжение блога, куда я в дополнение буду кидать материалы из моих курсов, лекции, статьи и рандомные заметки :)
Несколько слов обо мне (@dmitryserg):
▫️ Меня зовут Дима и я руковожу европейской Data Science командой в компании ŌURA, которая выпускает умные кольца
▫️ В HealthTech работаю c 2019-го, хотя начинал свою карьеру в геймдеве, что было крайне весело и полезно для развития навыков
▫️ Здесь [ссылка на запись] можно послушать, как я рассказывал про Data Science в HealthTech на ФКН ВШЭ (спасибо @Ppilif за приглашение)
▫️ А здесь [ссылка на запись] про Data Science в геймдеве
▫️ Я очень люблю заниматься нестандартными и иногда трешовыми исследованиями, особенно на открытых данных: [Анализ стенограмм Госдумы], [Предсказание распространения ковида], [Парсинг мемов в питоне]
▫️ Последние 10 лет активно преподаю в разных местах, от приглашенных лекций в разных универах, до собственных онлайн курсов и специализаций. Некоторые материалы периодически выкладываю в открытый доступ, например, здесь [ссылка на гитхаб] можно найти несколько открытых уроков из моей Data Science специализации в OTUS, а здесь [ссылка на медиум] лежит мой лонгрид по временным рядам из открытого курса по машинному обучению от ODS.ai
И еще немного ссылок:
▫️ [GitHub]
▫️ [LinkedIn]
▫️ [Medium]
❤10🔥2🤝1
Data Wondering pinned «Всем привет! Я завел уютный блог DataWondering.com, чтобы постить статьи про DS/ML/HealthTech и прочие любопытные для меня вещи. Этот канал — русскоязычное продолжение блога, куда я в дополнение буду кидать материалы из моих курсов, лекции, статьи и рандомные…»
But where is everybody?
Первая статья, которую я написал для блога, не связана напрямую с анализом данных или машинным обучением, хотя и использует открытые данные.
Идея появилась, когда я прочитал трилогию Лю Цысиня “Remembrance of Earth’s Past”, гораздо более известную по названию первой книги серии: “The Three-Body Problem” или “Задача трех тел”. Крайне рекомендую эти книги всем, кто любит суровую научную фантастику. Читается на одном дыхании и оставляет приятное послевкусие экзистенциального ужаса.
Во второй книге серии, “The Dark Forest”, подробно разбирается одно из самых захватывающих объяснений парадокса Ферми — теория Темного Леса. Согласно теории, самое лучшее, что может сделать космическая цивилизация для своей безопасности — это молчать.
Мне стало интересно проверить при помощи теории игр, действительно ли эта стратегия такая уж выигрышная, если принять предпосылки, предложенные в книге? Неужели внеземные цивлизации не могут быть такими же дружелюбными и добрососедствующими, как наш замечательный N=1 земной пример? Можно ли оценить, насколько мы уже обречены из-за нашего неосторожного обращения с радио и посланиями в космос? И кто подставил кролика Роджера?
Ответы на эти и на многие другие вопросы вы узнаете в мой статье: Where be the Aliens? Game Theory, Dark Forest, and Earth’s Survival
P.S. Адаптация The Three-Body Problem от Netflix, как обычно, не очень. Лучше сначала прочитать книги.
Первая статья, которую я написал для блога, не связана напрямую с анализом данных или машинным обучением, хотя и использует открытые данные.
Идея появилась, когда я прочитал трилогию Лю Цысиня “Remembrance of Earth’s Past”, гораздо более известную по названию первой книги серии: “The Three-Body Problem” или “Задача трех тел”. Крайне рекомендую эти книги всем, кто любит суровую научную фантастику. Читается на одном дыхании и оставляет приятное послевкусие экзистенциального ужаса.
Во второй книге серии, “The Dark Forest”, подробно разбирается одно из самых захватывающих объяснений парадокса Ферми — теория Темного Леса. Согласно теории, самое лучшее, что может сделать космическая цивилизация для своей безопасности — это молчать.
Мне стало интересно проверить при помощи теории игр, действительно ли эта стратегия такая уж выигрышная, если принять предпосылки, предложенные в книге? Неужели внеземные цивлизации не могут быть такими же дружелюбными и добрососедствующими, как наш замечательный N=1 земной пример? Можно ли оценить, насколько мы уже обречены из-за нашего неосторожного обращения с радио и посланиями в космос? И кто подставил кролика Роджера?
Ответы на эти и на многие другие вопросы вы узнаете в мой статье: Where be the Aliens? Game Theory, Dark Forest, and Earth’s Survival
P.S. Адаптация The Three-Body Problem от Netflix, как обычно, не очень. Лучше сначала прочитать книги.
🔥11❤8👏3❤🔥1👍1🥰1💊1
Вдогонку к прошедшему дню знаний
После трехлетнего перерыва наконец-то возвращаюсь к активному преподаванию. Очень скучал по этому делу и вот наконец-то снова появилось время, чтобы перестать перебиваться приглашенными лекциями и заняться новым полноценным курсом. Преподавать буду снова в Отусе, который я люблю и уважаю. На этот раз курс полностью посвящен управлению ML/DS командой.
Буду много рассказывать про построение адекватных процессов (а не очередной agile ради agile), что работает для дата сайентистов, а что нет, как заниматься наймом и развитием команды, что такое MLOps, AI Governance и многое другое. Все это будет обильно сдобрено примерами из компаний разного масштаба и зрелости — от стартапов в несколько человек, в которых мне довелось работать или консультировать, до контор побольше вроде Oura и Rovio.
Как и на предыдущих моих курсах, постараюсь проводить много открытых уроков и выкладывать часть материалов в открытый доступ на гитхабе. Все это можно будет найти по ссылке https://github.com/DmitrySerg/otus-public :)
После трехлетнего перерыва наконец-то возвращаюсь к активному преподаванию. Очень скучал по этому делу и вот наконец-то снова появилось время, чтобы перестать перебиваться приглашенными лекциями и заняться новым полноценным курсом. Преподавать буду снова в Отусе, который я люблю и уважаю. На этот раз курс полностью посвящен управлению ML/DS командой.
Буду много рассказывать про построение адекватных процессов (а не очередной agile ради agile), что работает для дата сайентистов, а что нет, как заниматься наймом и развитием команды, что такое MLOps, AI Governance и многое другое. Все это будет обильно сдобрено примерами из компаний разного масштаба и зрелости — от стартапов в несколько человек, в которых мне довелось работать или консультировать, до контор побольше вроде Oura и Rovio.
Как и на предыдущих моих курсах, постараюсь проводить много открытых уроков и выкладывать часть материалов в открытый доступ на гитхабе. Все это можно будет найти по ссылке https://github.com/DmitrySerg/otus-public :)
❤7👍6🔥1
Recipe for Disaster: Modeling Viral Infection Spread in Python
В далеком январе 2020-го года я смотрел стримы людей, сидящих на карантине в Китае. Тогда все это выглядело довольно сюрреалистично — какой-то никому неизвестный новый вирус распространяется в городах, про которые я до этого никогда не слышал.
Про эпидемиологию я тоже знал чуть меньше, чем ничего, но мне захотелось посмотреть, можно ли смоделировать распространение вируса, используя только открытые данные? Уже к концу февраля все было готово и я даже успел рассказать про свое исследование на последнем (на тот момент) очном OpenDataDay в Москве перед тем, как и сам оказался в локдауне.
Сейчас наконец-то дошел до написания статьи, так что если вам интересно посмотреть на использование открытых данных, эпидемиологических моделей, графов и симуляций в питоне (с очень красивыми картинками), то добро пожаловать под кат: Recipe for Disaster: Modeling Viral Infection Spread in Python
В далеком январе 2020-го года я смотрел стримы людей, сидящих на карантине в Китае. Тогда все это выглядело довольно сюрреалистично — какой-то никому неизвестный новый вирус распространяется в городах, про которые я до этого никогда не слышал.
Про эпидемиологию я тоже знал чуть меньше, чем ничего, но мне захотелось посмотреть, можно ли смоделировать распространение вируса, используя только открытые данные? Уже к концу февраля все было готово и я даже успел рассказать про свое исследование на последнем (на тот момент) очном OpenDataDay в Москве перед тем, как и сам оказался в локдауне.
Сейчас наконец-то дошел до написания статьи, так что если вам интересно посмотреть на использование открытых данных, эпидемиологических моделей, графов и симуляций в питоне (с очень красивыми картинками), то добро пожаловать под кат: Recipe for Disaster: Modeling Viral Infection Spread in Python
❤10👏3
#HealthTech
Очень люблю смотреть презентации Apple. Во-первых — до чего же красиво. Во вторых — периодически рассказывают про новые фичи для здоровья, а это всегда интересно. В Apple проводят масштабные лонгитюдные исследования в партнерстве с ведущими медицинскими институтами, так что наборы данных и модели получаются очень привлекательными.
В этот раз особенно понравился анонс детектирования Sleep Apnea (апноэ во сне). Остановка дыхания во сне — это довольно неприятная штука, которая может привести к разным сердечно-сосудистым осложнениям, повышает риски деменции и даже диабета. А самое грустное — в большинстве случаев нарушение остается не диагностированным, даже несмотря на то, что около 1 миллиарда людей ему подвержены.
Стандартный, но не очень точный, метод диагностики апноэ — это провести ночь в компании с пульсоксиметром. Но из-за того, что эпизоды остановки дыхания могут быть очень короткими, насыщенность кислородом крови не всегда падает в достаточной для детектирования степени. Гораздо более точный метод — полная полисомнография, но это вообще удовольствие для избранных, про которое как-нибудь расскажу в другой раз.
Apple решили пойти другим путем. Вместо того, чтобы пытаться задетектировать одиночные случаи остановки дыхания, они запилили долгосрочные 30-дневные оценки. Но самое необычное — это входные данные. Если верить анонсу, они умудрились сделать модель, которая работает на простом акселерометре.
> Breathing Disturbances is an innovative new Apple Watch metric that uses the accelerometer to detect small movements at the wrist associated with interruptions to normal respiratory patterns during sleep.
Довольно необычный выбор, учитывая то, что у Apple Watch есть собственные пульсоксиметр и, казалось бы, для детекции остановки дыхания было бы крайне полезно следить за…дыханием?
Почему же Apple не использовали свой SpO2 сенсор, который они так активно рекламировали? А потому что они до сих пор судятся с другой калифорнийской компанией Masimo, которая запатентовала неинвазивные технологии пульсоксиметрии. С одной стороны — опять патенты встают на пути исследований, с другой — круто, что получилось построить алгоритм на данных от самого простого и доступного сенсора.
Теперь буду ждать независимой валидации алгоритмов, очень интересно узнать, как там дела с false positive rate :)
Очень люблю смотреть презентации Apple. Во-первых — до чего же красиво. Во вторых — периодически рассказывают про новые фичи для здоровья, а это всегда интересно. В Apple проводят масштабные лонгитюдные исследования в партнерстве с ведущими медицинскими институтами, так что наборы данных и модели получаются очень привлекательными.
В этот раз особенно понравился анонс детектирования Sleep Apnea (апноэ во сне). Остановка дыхания во сне — это довольно неприятная штука, которая может привести к разным сердечно-сосудистым осложнениям, повышает риски деменции и даже диабета. А самое грустное — в большинстве случаев нарушение остается не диагностированным, даже несмотря на то, что около 1 миллиарда людей ему подвержены.
Стандартный, но не очень точный, метод диагностики апноэ — это провести ночь в компании с пульсоксиметром. Но из-за того, что эпизоды остановки дыхания могут быть очень короткими, насыщенность кислородом крови не всегда падает в достаточной для детектирования степени. Гораздо более точный метод — полная полисомнография, но это вообще удовольствие для избранных, про которое как-нибудь расскажу в другой раз.
Apple решили пойти другим путем. Вместо того, чтобы пытаться задетектировать одиночные случаи остановки дыхания, они запилили долгосрочные 30-дневные оценки. Но самое необычное — это входные данные. Если верить анонсу, они умудрились сделать модель, которая работает на простом акселерометре.
> Breathing Disturbances is an innovative new Apple Watch metric that uses the accelerometer to detect small movements at the wrist associated with interruptions to normal respiratory patterns during sleep.
Довольно необычный выбор, учитывая то, что у Apple Watch есть собственные пульсоксиметр и, казалось бы, для детекции остановки дыхания было бы крайне полезно следить за…дыханием?
Почему же Apple не использовали свой SpO2 сенсор, который они так активно рекламировали? А потому что они до сих пор судятся с другой калифорнийской компанией Masimo, которая запатентовала неинвазивные технологии пульсоксиметрии. С одной стороны — опять патенты встают на пути исследований, с другой — круто, что получилось построить алгоритм на данных от самого простого и доступного сенсора.
Теперь буду ждать независимой валидации алгоритмов, очень интересно узнать, как там дела с false positive rate :)
Apple Newsroom (Suomi)
Apple introduces groundbreaking health features
Apple today unveiled breakthrough health features coming to Apple Watch and AirPods Pro 2 to help users better manage their sleep and hearing health.
👍11🔥4🤔2
Про источники данных
Впервые попробовал отправить статью в TowardsDataScience, самый большой и популярный DS/ML хаб на медиуме. Довольно ожидаемо развернули даже без конкретного указания причин, но подозреваю (или тешу себя) тем, что это из-за использованных мной данных.
Я всегда очень не любил брать готовые датасеты для своих пет-проектов. Раз данные уже готовы и доступны, то, как минимум, не я один догадался их пощупать, а как максимум, уже есть yet-another-kaggle-notebook с точно таким же исследованием. Никакой новизны и интереса. Другое дело — собрать датку самостоятельно, чтобы гарантированно свежее и нетроганное.
Поэтому бОльшая часть всего, что я делаю в свое удовольствие, так или иначе начинается со сбора данных. Иногда через API, но гораздо чаще через парсинг сайтов. Мы с моим другом Филей даже как-то написали целый туториал по этому делу на хабре.
В целом, парсинг — абсолютно легальное действие с точки зрения законодательств и Штатов, и Европы, особенно если парсить осторожно и без персональных данных. Но есть нюанс. Собранные таким образом данные в 99.9% случаев нельзя использовать в коммерческих целях. И вот здесь я и напоролся на гайдлайны TowardsDataScience, которые я конечно же прочитал только после того, как пришел отказ:
> TDS is a commercial publication hosted on Medium, a commercial entity. So before submitting your article to us, please verify your dataset is licensed for commercial use, or obtain written permission to use it.
Так что буду продолжать пилить для некоммерческого использования. Да и как еще можно построить модельки по рынку проституции в Москве или проанализировать, что пишут в комментах ВК кандидатам в президенты, если не собирать эти данные самому? Кстати, к последнему совершенно никаких претензий не было у Springer, спокойно опубликовали.
#OpenData
Впервые попробовал отправить статью в TowardsDataScience, самый большой и популярный DS/ML хаб на медиуме. Довольно ожидаемо развернули даже без конкретного указания причин, но подозреваю (или тешу себя) тем, что это из-за использованных мной данных.
Я всегда очень не любил брать готовые датасеты для своих пет-проектов. Раз данные уже готовы и доступны, то, как минимум, не я один догадался их пощупать, а как максимум, уже есть yet-another-kaggle-notebook с точно таким же исследованием. Никакой новизны и интереса. Другое дело — собрать датку самостоятельно, чтобы гарантированно свежее и нетроганное.
Поэтому бОльшая часть всего, что я делаю в свое удовольствие, так или иначе начинается со сбора данных. Иногда через API, но гораздо чаще через парсинг сайтов. Мы с моим другом Филей даже как-то написали целый туториал по этому делу на хабре.
В целом, парсинг — абсолютно легальное действие с точки зрения законодательств и Штатов, и Европы, особенно если парсить осторожно и без персональных данных. Но есть нюанс. Собранные таким образом данные в 99.9% случаев нельзя использовать в коммерческих целях. И вот здесь я и напоролся на гайдлайны TowardsDataScience, которые я конечно же прочитал только после того, как пришел отказ:
> TDS is a commercial publication hosted on Medium, a commercial entity. So before submitting your article to us, please verify your dataset is licensed for commercial use, or obtain written permission to use it.
Так что буду продолжать пилить для некоммерческого использования. Да и как еще можно построить модельки по рынку проституции в Москве или проанализировать, что пишут в комментах ВК кандидатам в президенты, если не собирать эти данные самому? Кстати, к последнему совершенно никаких претензий не было у Springer, спокойно опубликовали.
#OpenData
Telegram
Data Wondering
Recipe for Disaster: Modeling Viral Infection Spread in Python
В далеком январе 2020-го года я смотрел стримы людей, сидящих на карантине в Китае. Тогда все это выглядело довольно сюрреалистично — какой-то никому неизвестный новый вирус распространяется…
В далеком январе 2020-го года я смотрел стримы людей, сидящих на карантине в Китае. Тогда все это выглядело довольно сюрреалистично — какой-то никому неизвестный новый вирус распространяется…
1👍6🥰4
Последнее обновление Google Chrome внезапно перестало корректно подгружать страницу chatGPT. Наверное, готовят апдейт Gemini и добросовестно борются с конкурентами :)
1😁4🥰2
Про edge computing и простые алгоритмы
#HealthTech #ŌURA
💍 В Оуре на прошлой неделе было большое событие — мы выпустили уже четвертое по счету поколение кольца с новыми сенсорами, функциями и, конечно, моделями и алгоритмами.
Мне довелось поработать сразу над несколькими большими нововведениями: от Meals, где пользователи теперь могут трекать свои приемы пищи и анализировать регулярность питания, до Advisor — по моему скромному мнению крайне успешной интеграцией LLM в экосистему носимых устройств. Про эти проекты напишу в другой раз, когда они выйдут из нашей бета-программы ŌURA Labs в полноценный релиз.
А сейчас расскажу про самую значительную фичу, которой я занимался — Automatic Workout Heart Rate или AAD+HR.
💍 Сначала предыстория. Когда я начал работать в Оуре, мне больше всего понравилось, что кольцо, тогда еще второго поколения, крайне не требовательно к пользователю. Надел на палец, заряжаешь раз в неделю, и всё — данные пассивно собираются и обрабатываются. До этого я носил Apple Watch и меня очень напрягало, что нужно совершать очень много действий чтобы затрекать что-либо. Поэтому когда я разработал и запатентовал AAD (Automatic Activity Detection), который по данным акселерометра на кольце детектирует и классифицирует физическую активность, я старался создать самый незаметный и пассивный фитнес-трекер.
В результате получилась фича с каким-то фантастическим retention, просто потому, что пользователям не нужно постоянно жать на кнопки и все тренировки автоматически детектируются в течение дня.
💍 Спустя пару лет, другая команда выпустила Workout Heart Rate, чтобы измерять сердцебиение во время тренировок, используя новые сенсоры третьего поколения кольца. Но пользователям нужно было ручками зайти в приложение, выбрать вид спорта, подтвердить начало тренировки и потом еще не забыть его отключить. Из-за такого нетривиального количества действий (хотя это стандартный набор для Apple Watch), вовлечение и удержание оказалось в десятки раз меньше.
Уже тогда появилась идея объединить два продукта и сделать универсальный трекинг, который бы детектировал тренировку, классифицировал её, и еще бы сам включал и отключал измерение сердцебиения на кольце.
💍 Год назад до этого дошли руки и мы начали пилить прототип. Основная сложность заключалась в том, что если детектирование и распознавание активности может работать постфактум на телефоне или в облаке, когда данные из кольца синхронизируются с приложением, то для сердцебиения нужен алгоритм, который запускает и останавливает весь процесс прямо на кольце — тот самый edge computing.
Алгоритм должен уметь вовремя переключать LED-светодиоды на повышенную частоту семплирования, которая очень энергозатратна, и отключать её как только физическая активность прекращается. Получается задачка оптимизации — хотим запускать LED каждый раз, когда пользователи физически активны, но не включать их напрасно, чтобы не разряжать батарейку.
Перепробовав множество подходов, пришли к достаточно простому решению, чтобы влезть в ограничения по вычислительной мощности кольца. Finite State Machine отвечает за текущее состояние системы: покой, начало тренировки, активный сбор, остановка тренировки; а переходы между состояниями осуществляет натренированный Random Forest Classifier.
💍 Прелесть подхода в том, что весь ML после обучения вырождается в набор if-else условий, который легко затащить в Firmware кольца. Плюс легко настраивать чувствительность алгоритма, чтобы не жрал много батарейки, просто повышая или понижая probability threshold для предсказаний леса.
Итого получилось, что на кольце живет отдельная система, отвечающая за сбор данных в нужное время, а уже после синхронизации с телефоном подключаются тяжелые модельки для финальной обработки и предсказания активности.
Мораль истории — простые решения все еще работают🥂
#HealthTech #ŌURA
Мне довелось поработать сразу над несколькими большими нововведениями: от Meals, где пользователи теперь могут трекать свои приемы пищи и анализировать регулярность питания, до Advisor — по моему скромному мнению крайне успешной интеграцией LLM в экосистему носимых устройств. Про эти проекты напишу в другой раз, когда они выйдут из нашей бета-программы ŌURA Labs в полноценный релиз.
А сейчас расскажу про самую значительную фичу, которой я занимался — Automatic Workout Heart Rate или AAD+HR.
В результате получилась фича с каким-то фантастическим retention, просто потому, что пользователям не нужно постоянно жать на кнопки и все тренировки автоматически детектируются в течение дня.
Уже тогда появилась идея объединить два продукта и сделать универсальный трекинг, который бы детектировал тренировку, классифицировал её, и еще бы сам включал и отключал измерение сердцебиения на кольце.
Алгоритм должен уметь вовремя переключать LED-светодиоды на повышенную частоту семплирования, которая очень энергозатратна, и отключать её как только физическая активность прекращается. Получается задачка оптимизации — хотим запускать LED каждый раз, когда пользователи физически активны, но не включать их напрасно, чтобы не разряжать батарейку.
Перепробовав множество подходов, пришли к достаточно простому решению, чтобы влезть в ограничения по вычислительной мощности кольца. Finite State Machine отвечает за текущее состояние системы: покой, начало тренировки, активный сбор, остановка тренировки; а переходы между состояниями осуществляет натренированный Random Forest Classifier.
Итого получилось, что на кольце живет отдельная система, отвечающая за сбор данных в нужное время, а уже после синхронизации с телефоном подключаются тяжелые модельки для финальной обработки и предсказания активности.
Мораль истории — простые решения все еще работают
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥11❤7
Про визуализацию данных
#DataViz #HealthTech #ŌURA
В одном из недавних постов Оуры в инсте был любопытный график — сравнение точности классификации фаз сна между нашим кольцом иобычным порошком другими девайсами. Сравнение, бесспорно, в пользу Оуры. Нас недавно в очередной раз тестировали независимые институты и результаты кольца оказались самими близкими к медицинскому стандарту — полисомнографии.
Но сейчас не об этом. На графике с тремя столбцами (он же bar chart), в лучших традициях How To Lie with Statistics, самый маленький столбец визуально отличается от самого большого ровно в два раза. При том, что абсолютное отличие составляет всего 5.4%.
Если бы график строили по всем правилам, со значениями, начинающимися с нуля, то высота первого столбца была бы всего на ~7.5% больше последнего (что, конечно, не так эффективно продается).
Ту же самую информацию можно было бы преподнести корректнее и даже с таким же визуальным вау эффектом. Вместо абсолютных значений качества, взять отклонение от медицинского золотого стандарта — ручной разметки фаз сна. В среднем, когда исследователи вручную размечают PSG данные, коэффициент согласия составляет примерно 80% (то есть одни и те же сегменты/фазы сна специалисты могут разметить по-разному в 20% случаев):
Это означает, что гипотетический идеальный Sleep Staging алгоритм может достигнуть максимум 80% точности. Считаем от этого отклонения и получаем, что Oura всего в 3.7% от идеала, в то время как “Wearable 2” нужно добить 9.1% — визуально даже больше, чем двукратное преимущество у кольца.
Про качественные визуализации и грамотное построение графиков есть много годных книг, порекомендую вот эти (осталось только нашим SMM тоже их пролистать ):
📕 Storytelling with Data: A Data Visualization Guide for Business Professionals [тык]
📗 How Charts Lie: Getting Smarter about Visual Information [тык]
#DataViz #HealthTech #ŌURA
В одном из недавних постов Оуры в инсте был любопытный график — сравнение точности классификации фаз сна между нашим кольцом и
Но сейчас не об этом. На графике с тремя столбцами (он же bar chart), в лучших традициях How To Lie with Statistics, самый маленький столбец визуально отличается от самого большого ровно в два раза. При том, что абсолютное отличие составляет всего 5.4%.
Если бы график строили по всем правилам, со значениями, начинающимися с нуля, то высота первого столбца была бы всего на ~7.5% больше последнего (что, конечно, не так эффективно продается).
Ту же самую информацию можно было бы преподнести корректнее и даже с таким же визуальным вау эффектом. Вместо абсолютных значений качества, взять отклонение от медицинского золотого стандарта — ручной разметки фаз сна. В среднем, когда исследователи вручную размечают PSG данные, коэффициент согласия составляет примерно 80% (то есть одни и те же сегменты/фазы сна специалисты могут разметить по-разному в 20% случаев):
Overall, even the gold-standard PSG is subject to classification errors and inter-scorer differences. There is an average agreement of 80% between human scorers of PSG [source]
Это означает, что гипотетический идеальный Sleep Staging алгоритм может достигнуть максимум 80% точности. Считаем от этого отклонения и получаем, что Oura всего в 3.7% от идеала, в то время как “Wearable 2” нужно добить 9.1% — визуально даже больше, чем двукратное преимущество у кольца.
Про качественные визуализации и грамотное построение графиков есть много годных книг, порекомендую вот эти (
📕 Storytelling with Data: A Data Visualization Guide for Business Professionals [тык]
📗 How Charts Lie: Getting Smarter about Visual Information [тык]
❤12😁6👍4🔥2
Открытая лекция
#OTUS
Сегодня вечером в 20:00 по Москве буду рассказывать в Отусе про "Структуру и построение ML команды”. Расскажу, из кого состоит ML/DS команда и как её нормально строить, чтобы нормально было.
Приходите послушать, посмотреть на мемы, и поддержать лайком. Ссылка на мероприятие [тык]. За 5 минут до начала еще скину прямую ссылку на трансляцию.
#OTUS
Сегодня вечером в 20:00 по Москве буду рассказывать в Отусе про "Структуру и построение ML команды”. Расскажу, из кого состоит ML/DS команда и как её нормально строить, чтобы нормально было.
Приходите послушать, посмотреть на мемы, и поддержать лайком. Ссылка на мероприятие [тык]. За 5 минут до начала еще скину прямую ссылку на трансляцию.
🔥6❤4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8