Data Wondering
445 subscribers
49 photos
3 videos
44 links
A place where curiosity meets data. AI / DS / ML / HealthTech
Boost link: https://t.iss.one/data_wondering?boost
By @dmitryserg
Download Telegram
#HealthTech

Очень люблю смотреть презентации Apple. Во-первых — до чего же красиво. Во вторых — периодически рассказывают про новые фичи для здоровья, а это всегда интересно. В Apple проводят масштабные лонгитюдные исследования в партнерстве с ведущими медицинскими институтами, так что наборы данных и модели получаются очень привлекательными.

В этот раз особенно понравился анонс детектирования Sleep Apnea (апноэ во сне). Остановка дыхания во сне — это довольно неприятная штука, которая может привести к разным сердечно-сосудистым осложнениям, повышает риски деменции и даже диабета. А самое грустное — в большинстве случаев нарушение остается не диагностированным, даже несмотря на то, что около 1 миллиарда людей ему подвержены.

Стандартный, но не очень точный, метод диагностики апноэ — это провести ночь в компании с пульсоксиметром. Но из-за того, что эпизоды остановки дыхания могут быть очень короткими, насыщенность кислородом крови не всегда падает в достаточной для детектирования степени. Гораздо более точный метод — полная полисомнография, но это вообще удовольствие для избранных, про которое как-нибудь расскажу в другой раз.

Apple решили пойти другим путем. Вместо того, чтобы пытаться задетектировать одиночные случаи остановки дыхания, они запилили долгосрочные 30-дневные оценки. Но самое необычное — это входные данные. Если верить анонсу, они умудрились сделать модель, которая работает на простом акселерометре.

> Breathing Disturbances is an innovative new Apple Watch metric that uses the accelerometer to detect small movements at the wrist associated with interruptions to normal respiratory patterns during sleep. 

Довольно необычный выбор, учитывая то, что у Apple Watch есть собственные пульсоксиметр и, казалось бы, для детекции остановки дыхания было бы крайне полезно следить за…дыханием?

Почему же Apple не использовали свой SpO2 сенсор, который они так активно рекламировали? А потому что они до сих пор судятся с другой калифорнийской компанией Masimo, которая запатентовала неинвазивные технологии пульсоксиметрии. С одной стороны — опять патенты встают на пути исследований, с другой — круто, что получилось построить алгоритм на данных от самого простого и доступного сенсора.

Теперь буду ждать независимой валидации алгоритмов, очень интересно узнать, как там дела с false positive rate :)
👍11🔥4🤔2
Про источники данных

Впервые попробовал отправить статью в TowardsDataScience, самый большой и популярный DS/ML хаб на медиуме. Довольно ожидаемо развернули даже без конкретного указания причин, но подозреваю (или тешу себя) тем, что это из-за использованных мной данных.

Я всегда очень не любил брать готовые датасеты для своих пет-проектов. Раз данные уже готовы и доступны, то, как минимум, не я один догадался их пощупать, а как максимум, уже есть yet-another-kaggle-notebook с точно таким же исследованием. Никакой новизны и интереса. Другое дело — собрать датку самостоятельно, чтобы гарантированно свежее и нетроганное.

Поэтому бОльшая часть всего, что я делаю в свое удовольствие, так или иначе начинается со сбора данных. Иногда через API, но гораздо чаще через парсинг сайтов. Мы с моим другом Филей даже как-то написали целый туториал по этому делу на хабре.

В целом, парсинг — абсолютно легальное действие с точки зрения законодательств и Штатов, и Европы, особенно если парсить осторожно и без персональных данных. Но есть нюанс. Собранные таким образом данные в 99.9% случаев нельзя использовать в коммерческих целях. И вот здесь я и напоролся на гайдлайны TowardsDataScience, которые я конечно же прочитал только после того, как пришел отказ:

> TDS is a commercial publication hosted on Medium, a commercial entity. So before submitting your article to us, please verify your dataset is licensed for commercial use, or obtain written permission to use it. 

Так что буду продолжать пилить для некоммерческого использования. Да и как еще можно построить модельки по рынку проституции в Москве или проанализировать, что пишут в комментах ВК кандидатам в президенты, если не собирать эти данные самому? Кстати, к последнему совершенно никаких претензий не было у Springer, спокойно опубликовали.

#OpenData
1👍6🥰4
Последнее обновление Google Chrome внезапно перестало корректно подгружать страницу chatGPT. Наверное, готовят апдейт Gemini и добросовестно борются с конкурентами :)
1😁4🥰2
Про edge computing и простые алгоритмы
#HealthTech #ŌURA

💍 В Оуре на прошлой неделе было большое событие — мы выпустили уже четвертое по счету поколение кольца с новыми сенсорами, функциями и, конечно, моделями и алгоритмами.

Мне довелось поработать сразу над несколькими большими нововведениями: от Meals, где пользователи теперь могут трекать свои приемы пищи и анализировать регулярность питания, до Advisor — по моему скромному мнению крайне успешной интеграцией LLM в экосистему носимых устройств. Про эти проекты напишу в другой раз, когда они выйдут из нашей бета-программы ŌURA Labs в полноценный релиз.

А сейчас расскажу про самую значительную фичу, которой я занимался — Automatic Workout Heart Rate или AAD+HR.

💍 Сначала предыстория. Когда я начал работать в Оуре, мне больше всего понравилось, что кольцо, тогда еще второго поколения, крайне не требовательно к пользователю. Надел на палец, заряжаешь раз в неделю, и всё — данные пассивно собираются и обрабатываются. До этого я носил Apple Watch и меня очень напрягало, что нужно совершать очень много действий чтобы затрекать что-либо. Поэтому когда я разработал и запатентовал AAD (Automatic Activity Detection), который по данным акселерометра на кольце детектирует и классифицирует физическую активность, я старался создать самый незаметный и пассивный фитнес-трекер.

В результате получилась фича с каким-то фантастическим retention, просто потому, что пользователям не нужно постоянно жать на кнопки и все тренировки автоматически детектируются в течение дня.

💍 Спустя пару лет, другая команда выпустила Workout Heart Rate, чтобы измерять сердцебиение во время тренировок, используя новые сенсоры третьего поколения кольца. Но пользователям нужно было ручками зайти в приложение, выбрать вид спорта, подтвердить начало тренировки и потом еще не забыть его отключить. Из-за такого нетривиального количества действий (хотя это стандартный набор для Apple Watch), вовлечение и удержание оказалось в десятки раз меньше.

Уже тогда появилась идея объединить два продукта и сделать универсальный трекинг, который бы детектировал тренировку, классифицировал её, и еще бы сам включал и отключал измерение сердцебиения на кольце.

💍 Год назад до этого дошли руки и мы начали пилить прототип. Основная сложность заключалась в том, что если детектирование и распознавание активности может работать постфактум на телефоне или в облаке, когда данные из кольца синхронизируются с приложением, то для сердцебиения нужен алгоритм, который запускает и останавливает весь процесс прямо на кольце — тот самый edge computing.

Алгоритм должен уметь вовремя переключать LED-светодиоды на повышенную частоту семплирования, которая очень энергозатратна, и отключать её как только физическая активность прекращается. Получается задачка оптимизации — хотим запускать LED каждый раз, когда пользователи физически активны, но не включать их напрасно, чтобы не разряжать батарейку.

Перепробовав множество подходов, пришли к достаточно простому решению, чтобы влезть в ограничения по вычислительной мощности кольца. Finite State Machine отвечает за текущее состояние системы: покой, начало тренировки, активный сбор, остановка тренировки; а переходы между состояниями осуществляет натренированный Random Forest Classifier.

💍 Прелесть подхода в том, что весь ML после обучения вырождается в набор if-else условий, который легко затащить в Firmware кольца. Плюс легко настраивать чувствительность алгоритма, чтобы не жрал много батарейки, просто повышая или понижая probability threshold для предсказаний леса.

Итого получилось, что на кольце живет отдельная система, отвечающая за сбор данных в нужное время, а уже после синхронизации с телефоном подключаются тяжелые модельки для финальной обработки и предсказания активности.

Мораль истории — простые решения все еще работают 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥117
Please open Telegram to view this post
VIEW IN TELEGRAM
😁105😨3
Про визуализацию данных
#DataViz #HealthTech #ŌURA

В одном из недавних постов Оуры в инсте был любопытный график — сравнение точности классификации фаз сна между нашим кольцом и обычным порошком другими девайсами. Сравнение, бесспорно, в пользу Оуры. Нас недавно в очередной раз тестировали независимые институты и результаты кольца оказались самими близкими к медицинскому стандарту — полисомнографии.

Но сейчас не об этом. На графике с тремя столбцами (он же bar chart), в лучших традициях How To Lie with Statistics, самый маленький столбец визуально отличается от самого большого ровно в два раза. При том, что абсолютное отличие составляет всего 5.4%.

Если бы график строили по всем правилам, со значениями, начинающимися с нуля, то высота первого столбца была бы всего на ~7.5% больше последнего (что, конечно, не так эффективно продается).

Ту же самую информацию можно было бы преподнести корректнее и даже с таким же визуальным вау эффектом. Вместо абсолютных значений качества, взять отклонение от медицинского золотого стандарта — ручной разметки фаз сна. В среднем, когда исследователи вручную размечают PSG данные, коэффициент согласия составляет примерно 80% (то есть одни и те же сегменты/фазы сна специалисты могут разметить по-разному в 20% случаев):

Overall, even the gold-standard PSG is subject to classification errors and inter-scorer differences. There is an average agreement of 80% between human scorers of PSG [source]


Это означает, что гипотетический идеальный Sleep Staging алгоритм может достигнуть максимум 80% точности. Считаем от этого отклонения и получаем, что Oura всего в 3.7% от идеала, в то время как “Wearable 2” нужно добить 9.1% — визуально даже больше, чем двукратное преимущество у кольца.

Про качественные визуализации и грамотное построение графиков есть много годных книг, порекомендую вот эти (осталось только нашим SMM тоже их пролистать):

📕 Storytelling with Data: A Data Visualization Guide for Business Professionals [тык]

📗 How Charts Lie: Getting Smarter about Visual Information [тык]
12😁6👍4🔥2
Открытая лекция
#OTUS

Сегодня вечером в 20:00 по Москве буду рассказывать в Отусе про "Структуру и построение ML команды”. Расскажу, из кого состоит ML/DS команда и как её нормально строить, чтобы нормально было.

Приходите послушать, посмотреть на мемы, и поддержать лайком. Ссылка на мероприятие [тык]. За 5 минут до начала еще скину прямую ссылку на трансляцию.
🔥64👍1
Пятничная подборка качественного контента 🥂
#memes
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8
Открытая лекция
#OTUS

Сегодня снова в 20:00 по Москве проведу открытый урок [тык]. На этот раз будем говорить про карьерные пути в этом нашем дата сайенсе и что должен делать тимлид для развития своей команды.

Ссылку на трансляцию закину в комментарии за 5 минут до начала :)
9
📲 Рекомендация — если вам интересно попробовать себя в AI Safety и вы считаете, что у кожаных мешков всё ещё есть шанс, то есть отличная возможность, с которой может помочь мой друг Вася. Далее текст от него:

🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ


Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)

💼 Что вас ждет?

• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.

👤 Кого мы ищем?

• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.

Срок подачи: до 31 декабря (лучше до первой недели декабря).

Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение
Please open Telegram to view this post
VIEW IN TELEGRAM
141
Dog Poop Compass: Bayesian Analysis of Canine Business
#DataWondering

Как и многие владельцы собак, во время прогулок с Аури я всё время наблюдаю один и тот же ритуал. Перед тем, как приняться за пёсьи дела, он каждый раз много-много раз крутится вокруг своей оси, пока не выстроится поудобнее.

В один прекрасный момент я начал делать скриншоты компаса, чтобы когда-нибудь оценить, а рандомно ли собака усаживается или нет? И вот, спустя много месяцев кропотливого сбора грязных (во всех смыслах этого слова) данных, у меня появился ответ.

Если вам тоже интересно узнать, как при помощи байесовских методов можно отвечать на такие важные жизненные вопросы, то добро пожаловать по ссылке: Dog Poop Compass

P.S. Статью опубликовали в TowardsDataScience! И теперь на меня еще можно подписаться и читать на английском на Substack.
5420👍3💩22😁1