Data Wondering
454 subscribers
50 photos
3 videos
45 links
A place where curiosity meets data. AI / DS / ML / HealthTech
Boost link: https://t.iss.one/data_wondering?boost
By @dmitryserg
Download Telegram
Finally, a Replacement for BERT

Создатели оригинального BERT (2018) выпустили обновление своего прекрасного и любимого многими энкодера: ModernBERT. Работает быстрее, точнее, и с бОльшей длиной последовательности.

ModernBERT is the only model which is a top scorer across every category, which makes it the one model you can use for all your encoder-based tasks


Попробую пощупать новые эмбеддинги, осталось только найти для них интересную задачку 🏃
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Рекомендация

Один из моих любимых ютьюберов, Sam O’Nella Academy, который выпускает примерно по половине видео в год (максимальный quality over quantity), выложил шикарное ревью на “Естественную Историю” Плиния Старшего. Полностью “Историю” от одного из первых в мире энциклопедистов я еще не читал, но после видео очень захотелось.

Это отличный срез знаний, доступных римской цивилизации к 77 году нашей эры, обильно сдобренный домыслами самого Плиния. На случай, если вы сегодня еще не думали о римской империи — это ваш шанс.

Для меня самое удивительное — это постоянные колебания между неожиданно точным научным подходом и рандомными выдумками с аргументацией в лучших традициях “it was revealed to me in a dream”.

Из коммента под видео:
A lot of Pliny's observations range from "proving the earth is round by observing stars over the horizon" to "some farmer in India told me that there's a rock that kills anything that touches it"


Ну и, конечно, куда же без HealthTech-а. Вот state-of-the-art человеческих знаний насчет менструаций, circa 77 AD (colorized):

Но нелег­ко обна­ру­жить что-то более стран­ное, чем мен­стру­а­ции жен­щин. Когда они в таком состо­я­нии близ­ко под­хо­дят к моло­до­му вину, оно киснет, зер­но­вые куль­ту­ры вслед­ст­вие их при­кос­но­ве­ния пере­ста­ют пло­до­но­сить, при­вои поги­ба­ют, рост­ки в садах засы­ха­ют, пло­ды дере­вьев, под кото­ры­ми они посиде­ли, осы­па­ют­ся, блеск зер­кал от одно­го их взгляда туск­не­ет, ору­жие при­туп­ля­ет­ся, сло­но­вая кость теря­ет свою пре­лесть, пче­ли­ные улья гиб­нут, даже медь и желе­зо тот­час ржа­ве­ют и при­об­ре­та­ют зло­вон­ный запах, и соба­ки, поли­зав их, впа­да­ют в бешен­ство, а укус их про­пи­ты­ва­ет­ся неис­це­ли­мым ядом.

Хорошо, что текущее понимание стало чуть-чуть получше. Хотя до сих пор в медицине (да и во всех других научных сферах) сохраняется огромный knowledge gap между пониманием мужской и женской биологии. Отличная книга на эту тему: Invisible Women: Data Bias in a World Designed for Men

P.S. у Sam O’Nella есть прекрасное эссе о не самых известных персонажах рождественского фольклора — идеально послушать на праздниках 🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥31
Data Wondering
Photo
Не-итоги 2024

Итоги года я всегда подводил не публично и даже если писал какие-то заметки, они оставались только со мной. В этом году у меня появился этот, пока еще небольшой, канал, так что впервые решил что-то опубликовать. И традиционно напрокрастинировал настолько, что под конец года написал только план.

Поэтому в то время как мой пёс заливается лаем от салютов и фейерверков, которые в Финляндии разрешено запускать ровно один раз в году — с 6 вечера 31 декабря до 2 утра 1 января, я волевым решением отложил на завтра то, что не успел написать сегодня.

Итоги будут окончательно готовы уже в следующем году, а сейчас делюсь финальной статистикой по каналу. Результаты пока скромные, но the real treasure was the friends we made along the way. Так что большое спасибо всем подписавшимся и читающим, мне очень приятно, что вы здесь ❤️

C наступающим Новым Годом! Пусть он будет мирным 🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥4
Первая пятница нового года, время для несвежих мемов. Делитесь своими лучшими находками в комментах
#memes
73😁3
Небольшой тизер очередного пет-проекта.

▫️Последние полтора месяца активно игрался с локальными LLM: запускал дистиллированные версии на разных по мощности устройствах, настраивал structured output с prompt chaining и пытался заставить их нормально работать.

▫️А всё ради того, чтобы распарсить тексты из Википедии и построить красивые графики по всем историческим битвам и войнам человечества.

▫️Несколько примеров — количество битв за каждый год начиная от третьего тысячелетия до нашей эры и по сегодняшний день. На первом графике — общий таймлайн, на втором — срез с 1500 года и, наконец, такой же срез, но нормированный на мировое население — на третьем.

▫️Выводы, код и промпты, оценки сил сторон, красивые карты с указанием, откуда готовилось нападение и всё такое прочее опишу уже позже в статье. А пока можно позалипать и поискать своим monkey pattern-seeking brain циклы и зависимости там, где их может и не быть.
❤‍🔥103
Defense Against Dishonest Charts 📈
#DataViz

Вдогонку ко вчерашним визуализациям — нашел совершенно очаровательный сайт, в котором можно интерактивно подергать всякие настройки графиков и лично убедиться в том, насколько легко можно врать при помощи статистики.

Моя любимая категория — Base Stealer, насобирал уже отдельную коллекцию примеров таких графиков, в том числе из своей родной конторы.

With a complete disregard for how charts work, the base stealer shortens the y-axis on a bar chart from the bottom. This forces focus on the tops of the bars, which incorrectly makes tiny differences seem significant.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8👍1
Уже совсем скоро буду рассказывать про самое интересное на стыке HealthTech, FemTech и AI, приходите 😌
#HealthTech
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3
Спикеры конференции Femtech Force Jam: Дмитрий Сергеев

Продолжаем знакомить вас со спикерами первой русскоязычной фемтех-конференции, которая пройдет 12 марта онлайн

💥 Дмитрий Сергеев руководит европейской Data Science командой в компании ŌURA, выпускающей умные кольца.

Помимо этого, Дмитрий занимался внедрением машинного обучения в различных HealthTech стартапах, работал Head of Data Science в компании WeatherWell, изучающей влияние климата и погоды на здоровье человека.

Преподавал в ЦМФ МГУ, ФНК ВШЭ, Aalto University. Руководил программами и читал лекции на различных онлайн курсах и платформах, таких как OTUS, ODS.ai и др


Автор телеграм-канала @data_wondering

Во время Femtech Force Jam Дмитрий выступит с темой «Носимые устройства, цифровые биомаркеры и FemTech» и расскажет:

— Что такое цифровые биомаркеры: как они измеряются и какие задачи помогают решать?
— Самое интересное на рынке: как носимые устройства уже облегчают жизнь?
— Будущее носимых устройств: здравоохранение, гиперперсонализация, и при чем тут AI?

💥 Femtech Force Jam — это первая русскоязычная фемтех-конференция, организованная Femtech Force. Вместе с экспертами из Flo Health, Oura, Diagnio, Clatch и других компаний обсудим настоящее и будущее технологий в сфере женского здоровья

Дата: 12 марта 2025, 14:00–19:00 CET (16:00–21:00 МСК) ОНЛАЙН
Участие: бесплатное синхронное, записи будут доступны за донейшн

➡️ Регистрация

@FemtechForce — о технологиях для здоровья женщин
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6👍3