Strong baseline
208 subscribers
27 photos
2 videos
96 links
ML in biology, bioinformatics, biology, memes, travels (?).
Download Telegram
HN Best Comments
Re: We have reached an agreement in principle for Sam ... The media and the VCs are treating Sam like some hero and savior of AI. I’m not getting it. What has he done in life and/or AI to deserve so much respect and admiration? Why don’t top researchers…
Мне этот пост напоминает другую классическую пасту (тоже с YC).

I don't think CS is a high social status field at all. You're deluding yourselves. Outside of our peers also in the industry nobody cares that you're a staff engineer at Google. Absolutely nobody. They'll assume you're doing IT work like the characters in the IT Crowd if they even bother to think about it at all and haven't already walked away.
Here's a concrete example to make it really obvious.

How many computer scientists are there in the Lords in the UK? I'm not sure there's any. There are nearly 800 lawyers, doctors, religious ministers, biologists, physicist, mathematicians, philosophers, business people, politicians, authors, composers. A computer scientist who defines the field for half a century is lucky to get knight bachelor.

Look at similar establishment institutions elsewhere. Are there any computer scientists in the Senate in the US? Are computer scientists often invited to lead major public bodies? How many computer scientists become deans of universities compared to other fields?

The social status of computer scientists is zero.
😁3🔥2
A knowledge-guided pre-training framework for improving molecular representation learning

Еще один метод для получения представлений молекул. Используют self-supervised трансформер для графов, в процессе обучения часть графа скрывается чтобы модель обучилась предсказать эту скрытую часть. В помощь интегрируются другие дескрипторы из RDKit.

Код и модель есть, может кто-то и захочет поиграть, как раз до конца кэгла пара дней есть.
2
Курс по системной биологии от NIH:
* Курс из 2 частей онлайн и оффлайн (в Калифорнии), допускаются студенты, постдоки, профессора независимо от гражданства. Онлайн часть курса это подготовка к оффлайну, но можно пройти только ее.
* Онлайн часть будет проходить с 20 февраля до 1 марта
* Оффлайн будет проходить с 4 по 15 марта
Все здесь на сайте.
4🔥1
Сегодня к нам приезжали нобелевские лауреаты по физиологии и медицине 2013 года: Рэнди Шекман и Томас Зюдхорф. В Венгрии есть программа для талантливых студентов и школьников и время от времени крупные ученые приглашаются чтобы вдохновить юные таланты на душеспасительные занятия наукой, ну а сегодня все они вместе пришли к нам чтобы посмотреть на лаборатории и послушать о ресерче. Думается, что для студентов, что для биологов Томаса, Рэнди и других ученых мой рассказ про deep learning и профайлинг был немного абстрактным 🥲, к счастью никто не успел уснуть, так как времени было мало (как всегда и бывает во время таких визитов).
🔥61👍1😁1
Очень хороший блогпост. Автор этого блога еще известен вот этим текстом.
"In fact, you start doing science—or any serious intellectual work—by imitation, by going through the motions, not seeing the point of the rituals. Gradually you come to understand something of how and why they work. (If you are smart and lucky; many people never do.) Gradually, you find yourself doing the real thing. At some point, you can improvise, step into the unknown, and create your own methods.
In other words, you can only begin your career as a scientist by doing cargo-cult science. Eventually—if you are smart and lucky—you can upgrade. But almost all scientists get stuck at the cargo cult stage; and almost all supposed science is cargo culting. [...]

Honesty comes out of curiosity, mostly, I think. If you really do want to know, there’s much less motivation to promote a wrong answer—arrived at either through deliberate fraud or sloppy, inadequately-controlled experimentation."

Из текста о том, что повторяя научно-методические шаги/получая гранты/etc, но без любопытства, честности и смелости — науку не построишь, только еённый симулякр.
👍4
Мой первый полушаг в ML получился довольно курьезным.

В 2015 году я только переехал в Москву, чтобы начать магистратуру и сразу стал мониторить какие интересные IT мероприятия можно посетить.
Мне повезло, немного погодя осенью Яндекс проводил Data Analysis ночь. Ни про анализ данных, ни про ML я тогда вообще ничего не знал (да и магистратура у меня была не про анализ данных), но мне показалось это хорошей возможностью
а) что-то таки узнать про ML б) с кем-то занетворкаться в) сходить еще раз в офис Яндекса.
Data-ночь тогда делилась, ЕМНИП, на 2 потока: вечер для новичков (я был там) и ночь для более продвинутых.
В потоке для новичков сначала рассказывали базовые лекции, а потом был мини-хакатон, кстати нашел даже репу от этого.
Я не очень понимал что я делаю и сделал какие-то совершенно рандомные изменения в коде (вроде просто менял гиперпараметры без особого понимания что происходит).
И вот, конец хакатона. Я обнаруживаю что каким-то образом оказался на 3 месте. Награждение, выходят первые два места, они рассказывают про какие-то трюки, которые они применили, организаторы да-да, круто, у нас тут интеллектуальное мероприятие про дата саенс!

3 место, выхожу.
- Что вы сделали, чтобы достичь такого результата?
- Эээ, я просто менял код, я честно не знаю как это вышло.

Вижу у организаторов вытягиваются лица в покерфейс, они явно не ожидали что их дата саенс мероприятие запорят таким способом.

Ну ладно, похлопаем!

Призовую футболку я так ни разу и не надел.
😁12🔥5
Не знаю как вы, а я очень не люблю когда меня отсекают от железа разными абстрактными надстройками, очередями и уж тем более, я терпеть не могу AWS. Что может быть лучше, чем зайти на свой любимый сервер через Bitvise SSH (рекомендую для виндоюзеров), сделать nvidia-smi и htop и потом шарахнуть на эту всю красоту какой-нибудь недопиленный скрипт обучения, так чтобы RAM ушла в красную зону, а GPU делают BRRRR и ты онлайн наблюдаешь как они нагреваются ?

Вопрос это, конечно, культурный и зависит от того как и когда вы начинали работать с компьютерами. По молодости, я всегда любил ковырять именной свой комп, ну там накатить на него локальный сервер World of Warcraft или Lineage 2 ну и просто запускать код. Это характерно скорее для людей, кто успел застать хотя бы нулевые. Сейчас такие эксперименты на своих машинах уже не очень популярны и их стало сложнее делать, потому что производители операционных систем тоже только и делают, что пытаются отодвинуть нас от возможностей компьютера 🍎.

Когда я пришел на первую кодерскую работу, мой мозг довольно заметно сопротивлялся идее что надо что-то запускать на серверах, а не локально. Дело, как вы понимаете, абсолютно не в технической сложности (ее нет), а просто вот такой странный психологический барьер. На той же работе мне показали Docker, но дело не дошло я просто уволился раньше.

Есть конечно люди (как правило без CS\IT-бэкгрануда), которые пришли на работу или в лабу, им сразу вот AWS или рабочий кластер, вот примеры, они радостно этому обучаются и им ок и проще, потому что им не надо взаимодействовать с железом, не надо настраивать, сисадмин кластера и job scheduler сделает все за них. У этого подхода в научной среде есть 2 очевидных плюса: 1) Проще научить человека делать один скрипт с набором команд или даже Docker-контейнер, чем обучать его пользоваться компьютером, да и сломать может. 2) Воспроизводимость. Если есть один настроенный контейнер с пайплайном, сделать все эксперименты, а потом можно опубликовать что отсечет проблемы с кривыми средами у юзеров.

В лабах я всегда работал напрямую, без очередей (slurm\condor) и без Docker-a, но сейчас появилась задача и сервер где сразу надо использовать и очередь и Docker, с непривычки you feel overwhelmed и по-первой тратишь кучу времени на настройку даже простых пайплайнов и там встречаются довольно неожиданные подводные камни, если сравнивать с тем, как бы ты это делал на "живой" ОС. В такие моменты кажется что сделать все напрямую даже на более слабой машине быстрее.

Old man yells at cloud.
👍52😁1🌚1💯1
Если вы занимаетесь древними геномами и имеете возможность поехать в Европу, в сентябре EMBL делает симпозиум по этой теме и до 18 июня можно сабмитнуть свой абстракт.

Состав спикеров\организаторов там мощный.

https://www.embl.org/about/info/course-and-conference-office/events/ees24-09/
🔥1
PhD студенты делают что угодно, лишь бы не то, на что дают деньги. Вот, например, пытаются отрисовать Doom с помощью бактерий кишечной палочки. FPS явно не устроит современного игрока, отрисовка одного кадра занимает примерно 8.5 часов.

PS увидел сегодня это в канале "Айти Тудей", но новости уже как минимум месяц.
Оригинальное видео.
🔥5🌚1
В пятницу в лабе мы делали внутренний семинар про DL-методы анализа изображений H&E окрашенных образцов ткани (их используют для диагностики рака). Со своей стороны, я решил рассказать немного про self-supervised learning и несколько статей которые тренируют DINO и DINOv2 на открытых (TCGA\Camelyon) и закрытых данных. Оказалось, что примерно в одно время разные компании (Paige+Microsoft и Aignostics+разные места в Германии; обе команды назвали свои модели в честь Рудольфа Вирхова) и лабы (Faisal Mahmood) выпустили первые версии препринтов тренировки DINOv2. Среди них выделяется компания Owkin, которая натренировала iBOT (идейный предшественник DINOv2) и выпустила все в открытый доступ (но они использовали только открытые данные).

Я хотел написать посты про некоторые статьи, но лучше поделюсь своими слайдами, потому что статьи про модели довольно похожи. На слайде 20 есть таблица из статьи про модель Virchow, где я пометил какие модели есть в открытом доступе.
🔥3
На этой неделе гостил в Helmholtz AI в Мюнхене, разговаривал c несколькими PI и студентами, которые занимаются ML для анализа изображений
гистологии и Cell Painting, показывали друг другу свой ресерч. К выходу готовится очень много интересных работ (которые я, конечно же, пошарю тут как только они будут в паблике).

Сам кампус находится в изолированном районе, где рядом нет ни метро, ни S-Bahn и состоит из 2-х или 3-х этажных домиков, в этот момент я почему-то вспомнил про Лос-Аламос.
🔥3
У нас вышла статья!
Натренировали модельку на разных Cell Painting данных (тогда еще JUMP датасета еще не было),
поговорили про батч-эффекты.
Вообще, как препринт она висела уже полтора года, рецензенты попросили сделать кучу всего,
а мы добивали другую большую статью, еще очень долго заняло окончательное форматирование,
куча каких-то форм (еще больше, чем в прошлый раз), в итоге прошло целых 2 (!) месяца.
🎉8
scPerturb: harmonized single-cell perturbation data

Авторы проделали большую ассенизаторскую работу: собрали 44 датасета с данными транскриптомики, протеомики и эпигеномики (данные scRNA-seq, CITE-seq и scATAC-seq).
Датасеты в основном с CRISPR-пертурбациями, но есть и лекарства, все они были опубликованы с 2016 по 2023.
С этим всем есть проблема - нет стандарта, а как сравнивать пертурбации из разных источников данных?
Кроме прочего, источники данных очень разнятся по качеству (UMI и количество генов на клетку).

Авторы предлагают Е-distance (тут потонула шутка про Е баллы, извините), метрика более известная в физике как energy distance.

Перед подсчетом E-distance, авторы делают PCA (что ведет к нестабильному поведению при малом количестве данных).
По результатам анализа данных и тестов на робастность, авторы рекомендуют в эксперименте 200–500 клеток на пертурбацию и в среднем 1,000 UMIs на клетку, чтобы была возможность надежнее различать эффект пертурбаций.

Все выходные данные доступны: https://projects.sanderlab.org/scperturb/
4
Хорошее повтори и еще раз повтори. Я был удивлен, что тут еще не было ссылки на этот исторический рант про биоинформатику. Перечитываю этот текст раз в полгода-год, просто чтобы помнить что скрывается под маской нашей области. https://madhadron.com/science/farewell_to_bioinformatics.html
🔥5
Как только появился ЧатЖЭПЭТЭ, некоторые, с позволения сказать, академики подумали, прекрасно, теперь можно не писать самостоятельно введение к статьям (особенно упоротые могут генерировать и разделы Methods\Discussion),
а зачем, ведь можно просто попросить сгенерировать таковое. У этого есть и технические проблемы, а именно что
- данные вероятно вообще не имеют отношение к реальности
- данные устарели на некоторое количество времени, в некоторых областях даже полгода это очень значимый срок

Вот, например (подсмотрел в чате знакомых коллег):
https://www.sciencedirect.com/science/article/abs/pii/S2468023024002402 (ищем Certainly, here is a possible introduction for your topic)
https://www.sciencedirect.com/science/article/pii/S1930043324001298 (ищем I'm very sorry, but I don't have access to real-time information or patient-specific data, as I am an AI language model)
Оба раза Elsevier, Radiology Case Reports похоже новый журнал, но они оба явно не мусорные.

Таких случаев всплывает то тут, то там больше, чем хотелось бы.

Авторы этой статьи (скачайте PDF, чтобы оценить весь масштаб, так сказать) пошли дальше, сгенерировали графики к статье! Эта история так взорвала интернет,
что твиттер наводнило народное творчество, кто-то пёк печенье с этой крысой, кто-то стал рисовать свои графики по мотивам.
У издательства Frontiers, скажем так, есть определённая репутация, но все-таки IF 5.5. Как они могли это пропустить?

Такое поведение является симптомом другой, более серьезной проблемы, а именно всем стало на все плевать:
- авторам на то что и как они пишут
- рецензентам на свою ответственность перед наукой
- журналам и их редакторам что публиковать, у редакторов нет времени, а журналам капает Open Access fee

Не будьте такими и другим не давайте.
2👍1🤯1🌚1
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

К предыдущему посту: в arXiv выкатили препринт, где исследуется использование ChatGPT при рецензировании.
Вообще GPT-яз довольно легко палится по словам, особенно прилагательным, которые люди редко используют в нормальном письме\речи.

Проверили рецензии с нескольких конференций: ICLR, NeurIPS, EMNLP и CoRL, а также журналы Nature Portfolio.

Нашли следующее:
😣 GPT вероятно использовался в 10.6% (ICLR) и 16.9% (EMNLP) рецензий.
👌 В рецензиях для журналов Nature Portfolio такого сигнала не выявлено.
😓 В рецензиях, опубликованных перед дедлайном оцененное использование GPT еще выше.
🤓 Рецензии, которые содержат ссылки с меньшей вероятностью оказываются сгенерированными.
🤡 Рецензенты, которые не отвечают на rebuttal с большей вероятностью использовали GPT (это касается только ICLR\NeurIPS).
🫡 В рецензиях с низким self-confidence скором* вероятность использования GPT выше.

*В рецензиях на конференции, рецензент ставит не только свою оценку статье и комментарии, но и оценку своей уверенности в своей оценке.

Я думаю, что в ситуации с классическими журналами есть два момента:
1) Сигнал в журналах меньше в том числе из-за очень долгого peer-review, множество статей, для рецензии которых могли использовать GPT просто не вышли.
2) Качество рецензирования для конференций просто ниже по объективным причинам: нехватка рецензентов и времени на популярных конференциях особенно остра.

Еще в тему статья Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment.
Mark Saroufim (PyTorch) пишет

While I did appreciate the spectacle of today's GTC keynote and was hugely impressed by Jensen walking through how you can build a data center step by step, I did not come away from it inspired by NVIDIA's vision. They do not seem to care about the GPU poor or building a community on top of their work

* No mention of 5090 VRAM which is rumored to have the same 24GB of VRAM as the 4090 throwing a major dent at the GPU poor movement
* Pitching an FP4/FP6 format while people are still having trouble building w/ FP8. Of course this will be solved if you use their recipes
* No mention of post tensor core's severe GPU programmability issues, that experts are having to write PTX and can't rely on CUDA and of course no mention of CUDA alternatives. Imagine if CPUs could only ever be programmed with a single programming language. An LLM won't be able to write GPU kernels if GPUs functionality is undocumented!
* Constant emphasis on complete vertical integration ranging from the software to hardware stack
* Many people around me had their phones open to the NVIDIA stock ticker, I guess we love the company because number go up?

So overall the picture I have is a company that's closer to Apple in spirit, that wants total vertical integration over the ML stack, that purposefully gimps their products like disabling NVLink support for 4090 whose only goal is to get you to buy more GPUs.

GPUs were meant to be the next PC but instead we got the next iPad.


Добавить как бы нечего.

Мы сами хотели выбирали GPU и выбор стоял между 4090 и A6000Ada, пришлось делать выбор в пользу последней, при ее цене x3. NVLink, впрочем, был не единственной причиной.
2
4
Вся суть ПО за последние несколько лет: текстовый редактор (VS Code) жрет несколько Гб RAM просто при коннекте (на клиенте включено всего несколько вкладок с кодом, но думаю разницы нет). Что оно там делает? Почему нужно 3Гб RAM на SSH коннект и PyLInt? Когда-то Билл Гейтс сказал что 640кб памяти хватит всем, он не учел что люди, которые разработают ВОТ ЭТО еще не родились.
👍2💩2