Strong baseline
208 subscribers
27 photos
2 videos
96 links
ML in biology, bioinformatics, biology, memes, travels (?).
Download Telegram
Sabine Hossenfelder (популяризатор здорового человека по физике) рассказывает про свой опыт в академии и историю.
Вообще накидывать на академию сейчас модно (см., например, канал Andy Stapleton) и причин на то очень много, но часто люди, которые ушли или уходят и публично высказываются, были на момент ухода в начале своего карьерного пути, тут же интересно что Сабин провела всю жизнь в академии, была успешной, но не вышло делать те исследования, которые на самом деле она хотела.

https://www.youtube.com/watch?v=LKiBlGDfRU8
🔥1
В этой новости прекрасно все.
В Словакии летающий автомобиль совершил первый полет с пассажиром

Разработанный в Словакии AirCar впервые взлетел с пассажиром: на борту автомобиля помимо пилота находилась мировая звезда электронной музыки Жан-Мишель Жарр.

Полет состоялся в аэропорту курорта Пьештяны в Словакии. AirCart пилотировал его конструктор Штефан Кляйн: в общей сложности он дважды поднимался в воздух.

AirCart оснащен двигателем BMW, работает на обычном бензине и трансформируется в самолет всего за две с половиной минуты. Для его использования необходима лицензия пилота. Транспортное средство может взлетать и приземляться на взлетно-посадочную полосу, аналогичную той, которую используют небольшие самолеты.

Видео полета

#усоседей

@tripandme
🔥3
В ML кругах адско форсится свежая статья Kolmogorov–Arnold Networks, новый взгляд на нейросети.

KAN более эффективно используют параметры, но при этом дольше тренируются. Еще заявлена интерпретируемость. Не буду притворяться что я тут что-то понимаю, мне пока непонятно ничего, но очень интересно.

В топе HackerNews висит уже более эффективная реализация.

Через неделю будет доклад, может там будет что-то понятно.
🔥3
В Венгрии я уже шесть лет, Сербская граница буквально в нескольких километрах, но доехать туда я сподобился только сейчас.

Про дорогу: Вообще, путь в Белград из Сегеда не очень удобный, самый лучший видимо сесть на поезд до Суботицы и пересечь на нем границу (половина времени поездки - прохождение границы, но так хоть есть какие-то гарантии времени),
потом пересесть на поезд до Белграда, весь путь от двери до двери в итоге занимает часов 7 (с ожиданием автобуса пересадки). Обратно мы поймали блаблакар (пользовались таким в России?), так вышло что вез
нас игрок местной волейбольной команды "Спартак" Суботица ну и потом опять поезд. Если из Венгрии прохождение границы очень лайтовое, то обратно смотрели вещи, искали алкоголь и сигареты.

Про Белград: Скажу так, я приятно удивлен. Город немного бардачнее грязнее, но движения как будто бы больше, чем в Будапеште и нет ощущения что тут может быть как-то опасно. Русскоговорящих очень много, они устраивают свои довольно большие тусы. Мы зашли на одну, около местного Яндекса, там было человек 70+ точно, но не остались из-за очереди и жары. Еще Белград активно застраивается (видно на фото новые здания у Дуная). Еще в кафе отличное мясо и недорого по нынешним ценам, мы были тут.

В Суботице времени не было, но там оказалось тоже очень приятно на первый взгляд. Местная синагога очень красива и оказалась еще больше Сегедской.
3👍3
Kek
💩3🌚1
Friendly reminder
😁6
Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology

Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLR но зачем, но тут решили сделать модель на основе Masked Autoencoders (MAE), вместо того чтобы мэтчить изображения с разными аугментациями, задача MAE восстановить случайно пропущенные (aka masked) части изображения, так, чтобы это было макcимально похоже на оригинал.

Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.

В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.

Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.

Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.

Код и модели.
Сдуру согласился быть рецензентом для NeurIPS 2024 Datasets and Benchmarks, а вы думали мне основной трек кто-то доверит 🌚. Приходит письмо с описанием процесса и там
We aim to assign max 4-5 papers per reviewer.


Хотел море в июле, ну вот, получу видимо море статей на рецензирование.
A guide to artificial intelligence for cancer researchers

Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.
2
Best paper to start the day does not exi ...

ChatGPT is bullshit

Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:

Frankfurt understands bullshit to be characterized not by an intent to deceive but instead by a reckless disregard for the truth. A student trying to sound knowledgeable without having done the reading, a political candidate saying things because they sound good to potential voters, and a dilettante trying to spin an interesting story: none of these people are trying to deceive, but they are also not trying to convey facts. To Frankfurt, they are bullshitting.


Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.

В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего


*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей
👍42😁2🌚1
You Don’t Need Data Augmentation in Self-Supervised Learning
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.
Forwarded from Neural Shit
Media is too big
VIEW IN TELEGRAM
Кроссовер, который мы заслужили.

Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.
😁31
Мне кажется я не читал ранта смешнее (но со всем согласен).
https://ludic.mataroa.blog/blog/i-will-fucking-piledrive-you-if-you-mention-ai-again/
2
Large-scale foundation model on single-cell transcriptomics
Авторы натренировали модель на куче человеческих транскриптов. С этим можно например смотреть что будет при комбинации пертурбаций.
Разбирать полностью статью не хочется, но бросился в глаза плот из Figure 5d, обратим внимание на очень маленький разброс значений выдаваемых моделью, против разброса в реальности, возможно это даже хорошо.
Никто не говорил, что 95% занятий наукой это мерджить и заполнять таблички pandas-ом или в Excel, если вы прости Господи, медик ;или в R, если, ну вы и сами знаете что с вами не так .
😁3👍1