Strong baseline

Forwarded from Love. Death. Transformers.

😁6

334 views09:14

Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology

Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLR но зачем, но тут решили сделать модель на основе Masked Autoencoders (MAE), вместо того чтобы мэтчить изображения с разными аугментациями, задача MAE восстановить случайно пропущенные (aka masked) части изображения, так, чтобы это было макcимально похоже на оригинал.

Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.

В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.

Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.

Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.

Код и модели.

arXiv.org

Masked Autoencoders for Microscopy are Scalable Learners of...

Featurizing microscopy images for use in biological research remains a significant challenge, especially for large-scale experiments spanning millions of images. This work explores the scaling...

493 views09:52