Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology
Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLRно зачем , но тут решили сделать модель на основе Masked Autoencoders (MAE), вместо того чтобы мэтчить изображения с разными аугментациями, задача MAE восстановить случайно пропущенные (aka masked) части изображения, так, чтобы это было макcимально похоже на оригинал.
Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.
В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.
Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.
Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.
Код и модели.
Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLR
Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.
В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.
Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.
Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.
Код и модели.
arXiv.org
Masked Autoencoders for Microscopy are Scalable Learners of...
Featurizing microscopy images for use in biological research remains a significant challenge, especially for large-scale experiments spanning millions of images. This work explores the scaling...
We aim to assign max 4-5 papers per reviewer.
Хотел море в июле, ну вот, получу видимо море статей на рецензирование.
A guide to artificial intelligence for cancer researchers
Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.
Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.
❤2
Best paper to start the day does not exi ...
ChatGPT is bullshit
Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:
Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.
В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего
*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей
ChatGPT is bullshit
Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:
Frankfurt understands bullshit to be characterized not by an intent to deceive but instead by a reckless disregard for the truth. A student trying to sound knowledgeable without having done the reading, a political candidate saying things because they sound good to potential voters, and a dilettante trying to spin an interesting story: none of these people are trying to deceive, but they are also not trying to convey facts. To Frankfurt, they are bullshitting.
Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.
В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего
*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей
SpringerLink
ChatGPT is bullshit
Ethics and Information Technology - Recently, there has been considerable interest in large language models: machine learning systems which produce human-like text and dialogue. Applications of...
👍4❤2😁2🌚1
You Don’t Need Data Augmentation in Self-Supervised Learning
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.
arXiv.org
You Don't Need Domain-Specific Data Augmentations When Scaling...
Self-Supervised learning (SSL) with Joint-Embedding Architectures (JEA) has led to outstanding performances. All instantiations of this paradigm were trained using strong and well-established...
Forwarded from Neural Shit
Media is too big
VIEW IN TELEGRAM
Кроссовер, который мы заслужили.
Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.
Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.
😁3❤1
Мне кажется я не читал ранта смешнее (но со всем согласен).
https://ludic.mataroa.blog/blog/i-will-fucking-piledrive-you-if-you-mention-ai-again/
https://ludic.mataroa.blog/blog/i-will-fucking-piledrive-you-if-you-mention-ai-again/
❤2
Large-scale foundation model on single-cell transcriptomics
Авторы натренировали модель на куче человеческих транскриптов. С этим можно например смотреть что будет при комбинации пертурбаций.
Разбирать полностью статью не хочется, но бросился в глаза плот из Figure 5d, обратим внимание на очень маленький разброс значений выдаваемых моделью, против разброса в реальности,возможно это даже хорошо .
Авторы натренировали модель на куче человеческих транскриптов. С этим можно например смотреть что будет при комбинации пертурбаций.
Разбирать полностью статью не хочется, но бросился в глаза плот из Figure 5d, обратим внимание на очень маленький разброс значений выдаваемых моделью, против разброса в реальности,
Nature
Large-scale foundation model on single-cell transcriptomics
Nature Methods - scFoundation, with 100 million parameters covering about 20,000 genes, pretrained on over 50 million single-cell transcriptomics profiles, is a foundation model for diverse tasks...
Никто не говорил, что 95% занятий наукой это мерджить и заполнять таблички pandas-ом или в Excel, если вы прости Господи, медик ;или в R, если, ну вы и сами знаете что с вами не так .
😁3👍1
Strong baseline
В пятницу в лабе мы делали внутренний семинар про DL-методы анализа изображений H&E окрашенных образцов ткани (их используют для диагностики рака). Со своей стороны, я решил рассказать немного про self-supervised learning и несколько статей которые тренируют…
Модели обученные на H&E изображениях Virchow (Paige+Microsoft) и UNI (Mahmood Lab) релизнули в открытый доступ для некоммерческого использования. В обоих случаях это DINOv2.
Статьи:
https://www.nature.com/articles/s41591-024-03141-0
https://www.nature.com/articles/s41591-024-02857-3
Модели:
https://huggingface.co/paige-ai/Virchow
https://huggingface.co/MahmoodLab/UNI
Статьи:
https://www.nature.com/articles/s41591-024-03141-0
https://www.nature.com/articles/s41591-024-02857-3
Модели:
https://huggingface.co/paige-ai/Virchow
https://huggingface.co/MahmoodLab/UNI
Nature
A foundation model for clinical-grade computational pathology and rare cancers detection
Nature Medicine - Trained on 1.5 million whole-slide images from 100,000 patients, a pathology foundation model is shown to improve performance of specialized models in detection of rare...
👍2
Человек купил на наследство бабушки (700K$) акций Intel прямо перед их падением на 30% из-за проблем с чипами.
Надо было вкладываться в золото или S&P500 или в короткую в Nvidia (не является инвестиционным советом).
А какой у вас первый опыт инвестирования?
У меня тоже неудачный, у меня с 2020 лежат акции ВТБ, которые потеряли 40-50% с того момента.
Но потерял хотя бы всего 5крублей .
А какой у вас первый опыт инвестирования?
У меня тоже неудачный, у меня с 2020 лежат акции ВТБ, которые потеряли 40-50% с того момента.
Но потерял хотя бы всего 5к
Reddit
From the wallstreetbets community on Reddit
Explore this post and more from the wallstreetbets community
🥱1
Очень давно ничего не писал сюда, готовился к поездке и сейчас прибыл в Morgridge University of Research (Madison, WI).
Тут, например, работает Джеймс Томсон, кто первым извлек эмбриональные стволовые клетки человека и тут есть его лаборатория.
Мои задачи, конечно, несоизмеримо скромнее, продолжаем тренировать SSL модельки и готовиться к SBI2 в Бостоне.
Встретили очень хорошо, мне дали большой (по академическим меркам) отдельный офис. Можно закрыться и аутировать по-полной.
Людей в офисах и лабах как-то мало и выглядит все пустынно. Видимо много мест закреплено за студентами, у которых сейчас пары в университете.
Сам Мэдисон очень сильно напоминает уменьшенный Бостон по духу, но без высоких зданий, так как по закону выше Капитолия штат Висконсин ничего строить нельзя и очень размазанный по площади для своего населения. Люди ходят пешком только около кампуса, на паре улиц в центре и в парках.
Тут, например, работает Джеймс Томсон, кто первым извлек эмбриональные стволовые клетки человека и тут есть его лаборатория.
Мои задачи, конечно, несоизмеримо скромнее, продолжаем тренировать SSL модельки и готовиться к SBI2 в Бостоне.
Встретили очень хорошо, мне дали большой (по академическим меркам) отдельный офис. Можно закрыться и аутировать по-полной.
Людей в офисах и лабах как-то мало и выглядит все пустынно. Видимо много мест закреплено за студентами, у которых сейчас пары в университете.
Сам Мэдисон очень сильно напоминает уменьшенный Бостон по духу, но без высоких зданий, так как по закону выше Капитолия штат Висконсин ничего строить нельзя и очень размазанный по площади для своего населения. Люди ходят пешком только около кампуса, на паре улиц в центре и в парках.
❤6
Поездка короткая и активная, в первую неделю (то есть получается уже почти 3 недели назад) ездили в Чикаго, который в 2.5 часах пути на машине от Мадисона (кстати, между этими городами есть самолет, который паркуется и взлетает дольше, чем собственно летит).
Вообще, если посмотреть numbeo, выйдет так что Чикаго гораздо опаснее Нью-Йорка. Но по моим личным ощущениям все было наоборот, даже днем в свое время в Нью-Йорке могло быть чуть-чуть дискомфортно и Чикаго гораздо чище в центре. Видимо весь экшен, делающий эту статистику происходит в других районах, куда туристы ходить не вздумают. Поднялись на знаменитый балкон (The Ledge), но этот поход был омрачен скамским подходом к фото: когда вы заходите на балкон, вам делают фото сверху и потом пытаются его продать, причем что физическая, что цифровая копии стоят 30$, при цене билет под 50$. Ну да ладно, зато вид на здания потрясающий и архитектура гораздо интереснее, чем опять же, Нью-Йорк.
Вообще, если посмотреть numbeo, выйдет так что Чикаго гораздо опаснее Нью-Йорка. Но по моим личным ощущениям все было наоборот, даже днем в свое время в Нью-Йорке могло быть чуть-чуть дискомфортно и Чикаго гораздо чище в центре. Видимо весь экшен, делающий эту статистику происходит в других районах, куда туристы ходить не вздумают. Поднялись на знаменитый балкон (The Ledge), но этот поход был омрачен скамским подходом к фото: когда вы заходите на балкон, вам делают фото сверху и потом пытаются его продать, причем что физическая, что цифровая копии стоят 30$, при цене билет под 50$. Ну да ладно, зато вид на здания потрясающий и архитектура гораздо интереснее, чем опять же, Нью-Йорк.
🔥4
Коллега перед отъездом наказал мне получать удовольствие от консюмеризма, вот делюсь.
Клевость покупок в США не в том, что в магазинах дешевле, а в доступе ко всему что может предложить eBay.
Можно покупать хорошую технику из разных мест по очень хорошим ценам, когда как в Европе люди жмутся и часто пытаются продать
поддержанное чуть ли не по цене магазина.
Мне очень давно хотелось ThinkPad и удалось найти вполне актуальный X13 Gen2 за всего 300$+налог. Это машинка с i7 (11 поколение) и 16GB RAM, что вполне позволяет крутить ей анализ данных, большую часть того, что мне нужно ну и еще легкость чтобы с собой брать лазить в терминалы. Моему старому Asus X31A с 4GB RAM даже от этого больно.
Пришло оно с Шindows 11, я конечно выпал в осадок с того, насколько это ужасно (на основном для GPU вещей у меня 10\Ubuntu) и снес это к чертовой матери, вместо накатил Ubuntu24 Cinnamon. Что меня порадовало, так это работа от батареи, помню что линукс с этим был не очень, а вот сейчас вроде на конкретном ноутбуке все хорошо.
Еще про радость (или не совсем), по трейд-ин поменял свой Pixel 6 Pro на 9 Pro XL (спасибо поездке в Бостон, где есть физический магазин). Гуглу как-то надо продавать, поэтому они предлагают забрать старые телефоны почти по половине цены нового. Первый день у меня все равно было ощущения что меня немного обманули, разница не такая большая, только чуть лучше камера. Как AI-резерчер все AI фичи я, конечно, вырубил.
Такие дела.
Клевость покупок в США не в том, что в магазинах дешевле, а в доступе ко всему что может предложить eBay.
Можно покупать хорошую технику из разных мест по очень хорошим ценам, когда как в Европе люди жмутся и часто пытаются продать
поддержанное чуть ли не по цене магазина.
Мне очень давно хотелось ThinkPad и удалось найти вполне актуальный X13 Gen2 за всего 300$+налог. Это машинка с i7 (11 поколение) и 16GB RAM, что вполне позволяет крутить ей анализ данных, большую часть того, что мне нужно ну и еще легкость чтобы с собой брать лазить в терминалы. Моему старому Asus X31A с 4GB RAM даже от этого больно.
Пришло оно с Шindows 11, я конечно выпал в осадок с того, насколько это ужасно (на основном для GPU вещей у меня 10\Ubuntu) и снес это к чертовой матери, вместо накатил Ubuntu24 Cinnamon. Что меня порадовало, так это работа от батареи, помню что линукс с этим был не очень, а вот сейчас вроде на конкретном ноутбуке все хорошо.
Еще про радость (или не совсем), по трейд-ин поменял свой Pixel 6 Pro на 9 Pro XL (спасибо поездке в Бостон, где есть физический магазин). Гуглу как-то надо продавать, поэтому они предлагают забрать старые телефоны почти по половине цены нового. Первый день у меня все равно было ощущения что меня немного обманули, разница не такая большая, только чуть лучше камера. Как AI-резерчер все AI фичи я, конечно, вырубил.
Такие дела.
🔥6❤3👍1
Прошлые 2 недели были очень активные, сначала была конференция SBI2, наверное самая большая по микроскопии и анализу данных (как минимум в США). Увидел очень много знакомых, даже из Европы много кто был. Большинство докладов были про вычислительные штуки, Owkin показывали свою новую модель для H&E, Recursion показывали свою чуть более старую модель, много постеров про анализ датасет JUMP или других приложений Cell Painting. Тут произошло два фейла, первый, мы не зарегистрировались на хакатон, который проходил в Broad Institute (но все равно пришли и посидели там), а во-вторых, мой расчет был на то, что я покажу постер. В итоге результаты пока не очень и пришлось от этой идеи отказаться. Но как посетитель я очень доволен.
CytoData в этом году объединили с SBI2, потому что у оргов сложности найти хоста в США. Кстати, на проведение CytoData в Европе очередь, на проведение в 2025 году было 4 заявки, включая нас (Сегед). Нас не выбрали и шансы, были не очень против Берлина, Цюриха и Вены, в итоге выбрали Берлин. Вроде бы в этом же месте недавно релизнули еще один большой датасет Cell Painting. Я несколько разочарован, но логистические минусы Сегеда очевидны, хоть мы и были готовы организовать всем участникам личный лимузин автобусы от аэропорта.
Вторая (прошлая) неделя была посвящена Bioimage North America 2024, которую проводили уже в Мадисоне. Удивительно, но люди как будто почти не пересекались, кроме некоторых исключений. Тут предлагался гораздо более широкий набор тем, но скорее про комьюнити билдинг, как учить, как организовать, вопросы финансирования и прочее. Поэтому было много людей из бизнеса и из core facilities университетов. Вычислительной секции почти не было. Большую часть докладов, я, если честно, проскипал (не мои темы) и тусил на ланчах и ужинах просто болтая.
Впрочем, на первые пару дней приезжал нобелевский лауреат Eric Betzig, Хуан (мой PI в Мадисоне) смог его поймать и показывал нашу работу.
Мое время тут истекло и сейчас я сижу в аэропорту Мадисона и готовлюсь лететь домой.
CytoData в этом году объединили с SBI2, потому что у оргов сложности найти хоста в США. Кстати, на проведение CytoData в Европе очередь, на проведение в 2025 году было 4 заявки, включая нас (Сегед). Нас не выбрали и шансы, были не очень против Берлина, Цюриха и Вены, в итоге выбрали Берлин. Вроде бы в этом же месте недавно релизнули еще один большой датасет Cell Painting. Я несколько разочарован, но логистические минусы Сегеда очевидны, хоть мы и были готовы организовать всем участникам
Вторая (прошлая) неделя была посвящена Bioimage North America 2024, которую проводили уже в Мадисоне. Удивительно, но люди как будто почти не пересекались, кроме некоторых исключений. Тут предлагался гораздо более широкий набор тем, но скорее про комьюнити билдинг, как учить, как организовать, вопросы финансирования и прочее. Поэтому было много людей из бизнеса и из core facilities университетов. Вычислительной секции почти не было. Большую часть докладов, я, если честно, проскипал (не мои темы) и тусил на ланчах и ужинах просто болтая.
Впрочем, на первые пару дней приезжал нобелевский лауреат Eric Betzig, Хуан (мой PI в Мадисоне) смог его поймать и показывал нашу работу.
Мое время тут истекло и сейчас я сижу в аэропорту Мадисона и готовлюсь лететь домой.
🔥7
Вчера с нобелевки подорвались физики, сегодня химики. Нам, как сторонним наблюдателям, остаётся только кекать с происходящей драмы.
👎1😁1🤔1
A cell atlas foundation model for scalable search of similar human cells
Genentech выкатил статью про их модель SCimilarity для поиска похожих клеток на scRNA-seq данных.
Но вообще, модель уже была давно доступна, даже не одна версия.
GitHub: https://github.com/Genentech/scimilarity
Genentech выкатил статью про их модель SCimilarity для поиска похожих клеток на scRNA-seq данных.
Но вообще, модель уже была давно доступна, даже не одна версия.
GitHub: https://github.com/Genentech/scimilarity
Nature
A cell atlas foundation model for scalable search of similar human cells
Nature - In a 23.4-million-cell atlas of 412 single-cell RNA-sequencing studies, SCimilarity query of macrophage and fibroblast profiles from interstitial lung disease reveals similar cell profiles...
👍2