Sabine Hossenfelder (популяризатор здорового человека по физике) рассказывает про свой опыт в академии и историю.
Вообще накидывать на академию сейчас модно (см., например, канал Andy Stapleton) и причин на то очень много, но часто люди, которые ушли или уходят и публично высказываются, были на момент ухода в начале своего карьерного пути, тут же интересно что Сабин провела всю жизнь в академии, была успешной, но не вышло делать те исследования, которые на самом деле она хотела.
https://www.youtube.com/watch?v=LKiBlGDfRU8
Вообще накидывать на академию сейчас модно (см., например, канал Andy Stapleton) и причин на то очень много, но часто люди, которые ушли или уходят и публично высказываются, были на момент ухода в начале своего карьерного пути, тут же интересно что Сабин провела всю жизнь в академии, была успешной, но не вышло делать те исследования, которые на самом деле она хотела.
https://www.youtube.com/watch?v=LKiBlGDfRU8
🔥1
Forwarded from Венгрия, Будапешт и не только
В Словакии летающий автомобиль совершил первый полет с пассажиром
Разработанный в Словакии AirCar впервые взлетел с пассажиром: на борту автомобиля помимо пилота находилась мировая звезда электронной музыки Жан-Мишель Жарр.
Полет состоялся в аэропорту курорта Пьештяны в Словакии. AirCart пилотировал его конструктор Штефан Кляйн: в общей сложности он дважды поднимался в воздух.
AirCart оснащен двигателем BMW, работает на обычном бензине и трансформируется в самолет всего за две с половиной минуты. Для его использования необходима лицензия пилота. Транспортное средство может взлетать и приземляться на взлетно-посадочную полосу, аналогичную той, которую используют небольшие самолеты.
Видео полета
#усоседей
@tripandme
Разработанный в Словакии AirCar впервые взлетел с пассажиром: на борту автомобиля помимо пилота находилась мировая звезда электронной музыки Жан-Мишель Жарр.
Полет состоялся в аэропорту курорта Пьештяны в Словакии. AirCart пилотировал его конструктор Штефан Кляйн: в общей сложности он дважды поднимался в воздух.
AirCart оснащен двигателем BMW, работает на обычном бензине и трансформируется в самолет всего за две с половиной минуты. Для его использования необходима лицензия пилота. Транспортное средство может взлетать и приземляться на взлетно-посадочную полосу, аналогичную той, которую используют небольшие самолеты.
Видео полета
#усоседей
@tripandme
🔥3
В ML кругах адско форсится свежая статья Kolmogorov–Arnold Networks, новый взгляд на нейросети.
KAN более эффективно используют параметры, но при этом дольше тренируются. Еще заявлена интерпретируемость. Не буду притворяться что я тут что-то понимаю, мне пока непонятно ничего, но очень интересно.
В топе HackerNews висит уже более эффективная реализация.
Через неделю будет доклад, может там будет что-то понятно.
KAN более эффективно используют параметры, но при этом дольше тренируются. Еще заявлена интерпретируемость. Не буду притворяться что я тут что-то понимаю, мне пока непонятно ничего, но очень интересно.
В топе HackerNews висит уже более эффективная реализация.
Через неделю будет доклад, может там будет что-то понятно.
arXiv.org
KAN: Kolmogorov-Arnold Networks
Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation...
🔥3
В Венгрии я уже шесть лет, Сербская граница буквально в нескольких километрах, но доехать туда я сподобился только сейчас.
Про дорогу: Вообще, путь в Белград из Сегеда не очень удобный, самый лучший видимо сесть на поезд до Суботицы и пересечь на нем границу (половина времени поездки - прохождение границы, но так хоть есть какие-то гарантии времени),
потом пересесть на поезд до Белграда, весь путь от двери до двери в итоге занимает часов 7 (с ожиданием автобуса пересадки). Обратно мы поймали блаблакар (пользовались таким в России?), так вышло что вез
нас игрок местной волейбольной команды "Спартак" Суботица ну и потом опять поезд. Если из Венгрии прохождение границы очень лайтовое, то обратно смотрели вещи, искали алкоголь и сигареты.
Про Белград: Скажу так, я приятно удивлен. Город немного бардачнеегрязнее , но движения как будто бы больше, чем в Будапеште и нет ощущения что тут может быть как-то опасно. Русскоговорящих очень много, они устраивают свои довольно большие тусы. Мы зашли на одну, около местного Яндекса, там было человек 70+ точно, но не остались из-за очереди и жары. Еще Белград активно застраивается (видно на фото новые здания у Дуная). Еще в кафе отличное мясо и недорого по нынешним ценам, мы были тут.
В Суботице времени не было, но там оказалось тоже очень приятно на первый взгляд. Местная синагога очень красива и оказалась еще больше Сегедской.
Про дорогу: Вообще, путь в Белград из Сегеда не очень удобный, самый лучший видимо сесть на поезд до Суботицы и пересечь на нем границу (половина времени поездки - прохождение границы, но так хоть есть какие-то гарантии времени),
потом пересесть на поезд до Белграда, весь путь от двери до двери в итоге занимает часов 7 (с ожиданием автобуса пересадки). Обратно мы поймали блаблакар (пользовались таким в России?), так вышло что вез
нас игрок местной волейбольной команды "Спартак" Суботица ну и потом опять поезд. Если из Венгрии прохождение границы очень лайтовое, то обратно смотрели вещи, искали алкоголь и сигареты.
Про Белград: Скажу так, я приятно удивлен. Город немного бардачнее
В Суботице времени не было, но там оказалось тоже очень приятно на первый взгляд. Местная синагога очень красива и оказалась еще больше Сегедской.
❤3👍3
Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology
Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLRно зачем , но тут решили сделать модель на основе Masked Autoencoders (MAE), вместо того чтобы мэтчить изображения с разными аугментациями, задача MAE восстановить случайно пропущенные (aka masked) части изображения, так, чтобы это было макcимально похоже на оригинал.
Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.
В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.
Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.
Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.
Код и модели.
Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLR
Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.
В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.
Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.
Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.
Код и модели.
arXiv.org
Masked Autoencoders for Microscopy are Scalable Learners of...
Featurizing microscopy images for use in biological research remains a significant challenge, especially for large-scale experiments spanning millions of images. This work explores the scaling...
We aim to assign max 4-5 papers per reviewer.
Хотел море в июле, ну вот, получу видимо море статей на рецензирование.
A guide to artificial intelligence for cancer researchers
Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.
Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.
❤2
Best paper to start the day does not exi ...
ChatGPT is bullshit
Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:
Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.
В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего
*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей
ChatGPT is bullshit
Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:
Frankfurt understands bullshit to be characterized not by an intent to deceive but instead by a reckless disregard for the truth. A student trying to sound knowledgeable without having done the reading, a political candidate saying things because they sound good to potential voters, and a dilettante trying to spin an interesting story: none of these people are trying to deceive, but they are also not trying to convey facts. To Frankfurt, they are bullshitting.
Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.
В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего
*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей
SpringerLink
ChatGPT is bullshit
Ethics and Information Technology - Recently, there has been considerable interest in large language models: machine learning systems which produce human-like text and dialogue. Applications of...
👍4❤2😁2🌚1
You Don’t Need Data Augmentation in Self-Supervised Learning
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.
arXiv.org
You Don't Need Domain-Specific Data Augmentations When Scaling...
Self-Supervised learning (SSL) with Joint-Embedding Architectures (JEA) has led to outstanding performances. All instantiations of this paradigm were trained using strong and well-established...
Forwarded from Neural Shit
Media is too big
VIEW IN TELEGRAM
Кроссовер, который мы заслужили.
Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.
Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.
😁3❤1
Мне кажется я не читал ранта смешнее (но со всем согласен).
https://ludic.mataroa.blog/blog/i-will-fucking-piledrive-you-if-you-mention-ai-again/
https://ludic.mataroa.blog/blog/i-will-fucking-piledrive-you-if-you-mention-ai-again/
❤2
Large-scale foundation model on single-cell transcriptomics
Авторы натренировали модель на куче человеческих транскриптов. С этим можно например смотреть что будет при комбинации пертурбаций.
Разбирать полностью статью не хочется, но бросился в глаза плот из Figure 5d, обратим внимание на очень маленький разброс значений выдаваемых моделью, против разброса в реальности,возможно это даже хорошо .
Авторы натренировали модель на куче человеческих транскриптов. С этим можно например смотреть что будет при комбинации пертурбаций.
Разбирать полностью статью не хочется, но бросился в глаза плот из Figure 5d, обратим внимание на очень маленький разброс значений выдаваемых моделью, против разброса в реальности,
Nature
Large-scale foundation model on single-cell transcriptomics
Nature Methods - scFoundation, with 100 million parameters covering about 20,000 genes, pretrained on over 50 million single-cell transcriptomics profiles, is a foundation model for diverse tasks...
Никто не говорил, что 95% занятий наукой это мерджить и заполнять таблички pandas-ом или в Excel, если вы прости Господи, медик ;или в R, если, ну вы и сами знаете что с вами не так .
😁3👍1
Strong baseline
В пятницу в лабе мы делали внутренний семинар про DL-методы анализа изображений H&E окрашенных образцов ткани (их используют для диагностики рака). Со своей стороны, я решил рассказать немного про self-supervised learning и несколько статей которые тренируют…
Модели обученные на H&E изображениях Virchow (Paige+Microsoft) и UNI (Mahmood Lab) релизнули в открытый доступ для некоммерческого использования. В обоих случаях это DINOv2.
Статьи:
https://www.nature.com/articles/s41591-024-03141-0
https://www.nature.com/articles/s41591-024-02857-3
Модели:
https://huggingface.co/paige-ai/Virchow
https://huggingface.co/MahmoodLab/UNI
Статьи:
https://www.nature.com/articles/s41591-024-03141-0
https://www.nature.com/articles/s41591-024-02857-3
Модели:
https://huggingface.co/paige-ai/Virchow
https://huggingface.co/MahmoodLab/UNI
Nature
A foundation model for clinical-grade computational pathology and rare cancers detection
Nature Medicine - Trained on 1.5 million whole-slide images from 100,000 patients, a pathology foundation model is shown to improve performance of specialized models in detection of rare...
👍2