Strong baseline – Telegram

Strong baseline

@strongbaseline

208 subscribers

27 photos

2 videos

96 links

ML in biology, bioinformatics, biology, memes, travels (?).

Download Telegram

About

Blog

Apps

Platform

Strong baseline

208 subscribers

Strong baseline

Вся суть ПО за последние несколько лет: текстовый редактор (VS Code) жрет несколько Гб RAM просто при коннекте (на клиенте включено всего несколько вкладок с кодом, но думаю разницы нет). Что оно там делает? Почему нужно 3Гб RAM на SSH коннект и PyLInt? Когда-то Билл Гейтс сказал что 640кб памяти хватит всем, он не учел что люди, которые разработают ВОТ ЭТО еще не родились.

👍2💩2

351 viewsedited 09:55

Strong baseline

Forwarded from Labrats

Взяли у Grmn Dmdv

❤4

355 views15:15

Strong baseline

С помощью ChatGPT и suno.com создал хорошую мотивационную песню. Все будет хорошо!

👏3

306 views18:16

Strong baseline

Ну и еще, если будете плохими мальчиками и девочками, вас ждет расплата. Следующая песня как раз про это. Больше не буду, честно.

Вообще, я видел GANы для генерации музыки очень давно, например вот такое для генерации 8-битной музыки, но теперь прямо можно развернуться. Далеко не production-ready но можно вполне тестировать музыкальные идеи\ текст, например.

⚡3

362 views18:24

Strong baseline

Sabine Hossenfelder (популяризатор здорового человека по физике) рассказывает про свой опыт в академии и историю.
Вообще накидывать на академию сейчас модно (см., например, канал Andy Stapleton) и причин на то очень много, но часто люди, которые ушли или уходят и публично высказываются, были на момент ухода в начале своего карьерного пути, тут же интересно что Сабин провела всю жизнь в академии, была успешной, но не вышло делать те исследования, которые на самом деле она хотела.

https://www.youtube.com/watch?v=LKiBlGDfRU8

🔥1

371 viewsedited 22:10

Strong baseline

https://goodinternet.substack.com/p/ai-is-a-shoggoth

AI is a Shoggoth

The lovecraftian nature of The Digital

❤2

322 views13:28

Strong baseline

В этой новости прекрасно все.

299 views12:31

Strong baseline

Forwarded from Венгрия, Будапешт и не только

В Словакии летающий автомобиль совершил первый полет с пассажиром

Разработанный в Словакии AirCar впервые взлетел с пассажиром: на борту автомобиля помимо пилота находилась мировая звезда электронной музыки Жан-Мишель Жарр.

Полет состоялся в аэропорту курорта Пьештяны в Словакии. AirCart пилотировал его конструктор Штефан Кляйн: в общей сложности он дважды поднимался в воздух.

AirCart оснащен двигателем BMW, работает на обычном бензине и трансформируется в самолет всего за две с половиной минуты. Для его использования необходима лицензия пилота. Транспортное средство может взлетать и приземляться на взлетно-посадочную полосу, аналогичную той, которую используют небольшие самолеты.

Видео полета

#усоседей

@tripandme

🔥3

364 views12:31

Strong baseline

Устроим музыкальную паузу.
https://www.youtube.com/watch?v=RAhgz9aLukk

Jean Michel Jarre - Equinoxe Full Album (MFSL) [HQ]

Jean Michel Jarre - Equinoxe 1978 (2CD-MFSL) 320kbps

Artist/Band: Jean Michel Jarre
Album: Equinoxe
Year: 1978
Genre: "Synthpop"/Electronic

👍2❤1

425 views12:32

Strong baseline

В ML кругах адско форсится свежая статья Kolmogorov–Arnold Networks, новый взгляд на нейросети.

KAN более эффективно используют параметры, но при этом дольше тренируются. Еще заявлена интерпретируемость. Не буду притворяться что я тут что-то понимаю, мне пока непонятно ничего, но очень интересно.

В топе HackerNews висит уже более эффективная реализация.

Через неделю будет доклад, может там будет что-то понятно.

KAN: Kolmogorov-Arnold Networks

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation...

🔥3

455 views14:41

Strong baseline

В Венгрии я уже шесть лет, Сербская граница буквально в нескольких километрах, но доехать туда я сподобился только сейчас.

Про дорогу: Вообще, путь в Белград из Сегеда не очень удобный, самый лучший видимо сесть на поезд до Суботицы и пересечь на нем границу (половина времени поездки - прохождение границы, но так хоть есть какие-то гарантии времени),
потом пересесть на поезд до Белграда, весь путь от двери до двери в итоге занимает часов 7 (с ожиданием автобуса пересадки). Обратно мы поймали блаблакар (пользовались таким в России?), так вышло что вез
нас игрок местной волейбольной команды "Спартак" Суботица ну и потом опять поезд. Если из Венгрии прохождение границы очень лайтовое, то обратно смотрели вещи, искали алкоголь и сигареты.

Про Белград: Скажу так, я приятно удивлен. Город немного бардачнее грязнее, но движения как будто бы больше, чем в Будапеште и нет ощущения что тут может быть как-то опасно. Русскоговорящих очень много, они устраивают свои довольно большие тусы. Мы зашли на одну, около местного Яндекса, там было человек 70+ точно, но не остались из-за очереди и жары. Еще Белград активно застраивается (видно на фото новые здания у Дуная). Еще в кафе отличное мясо и недорого по нынешним ценам, мы были тут.

В Суботице времени не было, но там оказалось тоже очень приятно на первый взгляд. Местная синагога очень красива и оказалась еще больше Сегедской.

❤3👍3

412 viewsedited 19:46

Strong baseline

Kek

💩3🌚1

398 views08:20

Strong baseline

Friendly reminder

351 views09:14

Strong baseline

Forwarded from Love. Death. Transformers.

😁6

334 views09:14

Strong baseline

Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology

Чуть более месяца назад Recursion выкатила работу с моделью натренированной на Cell Painting данных для image-based profiling.
Сейчас все тренируют DINO \ DINOv2 \ иногда SimCLR но зачем, но тут решили сделать модель на основе Masked Autoencoders (MAE), вместо того чтобы мэтчить изображения с разными аугментациями, задача MAE восстановить случайно пропущенные (aka masked) части изображения, так, чтобы это было макcимально похоже на оригинал.

Кстати, изображения Cell Painting, который делает Recursion 6-канальные, а не 5-канальные, как в стандартном протоколе, это было мотивацией сделать модели более универсальными - Channel Agnostic MAE (CA-MAE). Идея была взята из мульти-модальных MAE, которые тренируются не только на исходных изображениях, а дополнительно имею на вход карту глубин и семантическую сегментацию. Здесь же, каждый канал изображения это отдельная модальность.

В лосс включили часть, где изображения сравниваются после быстрого преобразования Фурье, т.к. модель только со стандартной частью лосса (mean squared error) не могла пойти на "второй заход" в тренировке (когда лосс идет вниз после стагнирования). Происходит это из-за особенностей изображений микроскопии, а именно большого изменения цвета в определенных участках (с 0, где ничего, нет на большую яркость, там где есть клетка), в обычных изображениях эти переходы, очевидно, более плавные.

Все это тренировали на своих данных, значительная часть которых (а может даже и все, тут не очень понятно из описания) открыта, с разнообразными пертурбациями: siRNA\CRISPR\overexpression\small molecule drugs\soluble factors.

Профили потом стандартно прогнали через TVN, потом взяли верхние и нижние 5% связей по cosine similarity и сравнили насколько эти связи биологически верны по нескольких базам: CORUM, Reactome, StringDB, hu.MAP. В этом бенчмарке попробовали очень много моделей, как и претренированные на ImageNet ViT, тренированные для классификации ViT и DenseNet, MAE основанные на U-Net (MU-Net), ViT (обычные и channel agnostic). В итоге MAE-ViT и CA-MAE сравнимы, при условии что размер модели и тренировочный датасет были одинаковы, но MU-Net тоже относительно неплохи.

Код и модели.

Masked Autoencoders for Microscopy are Scalable Learners of...

Featurizing microscopy images for use in biological research remains a significant challenge, especially for large-scale experiments spanning millions of images. This work explores the scaling...

493 views09:52

Strong baseline

Сдуру согласился быть рецензентом для NeurIPS 2024 Datasets and Benchmarks, а вы думали мне основной трек кто-то доверит 🌚. Приходит письмо с описанием процесса и там

We aim to assign max 4-5 papers per reviewer.

Хотел море в июле, ну вот, получу видимо море статей на рецензирование.

498 views11:14

Strong baseline

A guide to artificial intelligence for cancer researchers

Хорошая обзорная статья для тех, кто хочет применять ML (computer vision и NLP) в исследованиях рака, особенно если вы только начинаете вкатываться.

❤2

475 views19:50

Strong baseline

Best paper to start the day does not exi ...

ChatGPT is bullshit

Вообще, неиронично, очень веселая статья. Из нее, например, я узнал что явление bullshit -а вполне себе разобрано философом Гарри Франкфуртом.
Ниже цитата из статьи:

Frankfurt understands bullshit to be characterized not by an intent to deceive but instead by a reckless disregard for the truth. A student trying to sound knowledgeable without having done the reading, a political candidate saying things because they sound good to potential voters, and a dilettante trying to spin an interesting story: none of these people are trying to deceive, but they are also not trying to convey facts. To Frankfurt, they are bullshitting.

Булшит можно делить на hard (если есть интенция ввести людей в заблуждение) и soft (если такой интенции нет).
LLMs* совершенно точно soft булшиттеры и вполне вероятно еще и hard, например за счет того как они натренировны.

В статье в общем-то, пытаются подвести что называть ошибки LLM галлюцинациями неверно и вредно, т.к.
1) модели не пытаются что-то донести что-то
2) поднимает хайп о возможностях этих моделей
3) собственно, bullshit, более подходящий термин для происходящего

*Статья конкретно о ChatGPT, но в целом это верно для всех языковых моделей

ChatGPT is bullshit

Ethics and Information Technology - Recently, there has been considerable interest in large language models: machine learning systems which produce human-like text and dialogue. Applications of...

👍4❤2😁2🌚1

706 viewsedited 09:27

Strong baseline

You Don’t Need Data Augmentation in Self-Supervised Learning
Статья от авторов DINO\DINOv2.
Главный тейк: если у вас достаточно большой датасет (например тот, на котором тренировали DINOv2 из 100+ миллионов изображений, впрочем и ImageNet22k уже мало отличается), то можно прожить без аугментаций, достаточно просто кропов без ресайза, то есть это сводит к тому что в SSL смысл аугментаций тот же, как и в supervised learning, просто увеличивать датасет. Предыдущие выводы о необходимости аугментаций в SSL просто были сделаны на маленьких тренировочных датасетах.

You Don't Need Domain-Specific Data Augmentations When Scaling...

Self-Supervised learning (SSL) with Joint-Embedding Architectures (JEA) has led to outstanding performances. All instantiations of this paradigm were trained using strong and well-established...

517 views10:26

Strong baseline

Forwarded from Neural Shit

Media is too big

VIEW IN TELEGRAM

Кроссовер, который мы заслужили.

Как выглядел бы фильм "Властелин колец" во вселенной Cyberpunk 2077.

😁3❤1

569 views20:44