Screen Shot 2021-07-31 at 19.59.10.png
385.8 KB
В статье выше цитируется очень приятная и полезная работа - https://www.nature.com/articles/s42256-021-00307-0
Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:
1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей
В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей
На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций
RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an
Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:
1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей
В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей
На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций
RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an
#cnn #biology #dilation #ResNet #ScientificML
https://www.cell.com/cell/fulltext/S0092-8674(18)31629-5
Отличная статья на биологическую тему - предсказание сайтов сплайсинга.
Коротко - у человека ген, кодирующий белок, не весь кодирует последовательность этого белка. Есть кодирующие его части - экзоны и некодирующие,регуляторные и просто мусорные части - интроны. Отвечает за вырезание из всей последовательности мРНК только нужных экзонов процесс, называемый сплайсинг.
Одной из важных задач является предсказание по последовательности гена экзонов и интронов - соответственно участков, в которых будет происходить вырезание.
В данной работе авторы это делают при помощи resnet-like архитектуры.
Более того - на самом деле некоторые участки в зависимости от условий/великого корейского рандома могут то трактоваться сплайсингом как интроны, то как экзоны. И скоры, которые выдает модель для сайтов сплайсинга коррелируют с вероятностью участка быть экзоном/интроном. Что тоже круто.
Ну и конечно, модель умеет в insilico-скрининг - мутируем последовательность интересующего нас гена и смотрим, изменится ли предсказание модели. Если изменилось, то поменялось то, как спласинг нарезает наш ген. Это часто приводит к чему-то нехорошему - наследственные болезни, опухоли и тд.
Модель хорошая и повсеместно используется. Можно вставлять в примеры архитектур CNN. Более того - она приятна еще и тем, что в ней активно используются dilation конволюции, примеров применения которых у нас в лекциях сейчас мало
https://www.cell.com/cell/fulltext/S0092-8674(18)31629-5
Отличная статья на биологическую тему - предсказание сайтов сплайсинга.
Коротко - у человека ген, кодирующий белок, не весь кодирует последовательность этого белка. Есть кодирующие его части - экзоны и некодирующие,регуляторные и просто мусорные части - интроны. Отвечает за вырезание из всей последовательности мРНК только нужных экзонов процесс, называемый сплайсинг.
Одной из важных задач является предсказание по последовательности гена экзонов и интронов - соответственно участков, в которых будет происходить вырезание.
В данной работе авторы это делают при помощи resnet-like архитектуры.
Более того - на самом деле некоторые участки в зависимости от условий/великого корейского рандома могут то трактоваться сплайсингом как интроны, то как экзоны. И скоры, которые выдает модель для сайтов сплайсинга коррелируют с вероятностью участка быть экзоном/интроном. Что тоже круто.
Ну и конечно, модель умеет в insilico-скрининг - мутируем последовательность интересующего нас гена и смотрим, изменится ли предсказание модели. Если изменилось, то поменялось то, как спласинг нарезает наш ген. Это часто приводит к чему-то нехорошему - наследственные болезни, опухоли и тд.
Модель хорошая и повсеместно используется. Можно вставлять в примеры архитектур CNN. Более того - она приятна еще и тем, что в ней активно используются dilation конволюции, примеров применения которых у нас в лекциях сейчас мало
SpliceAI2.jpeg
1.2 MB
Архитектуры моделей, тестировавшихся в статье
Нейроморфные чипы для нейросетей
Достижения в области машинного обучения напрямую связаны с увеличивающимеся (с годами) вычислительными ресурсами. Но есть нюанс - ML требует больше ресурсов быстрее, чем эти ресурсы становятся доступны (например OpenAI посчитали что ресурсы необходимые для достижениня SOTA удваиваются каждые 3.4 месяца).
В качестве решения предлагают использовать нйероморфные чипы - то есть чипы, которые тем или иным способом иммитируют природные мозги. Например, у человеческого мозга крайне низкие энергозатраты - всего 20 ватт. Для сравнения, для GPT-3 нужно 20 Мегаватт.
В статье рассказывается про современные подходы к реализации нейроморфных чипов:
1) Spiking Neural Networks
2) Highly Parallel Systems
3) Analogue Computing
И про лабы и стратапы, которые такие чипы уже делают.
#hardware
Достижения в области машинного обучения напрямую связаны с увеличивающимеся (с годами) вычислительными ресурсами. Но есть нюанс - ML требует больше ресурсов быстрее, чем эти ресурсы становятся доступны (например OpenAI посчитали что ресурсы необходимые для достижениня SOTA удваиваются каждые 3.4 месяца).
В качестве решения предлагают использовать нйероморфные чипы - то есть чипы, которые тем или иным способом иммитируют природные мозги. Например, у человеческого мозга крайне низкие энергозатраты - всего 20 ватт. Для сравнения, для GPT-3 нужно 20 Мегаватт.
В статье рассказывается про современные подходы к реализации нейроморфных чипов:
1) Spiking Neural Networks
2) Highly Parallel Systems
3) Analogue Computing
И про лабы и стратапы, которые такие чипы уже делают.
#hardware
Medium
Will we ever compute like a brain?
The majority of significant breakthroughs in computer science and Artificial Intelligence have been the result of an explosive increase in…
Генеративное_глубокое_обучение_Творческий_потенци.pdf
12.4 MB
Неплохая вводная книга по генеративным сетям. Устаревшая местами, но для новичков хорошая (нуу и она на tensorflow).
Неформальное описание задачи для AE и GAN очень творческие и красивые. Имхо для GAN у автора лучше получилось описание, чем классическое сыщик-фальшивомонетчик
#generative #GAN #gpt #книги
Неформальное описание задачи для AE и GAN очень творческие и красивые. Имхо для GAN у автора лучше получилось описание, чем классическое сыщик-фальшивомонетчик
#generative #GAN #gpt #книги
Красивая статья на kaggle. Автор не добивается на соревновании прям огонь результата. Но при этом очень аккуратно работает с пропущенными значениями и кодированием категориальных переменных. Читать интересно
Ну и в комментах есть ссылка на статью, где автор ручками чистит немного данные и тоже логрегом получает хорошие резы
#categorical
Ну и в комментах есть ссылка на статью, где автор ручками чистит немного данные и тоже логрегом получает хорошие резы
#categorical
Kaggle
Categorical Feature Encoding Challenge II
Explore and run machine learning code with Kaggle Notebooks | Using data from Categorical Feature Encoding Challenge II
Есть такой пакет DeepTables.
Для работы с табличными данными, содержит реализации нескольких красивых решений.
На соревновании сверху почти с нуля добивается топ-качества.
Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.
Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч
#tabular
Для работы с табличными данными, содержит реализации нескольких красивых решений.
На соревновании сверху почти с нуля добивается топ-качества.
Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.
Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч
#tabular
GitHub
GitHub - DataCanvasIO/DeepTables: DeepTables: Deep-learning Toolkit for Tabular data
DeepTables: Deep-learning Toolkit for Tabular data - DataCanvasIO/DeepTables
Насчет датасетов - набор датасетов для демонстраций ML на химии.
К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет
#ScientificML #chemistry #datasets
К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет
#ScientificML #chemistry #datasets
Так же стоит отметить ициативу DeepChem, которые автоматизируют обучение на химических веществах.
GitHub
Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.
#ScientificML #chemistry
GitHub
Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.
#ScientificML #chemistry
GitHub
deepchem
deepchem has 19 repositories available. Follow their code on GitHub.
Wasserstein WGAN-GP для генерации молекул. Опять же, датасет используется довольно бесмысленный, но можем адаптировать этот пример с tensorflow на pytorch.
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ
#ScientificML #chemistry #graph #GAN
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ
#ScientificML #chemistry #graph #GAN
keras.io
Keras documentation: WGAN-GP with R-GCN for the generation of small molecular graphs
Perceiver IO: позволяет работать с различными модальностями (текст, картинки, звук, видео), в том числе одновременно
Блог-пост DeepMind
GitHub (код, колабы, предобученные модели JAX)
GitHub (реплика на PyTorch)
#transformer #multimodal
Блог-пост DeepMind
GitHub (код, колабы, предобученные модели JAX)
GitHub (реплика на PyTorch)
#transformer #multimodal
Моя версия блокнота VQGAN+CLIP добралась до 🤗 Spaces.
Поиграться можно хоть с телефона
#text2image #GAN #CLIP #demo
Поиграться можно хоть с телефона
#text2image #GAN #CLIP #demo
Twitter
AK
VQGAN + CLIP public now on @huggingface Spaces using @Gradio link: huggingface.co/spaces/akhaliq…
SpeechBrain - классный репозиторий для всего связанного со звуком. Сам им пользовался пару раз.
#sound #speech #audio
#sound #speech #audio
Twitter
Philip Vollet
SpeechBrain an open-source and all-in-one speech toolkit based on PyTorch Develop state-of-the-art speech technologies, including systems for speech recognition, speaker recognition, speech enhancement, multi-microphone signal processing @SpeechBrain1 gi…
Где машинка применяется в drug design
Довольно по верхам имхо. Только общее представление получить.
И, да, генерация молекул упоминается.
YouTube
NeurIPS
#ScientificML #medicine
Довольно по верхам имхо. Только общее представление получить.
И, да, генерация молекул упоминается.
YouTube
NeurIPS
#ScientificML #medicine
Ну или вот талк от главы Insilico Medicine. Про то, как у них пайплайн по разработке лекарств работает
Про longevity я бы не слушал, но это у меня аллергия.
YouTube
#ScientificML #medicine
Про longevity я бы не слушал, но это у меня аллергия.
YouTube
#ScientificML #medicine
YouTube
Alex Zhavoronkov - From AI-Powered Drug Discovery to Longevity Medicine
Alex Zhavoronkov, Insilico Medicine, Hong Kong, presents at the 2020 Aging Research and Drug Discovery conference.
About the Aging Research and Drug Discovery meeting:
According to the United Nations, the proportion of people aged over 65 now outnumber…
About the Aging Research and Drug Discovery meeting:
According to the United Nations, the proportion of people aged over 65 now outnumber…
На NeurIPS будет целая отдельная секция про AI for Science:
https://ai4sciencecommunity.github.io
Шикарный line-up и до 18 сентября можно подать абстракты
#ScientificML #conference
https://ai4sciencecommunity.github.io
Шикарный line-up и до 18 сентября можно подать абстракты
#ScientificML #conference
StyleGAN-NADA преобразует предварительно обученный генератор в новые домены, используя только текстовую подсказку и без обучающих данных.
Естественно направляет его CLIP.
Project
#GAN #CLIP #multimodal
Естественно направляет его CLIP.
Project
#GAN #CLIP #multimodal