AI для Всех

Красивые задачи (особенно первые две). Можно использовать на вступительных.

#Отборочные

92 viewsDmitry Penzar, 13:37

AI для Всех

Завтра (19ого мая) будет интересный доклад по зуму: https://www.physicsmeetsml.org/posts/sem_2021_05_20/

#news

www.physicsmeetsml.org

Are wider nets better given the same number of parameters?

Anna Golubeva, Perimeter Institute, 12:00 ET

83 viewsArtemii, edited 04:17

AI для Всех

Просто шикарный психодел. Чувак написал песню используя названия классов из ImageNet и сгенерировал к ней видиоклип используя CLIP и BigGan:

YouTube

#GAN #joke #text2image #CLIP

YouTube

AI made this music video | What happens when OpenAI's CLIP meets BigGAN?

#artificialintelligence #musicvideo #clip

I used OpenAI's CLIP model and BigGAN to create a music video that goes along with the lyrics of a song that I wrote. The song lyrics are made from ImageNet class labels, and the song itself is performed by me on…

93 viewsArtemii, edited 18:20

AI для Всех

Оказывается любой GAN уже умеет отделять изображения от фона:

Project

#GAN #Separation

83 viewsArtemii, edited 06:19

AI для Всех

Forwarded from эйай ньюз

Итак, господа. Новый прорыв в self-supervised learning. Идея, как всегда, простая как апельсин.

До этого момента (почти) все тренили свои self-supervised модели на ImageNet и тестили там же. Фишка в том, что ImageNet — чистый датасет со сбалансированными классами и отцентрированными объектами. А если тренироваться на больших некурируемых датасетах как JFT-300M с 300-миллионами изображений (это внутряковый датасет Гугла) либо на YFCC100M с 95-миллионами, где распределение размера классов имеет тяжелый хвост, то точность SOTA моделей при тесте ImageNet существенно падает (с 74.3% до 65.3%). Все дело в том, что в таких больших датасетах очень много разных объектов, а иногда несколько на одной картинке, поэтому вероятность случайно выбрать сложные негативные примеры значительно ниже. То есть в среднем две случайные картинки слишком сильно отличаются => мало информации для обучения.

Авторы предлагают простой трюк. Разбиваем большой датасет на 5-10 кластеров и обучаем отдельные модели на каждом кластере, таким образом обучение отдельных моделей (экспертов) будет происходить на более близких картинках => негативные пары будут сложнее и более информативные. Далее фиксируем модели-эксперты и дистиллируем их в одну. Новая модель учится предсказывать фичи каждого эксперта с помощью L2 лосса. В итоге, офигенная точность на ImageNet при обучении без лейблов на JFT-300M: 77.3% Top1.

Подробнее в статье от DeepMind.

81 viewsArtemii, 12:05

AI для Всех

Можно поспорить насколько это наука, но определенно применение нейронных сетей *в* науке.

Twitter

#ScientificML #biology

Twitter

Google AI

Introducing BioMed Explorer, a new state-of-the-art NLP tool that expands the corpus of the COVID-19 Research Explorer (goo.gle/2SzvVt7) from CORD-19 to all of PubMed. Use BioMed Explorer to find relevant papers for complex biomedical questions at g.co/research/biome…!

86 viewsArtemii, edited 17:56

AI для Всех

Хороший репозиторий с проверенными моделями и весами для картинок

GitHub

#images

GitHub

GitHub - huggingface/pytorch-image-models: The largest collection of PyTorch image encoders / backbones. Including train, eval…

The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (V...

96 viewsArtemii, edited 06:37

AI для Всех

А Facebook тем временем продолжает двигаться курсом на unsupervised.

Twitter
GitHub

#speech #SSL

Twitter

Facebook AI

To enable speech recognition technology for many more languages, Facebook AI is releasing wav2vec Unsupervised, a new method to train models with no supervision whatsoever. It rivals the performance of the best supervised systems from just a few years ago.…

81 viewsArtemii, edited 21:42

AI для Всех

нашел хороший канал. В закрепе ам тоже очень крутая статья

73 viewsDmitry Penzar, 18:32

AI для Всех

Forwarded from Хроники ботки (Aleksei Shestov 𓆏)

Почему трансформеры сложнее обучать, почему обучение нестабильно в начале, и что с этим делать

Эмпирически известно, что архитектуру трансфорсеров обучить сложнее чем, например, сверточные сети. Они не обучаются SGD, а также, чтобы обучение вообще сошлось, почти всегда необходимо использовать прогрев лернинг рейта - линейное повышение лернинг рейта от 0 до используемого значения. Почему же так происходит, что необходим прогрев и можно ли обойтись без него или чем то заменить? На этот вопрос отвечает (пытается ответить) серия аж из трех статей. Каждая следующая говорит, что предыдущая статья не все учла/не решает всей проблемы/решение неудачное, и предлагает что то свое. Но в принципе в каждой написано что то полезное 😀

Конечный вывод такой (в статье Understanding the Difficulty of Training Transformers https://arxiv.org/abs/2004.08249 - у классической архитектуры трансформеров на начальном этапе обучения очень большая чувствительность выхода сети к небольшим изменениям параметров. Происходит это из-за Layer Normalization(LN) после каждого residual connection, из-за этого выход LN сильно зависит от residual branch (а не от skip connection). Предлагаемое решение - добавлять в residual connection веса, которые определенным образом инициализируются (таким образом, чтобы усилить зависимость от skip connection). Благодаря этим весам выход трансформера становится стабильнее, и можно обойтись даже без прогрева лернинг рейта.

Более подробный разбор каждой статьи в следующем посте.

66 viewsDmitry Penzar, 18:32

AI для Всех

Forwarded from Artemii

я не могу остановиться. a fox made of paper

82 viewsArtemii, 19:55

AI для Всех

Forwarded from Artemii

cartoon of a pink lama

128 viewsArtemii, 19:56

AI для Всех

Ещё вчера я развлекался с Big Sleep, как подъехала новая статья от гугла.

Ждём кооооод и веса!

#Text2Image #generative #multimodal

blog.research.google

Cross-Modal Contrastive Learning for Text-to-Image Generation

70 viewsArtemii, edited 20:35

AI для Всех

Шустрый #transformer

Twitter пост

Twitter

Aggregating Nested Transformers pdf: arxiv.org/pdf/2105.12723… abs: arxiv.org/abs/2105.12723 68M achieves 82.3%/83.8% accuracy, NesT with 6M parameters from scratch on CIFAR10 achieves 96% accuracy using a single GPU, new SOTA, strong decoder 8× faster

80 viewsArtemii, edited 07:13

AI для Всех

Переводчик который РЕАЛЬНО работает с научными текстами.

DeepL

#translate

Deepl

DeepL Translate: The world's most accurate translator

Translate texts & full document files instantly. Accurate translations for individuals and Teams. Millions translate with DeepL every day.

97 viewsArtemii, edited 07:48

AI для Всех

Оказывается что при аугментации надо было не одно изменение на картинку накидывать, а два.

Remarkably, we find that drawing multiple samples per image consistently enhances the test accuracy achieved for both small and large batch training, despite reducing the number of unique training examples in each mini-batch.

ArXiv

#Training #Augmentation

77 viewsArtemii, edited 06:27

About

Blog

Apps

Platform