AI для Всех
15K subscribers
1.33K photos
181 videos
11 files
1.52K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Красивые задачи (особенно первые две). Можно использовать на вступительных.

#Отборочные
Просто шикарный психодел. Чувак написал песню используя названия классов из ImageNet и сгенерировал к ней видиоклип используя CLIP и BigGan:

YouTube

#GAN #joke #text2image #CLIP
Оказывается любой GAN уже умеет отделять изображения от фона:

Project

#GAN #Separation
Forwarded from эйай ньюз
​​Итак, господа. Новый прорыв в self-supervised learning. Идея, как всегда, простая как апельсин.

До этого момента (почти) все тренили свои self-supervised модели на ImageNet и тестили там же. Фишка в том, что ImageNet — чистый датасет со сбалансированными классами и отцентрированными объектами. А если тренироваться на больших некурируемых датасетах как JFT-300M с 300-миллионами изображений (это внутряковый датасет Гугла) либо на YFCC100M с 95-миллионами, где распределение размера классов имеет тяжелый хвост, то точность SOTA моделей при тесте ImageNet существенно падает (с 74.3% до 65.3%). Все дело в том, что в таких больших датасетах очень много разных объектов, а иногда несколько на одной картинке, поэтому вероятность случайно выбрать сложные негативные примеры значительно ниже. То есть в среднем две случайные картинки слишком сильно отличаются => мало информации для обучения.

Авторы предлагают простой трюк. Разбиваем большой датасет на 5-10 кластеров и обучаем отдельные модели на каждом кластере, таким образом обучение отдельных моделей (экспертов) будет происходить на более близких картинках => негативные пары будут сложнее и более информативные. Далее фиксируем модели-эксперты и дистиллируем их в одну. Новая модель учится предсказывать фичи каждого эксперта с помощью L2 лосса. В итоге, офигенная точность на ImageNet при обучении без лейблов на JFT-300M: 77.3% Top1.

Подробнее в статье от DeepMind.
нашел хороший канал. В закрепе ам тоже очень крутая статья
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
Почему трансформеры сложнее обучать, почему обучение нестабильно в начале, и что с этим делать

Эмпирически известно, что архитектуру трансфорсеров обучить сложнее чем, например, сверточные сети. Они не обучаются SGD, а также, чтобы обучение вообще сошлось, почти всегда необходимо использовать прогрев лернинг рейта - линейное повышение лернинг рейта от 0 до используемого значения. Почему же так происходит, что необходим прогрев и можно ли обойтись без него или чем то заменить? На этот вопрос отвечает (пытается ответить) серия аж из трех статей. Каждая следующая говорит, что предыдущая статья не все учла/не решает всей проблемы/решение неудачное, и предлагает что то свое. Но в принципе в каждой написано что то полезное 😀

Конечный вывод такой (в статье Understanding the Difficulty of Training Transformers https://arxiv.org/abs/2004.08249 - у классической архитектуры трансформеров на начальном этапе обучения очень большая чувствительность выхода сети к небольшим изменениям параметров. Происходит это из-за Layer Normalization(LN) после каждого residual connection, из-за этого выход LN сильно зависит от residual branch (а не от skip connection). Предлагаемое решение - добавлять в residual connection веса, которые определенным образом инициализируются (таким образом, чтобы усилить зависимость от skip connection). Благодаря этим весам выход трансформера становится стабильнее, и можно обойтись даже без прогрева лернинг рейта.

Более подробный разбор каждой статьи в следующем посте.
Forwarded from Artemii
я не могу остановиться. a fox made of paper
Forwarded from Artemii
cartoon of a pink lama
Ещё вчера я развлекался с Big Sleep, как подъехала новая статья от гугла.

Ждём кооооод и веса!

#Text2Image #generative #multimodal
Оказывается что при аугментации надо было не одно изменение на картинку накидывать, а два.

Remarkably, we find that drawing multiple samples per image consistently enhances the test accuracy achieved for both small and large batch training, despite reducing the number of unique training examples in each mini-batch.

ArXiv

#Training #Augmentation