Мишин Лернинг 🇺🇦🇮🇱
7.88K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🔥🥑 Новый DALL•E: «Imagen» от Google Brain не уступает DALL•E 2 и GLIDE

Наверное устройство DALL•E 2 знают все ваши друзья и родственники. Но давайте повторим как работает DALL•E 2:

▪️Взяли GLIDE диффузию и зафайнтюнили его на парах [CLIP эмбединг, картинка], заменив текстовый энкодер, и назвали это unCLIP
▪️Теперь можно получать множество вариаций картинки, если прогнать ее через CLIP и обратно через unCLIP. Но как генерить картинку из текста?
▪️Для этого обучили Prior, который переводит эмбединг текста в эмбединг картинки

Что же представляет из себя Imagen?

▫️Imagen
это каскад из text conditioned classifier-free guidance диффузий: сначала в 64, потом в 256, а потом в 1024pix
▫️В чем же разница с GLIDE? Подход напоминает скорее предка DALL•E 2 — GLIDE
▫️Разница в том, что они не учат text encoder, а используют замороженный T5-XXL. И это вся разница? Ну концептуально — да!
▫️ Плюс авторы предложили dynamic thresholding sampling и улучшили CNN, создав Efficient U-Net

📄 paper
🧸 project

Мишин Лернинг 🤖🎓
👍28🔥93
🥑🎇 Картины, сгенерированные IMAGEN — новым DALL•E от Google Brain

p.s.: «Салют, Google Brain» на первой картинке прекрасен.

Мишин Лернинг 🤖🎓
🔥21
🧠 Отличный пример, который показывает, в каких задачах frozen T5-XXL энкодер (по факту любой большой NLP претрейн) лучше, чем unCLIP.

Frozen T5-XXL отлично понимает текст. Текстовая башня clip же не супер для текста. Ну и подход DALL•E 2 зависит от качества prior модели для перевода из текстового в картиночный manifold. Что дополнительно усложняет задачу.

Но у DALL•E 2 есть свои плюсы, например возможность работы в векторном пространстве CLIP, со всеми плюшками его векторной семантики.
👍123🔥2
Еще DALL•E 2 часто не может правильно соотнести цвета, особенно на изображениях, генерируемых из текстов, содержащих более одного объекта!
👍20🔥1