Мишин Лернинг 🇺🇦🇮🇱

🔥🥑 Новый DALL•E: «Imagen» от Google Brain не уступает DALL•E 2 и GLIDE

Наверное устройство DALL•E 2 знают все ваши друзья и родственники. Но давайте повторим как работает DALL•E 2:

▪️Взяли GLIDE диффузию и зафайнтюнили его на парах [CLIP эмбединг, картинка], заменив текстовый энкодер, и назвали это unCLIP
▪️Теперь можно получать множество вариаций картинки, если прогнать ее через CLIP и обратно через unCLIP. Но как генерить картинку из текста?
▪️Для этого обучили Prior, который переводит эмбединг текста в эмбединг картинки

Что же представляет из себя Imagen?

▫️Imagen это каскад из text conditioned classifier-free guidance диффузий: сначала в 64, потом в 256, а потом в 1024pix
▫️В чем же разница с GLIDE? Подход напоминает скорее предка DALL•E 2 — GLIDE
▫️Разница в том, что они не учат text encoder, а используют замороженный T5-XXL. И это вся разница? Ну концептуально — да!
▫️ Плюс авторы предложили dynamic thresholding sampling и улучшили CNN, создав Efficient U-Net

📄 paper
🧸 project

Мишин Лернинг 🤖🎓

👍28🔥9❤3

5K views00:03

Мишин Лернинг 🇺🇦🇮🇱

🥑🎇 Картины, сгенерированные IMAGEN — новым DALL•E от Google Brain

p.s.: «Салют, Google Brain» на первой картинке прекрасен.

Мишин Лернинг 🤖🎓

🔥21

3.56K views06:54

Мишин Лернинг 🇺🇦🇮🇱

🧠 Отличный пример, который показывает, в каких задачах frozen T5-XXL энкодер (по факту любой большой NLP претрейн) лучше, чем unCLIP.

Frozen T5-XXL отлично понимает текст. Текстовая башня clip же не супер для текста. Ну и подход DALL•E 2 зависит от качества prior модели для перевода из текстового в картиночный manifold. Что дополнительно усложняет задачу.

Но у DALL•E 2 есть свои плюсы, например возможность работы в векторном пространстве CLIP, со всеми плюшками его векторной семантики.

👍12❤3🔥2

3.62K views07:10

Мишин Лернинг 🇺🇦🇮🇱

Еще DALL•E 2 часто не может правильно соотнести цвета, особенно на изображениях, генерируемых из текстов, содержащих более одного объекта!

👍20🔥1

3.65K viewsedited 07:17

Мишин Лернинг 🇺🇦🇮🇱

👨‍🎨 Опрос по Text-to-Image. Какой DALL•E подход вам нравится больше? Какой кажется перспективным?

Anonymous Poll

unCLIP + prior, используемый в DALL•E 2

14%

Frozen LM + Text Conditioned Diffusion из IMAGEN от Google Brain

GPT на токенах Текста и Токенайзеров (e.g.: VAE, VQGAN) из DALL•E 1 от OpenAI

Обучаемая LM + Text Conditioned Diffusion из GLIDE от OpenAI

75%

🧐 с серьезным лицом посмотреть результаты

❤7👍1👎1

566 voters3.8K views07:33

Мишин Лернинг 🇺🇦🇮🇱

😔🇺🇦🕊 OpenAI не пропускают DALL•E 2 генерации со словом ‘Украина’

~~Open~~AI заигрались в мирный ИИ и безопасный контент. На днях Emad (один из известных ИИ лидеров мнения) заметил интересную особенность:

✅ Если описать пейзаж, архитектуру, да вообще что угодно, указав какую-то страну, то получить генерацию можно без каких-то проблем.

🚫 Но если в запросе фигурирует слово ‘Украина’ (при этом в абсолютно нейтральном запросе типа «пейзаж Украины»), то OpenAI прекращает генерацию и выдаёт «несоответствие с политикой» и угрожает автоматически заблочить аккаунт при повторных нарушениях:

⚠️ It looks like this request may not follow our content policy. Further policy violations may lead to an automatic suspension of your account. (Похоже, что этот запрос не соответствовует нашей политике контента. Дальнейшие нарушения правил приведут к автоматической блокировке вашей учетной записи)

🚢 Пожелаем OpenAI плавания по направлению военного корабля

Мишин Лернинг 🤖🎓

👎 Если не согласен с OpenAI, то ставь дизлайк

👎278👍271😢3🔥2

5.88K viewsedited 10:18

About

Blog

Apps

Platform