Мишин Лернинг 🇺🇦🇮🇱
7.89K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🔥🥑 Новый DALL•E: «Imagen» от Google Brain не уступает DALL•E 2 и GLIDE

Наверное устройство DALL•E 2 знают все ваши друзья и родственники. Но давайте повторим как работает DALL•E 2:

▪️Взяли GLIDE диффузию и зафайнтюнили его на парах [CLIP эмбединг, картинка], заменив текстовый энкодер, и назвали это unCLIP
▪️Теперь можно получать множество вариаций картинки, если прогнать ее через CLIP и обратно через unCLIP. Но как генерить картинку из текста?
▪️Для этого обучили Prior, который переводит эмбединг текста в эмбединг картинки

Что же представляет из себя Imagen?

▫️Imagen
это каскад из text conditioned classifier-free guidance диффузий: сначала в 64, потом в 256, а потом в 1024pix
▫️В чем же разница с GLIDE? Подход напоминает скорее предка DALL•E 2 — GLIDE
▫️Разница в том, что они не учат text encoder, а используют замороженный T5-XXL. И это вся разница? Ну концептуально — да!
▫️ Плюс авторы предложили dynamic thresholding sampling и улучшили CNN, создав Efficient U-Net

📄 paper
🧸 project

Мишин Лернинг 🤖🎓
👍28🔥93
🥑🎇 Картины, сгенерированные IMAGEN — новым DALL•E от Google Brain

p.s.: «Салют, Google Brain» на первой картинке прекрасен.

Мишин Лернинг 🤖🎓
🔥21
🧠 Отличный пример, который показывает, в каких задачах frozen T5-XXL энкодер (по факту любой большой NLP претрейн) лучше, чем unCLIP.

Frozen T5-XXL отлично понимает текст. Текстовая башня clip же не супер для текста. Ну и подход DALL•E 2 зависит от качества prior модели для перевода из текстового в картиночный manifold. Что дополнительно усложняет задачу.

Но у DALL•E 2 есть свои плюсы, например возможность работы в векторном пространстве CLIP, со всеми плюшками его векторной семантики.
👍123🔥2
Еще DALL•E 2 часто не может правильно соотнести цвета, особенно на изображениях, генерируемых из текстов, содержащих более одного объекта!
👍20🔥1
😔🇺🇦🕊 OpenAI не пропускают DALL•E 2 генерации со словом ‘Украина’

OpenAI заигрались в мирный ИИ и безопасный контент. На днях Emad (один из известных ИИ лидеров мнения) заметил интересную особенность:

Если описать пейзаж, архитектуру, да вообще что угодно, указав какую-то страну, то получить генерацию можно без каких-то проблем.

🚫 Но если в запросе фигурирует слово ‘Украина’ (при этом в абсолютно нейтральном запросе типа «пейзаж Украины»), то OpenAI прекращает генерацию и выдаёт «несоответствие с политикой» и угрожает автоматически заблочить аккаунт при повторных нарушениях:

⚠️ It looks like this request may not follow our content policy. Further policy violations may lead to an automatic suspension of your account. (Похоже, что этот запрос не соответствовует нашей политике контента. Дальнейшие нарушения правил приведут к автоматической блокировке вашей учетной записи)

🚢
Пожелаем OpenAI плавания по направлению военного корабля

Мишин Лернинг 🤖🎓

👎 Если не согласен с OpenAI, то ставь дизлайк
👎278👍271😢3🔥2