Уже прочли «Мечтают ли нейросети о векторных овцах»? Начало текста в закрепленном сообщении. Есть два вопрос к вам. Как вам кажется ИИ уже способен писать новеллы, увлекая читателя?
Anonymous Poll
8%
🧠 Да было интересно. Думаю, что ИИ уже может писать полноценный художественный текст
35%
🤖 Да, было интересно. ИИ пока не может ухватить high level, но направляя ИИ выходят неплохие тексты
18%
⏳ Мне кажется, что и для интерактивного текста нужно подождать какое-то время. Пока у ИИ не выходит
4%
☠️ Я думаю, ИИ никогда не сможет писать полноценный художественный текст, способный увлечь читателя
35%
😶 не читал / не читала
👍12🔥2
🔥🥑 Новый DALL•E: «Imagen» от Google Brain не уступает DALL•E 2 и GLIDE
Наверное устройство DALL•E 2 знают все ваши друзья и родственники. Но давайте повторим как работает DALL•E 2:
▪️Взяли GLIDE диффузию и зафайнтюнили его на парах [CLIP эмбединг, картинка], заменив текстовый энкодер, и назвали это unCLIP
▪️Теперь можно получать множество вариаций картинки, если прогнать ее через CLIP и обратно через unCLIP. Но как генерить картинку из текста?
▪️Для этого обучили Prior, который переводит эмбединг текста в эмбединг картинки
Что же представляет из себя Imagen?
▫️Imagen это каскад из text conditioned classifier-free guidance диффузий: сначала в 64, потом в 256, а потом в 1024pix
▫️В чем же разница с GLIDE? Подход напоминает скорее предка DALL•E 2 — GLIDE
▫️Разница в том, что они не учат text encoder, а используют замороженный T5-XXL. И это вся разница? Ну концептуально — да!
▫️ Плюс авторы предложили dynamic thresholding sampling и улучшили CNN, создав Efficient U-Net
📄 paper
🧸 project
Мишин Лернинг 🤖🎓
Наверное устройство DALL•E 2 знают все ваши друзья и родственники. Но давайте повторим как работает DALL•E 2:
▪️Взяли GLIDE диффузию и зафайнтюнили его на парах [CLIP эмбединг, картинка], заменив текстовый энкодер, и назвали это unCLIP
▪️Теперь можно получать множество вариаций картинки, если прогнать ее через CLIP и обратно через unCLIP. Но как генерить картинку из текста?
▪️Для этого обучили Prior, который переводит эмбединг текста в эмбединг картинки
Что же представляет из себя Imagen?
▫️Imagen это каскад из text conditioned classifier-free guidance диффузий: сначала в 64, потом в 256, а потом в 1024pix
▫️В чем же разница с GLIDE? Подход напоминает скорее предка DALL•E 2 — GLIDE
▫️Разница в том, что они не учат text encoder, а используют замороженный T5-XXL. И это вся разница? Ну концептуально — да!
▫️ Плюс авторы предложили dynamic thresholding sampling и улучшили CNN, создав Efficient U-Net
📄 paper
🧸 project
Мишин Лернинг 🤖🎓
👍28🔥9❤3
🥑🎇 Картины, сгенерированные IMAGEN — новым DALL•E от Google Brain
p.s.: «Салют, Google Brain» на первой картинке прекрасен.
Мишин Лернинг 🤖🎓
p.s.: «Салют, Google Brain» на первой картинке прекрасен.
Мишин Лернинг 🤖🎓
🔥21
🧠 Отличный пример, который показывает, в каких задачах frozen T5-XXL энкодер (по факту любой большой NLP претрейн) лучше, чем unCLIP.
Frozen T5-XXL отлично понимает текст. Текстовая башня clip же не супер для текста. Ну и подход DALL•E 2 зависит от качества prior модели для перевода из текстового в картиночный manifold. Что дополнительно усложняет задачу.
Но у DALL•E 2 есть свои плюсы, например возможность работы в векторном пространстве CLIP, со всеми плюшками его векторной семантики.
Frozen T5-XXL отлично понимает текст. Текстовая башня clip же не супер для текста. Ну и подход DALL•E 2 зависит от качества prior модели для перевода из текстового в картиночный manifold. Что дополнительно усложняет задачу.
Но у DALL•E 2 есть свои плюсы, например возможность работы в векторном пространстве CLIP, со всеми плюшками его векторной семантики.
👍12❤3🔥2