🐨 Все уже знают: Imagen превзошёл DALL•E 2. Но что настолько?!
Я просто хочу сказать, что языковые модели — рулят. Особенно хорошо обученные энкодеры.
DALL•E 2, чтобы понять текст, должен сначала съесть его текстовой частью нейросети CLIP, потом отобразить в картиночный манифолд при помощи prior модели, и только потом отдиффузить это представление через unCLIP (который только на унимодально с изображениями работал) и через все апскейл каскады (которые уже совсем оторваны от текста) в пространство пикселей.
Давайте просто посмотрим, наладимся и вдумаемся — насколько глубокое понимание текста у нейросети Imagen! Все гениальное — просто.
Картинка слева: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods is all you need’, внизу в растерянности стоят несколько котят»
Картинка справа: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods’, внизу в растерянности стоят несколько котят»
mishin_learning
Я просто хочу сказать, что языковые модели — рулят. Особенно хорошо обученные энкодеры.
DALL•E 2, чтобы понять текст, должен сначала съесть его текстовой частью нейросети CLIP, потом отобразить в картиночный манифолд при помощи prior модели, и только потом отдиффузить это представление через unCLIP (который только на унимодально с изображениями работал) и через все апскейл каскады (которые уже совсем оторваны от текста) в пространство пикселей.
Давайте просто посмотрим, наладимся и вдумаемся — насколько глубокое понимание текста у нейросети Imagen! Все гениальное — просто.
Картинка слева: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods is all you need’, внизу в растерянности стоят несколько котят»
Картинка справа: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods’, внизу в растерянности стоят несколько котят»
mishin_learning
❤40👍24🔥5👎3
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Задачу генерации картинок из текста можно считать решенной — поэтому исследователи постепенно переходят к задаче «А давайте генерировать целые гифки по текстовому описанию».
Вчера выложили пример работы алгоритма CogVideo — суть у него такая же как у Dalle, вы пишите текст, а он выдает вам видео в 4 секунды длинной.
Кода пока нет, но по видимому будет тут.
У меня две мысли:
1) Лев который пьет — офигенный
2) Исследователи так порно индустрию без денег оставят своими нейронками
@Denis
Вчера выложили пример работы алгоритма CogVideo — суть у него такая же как у Dalle, вы пишите текст, а он выдает вам видео в 4 секунды длинной.
Кода пока нет, но по видимому будет тут.
У меня две мысли:
1) Лев который пьет — офигенный
2) Исследователи так порно индустрию без денег оставят своими нейронками
@Denis
❤31👍15👎2🔥2
Forwarded from Neural Shit
Развлекаю себя как могу: сижу и генерирую Ктулхуризированные советские плакаты. Принес сюда, пусть тут тоже будут
❤47👍18🔥8👎3