Мишин Лернинг 🇺🇦🇮🇱

🐨 Все уже знают: Imagen превзошёл DALL•E 2. Но что настолько?!

Я просто хочу сказать, что языковые модели — рулят. Особенно хорошо обученные энкодеры.

DALL•E 2, чтобы понять текст, должен сначала съесть его текстовой частью нейросети CLIP, потом отобразить в картиночный манифолд при помощи prior модели, и только потом отдиффузить это представление через unCLIP (который только на унимодально с изображениями работал) и через все апскейл каскады (которые уже совсем оторваны от текста) в пространство пикселей.

Давайте просто посмотрим, наладимся и вдумаемся — насколько глубокое понимание текста у нейросети Imagen! Все гениальное — просто.

Картинка слева: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods is all you need’, внизу в растерянности стоят несколько котят»

Картинка справа: «Коала в костюме стоит за кафедрой перед доской, на которой мелом написано ‘Variational bayesian methods’, внизу в растерянности стоят несколько котят»

mishin_learning

❤40👍24🔥5👎3

6.07K views18:23

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Denis Sexy IT 🤖

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

Задачу генерации картинок из текста можно считать решенной — поэтому исследователи постепенно переходят к задаче «А давайте генерировать целые гифки по текстовому описанию».

Вчера выложили пример работы алгоритма CogVideo — суть у него такая же как у Dalle, вы пишите текст, а он выдает вам видео в 4 секунды длинной.

Кода пока нет, но по видимому будет тут.

У меня две мысли:
1) Лев который пьет — офигенный
2) Исследователи так порно индустрию без денег оставят своими нейронками

@Denis

❤31👍15👎2🔥2

2.82K views06:14