Мишин Лернинг 🇺🇦🇮🇱

🤖 Потестировал новую Text2Image модель. Встречайте, Stable Diffusion

Модель является синтезем Latent Diffusion Model и Imagen. Из-за LDM подхода модель сразу генерит 768х768, а не 64 > 256 > 1024 как DALL-E 2 и Imagen!

Сразу скажу, что пока пройдено лишь 25% обучения и для сэмплинга не используется ни CLIP-guidance, ни classifier free guidance, которые буду использоваться потом и невероятно усилят качество генераций!

👉 Записаться на бетку можно тут

Н е й р о э с т е т и к а ✖️ Мишин Лернинг

❤14👍11🔥2

4.29K views22:08

Мишин Лернинг 🇺🇦🇮🇱

❗️Не хочу тут спамить, но Stable Diffusion вроде становится прям очень популярной сетью

Если интересна text2image генеративка вообще и stable diffusion в частности, то буду выкладывать инфу, генерить по вашим запросам, отвечать на вопросы и общаться по теме в канале Н е й р о э с т е т е к а

Пока хочу чуть декомпозировать и меньше времени уделать text2image моделям в Мишин Лернинге.

@мишин лернинг

👍12❤3

4.68K viewsedited 15:23

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🎨 Stable Diffusion vs DALL•E 2

Anonymous Poll

👍3❤1🔥1

716 voters4.44K views15:25

Мишин Лернинг 🇺🇦🇮🇱

DeepMind ❤️ YouTube

Самое важное и интересное из 📇 блог поста DeepMind про интеграцию DL-проектов в платформу YouTube:

🗄 MuZero улучшил кодек VP9 на 4%

Работая вместе с YouTube, DeepMind изучили потенциал MuZero для улучшения кодека VP9 (👈 подробнее) и применили MuZero к живому трафику YouTube!

После запуска снижение битрейта составило ~4%. Улучшив кодек VP9 на YouTube, DeepMind помогли сократить интернет-трафик, и, соответственно, время необходимое для загрузки видео. Благодаря оптимизации миллионы людей смогут смотреть больше видео, загружая их быстрее!

🎞 AutoChapters — Автоматическая разбивка видео на главы

Главы позволяют находить нужный контент, но их создание было медленным и трудоемким ручным процессом.

Представленная на Google I/O 2022, технология автоматического создания глав уже сегодня используется для 8,000,000 видео, и YouTube обработает > 80,000,000 видео в течение года.

AutoChapters экономит время на поиск контента зрителя, и создателям на разбиение глав.

@Мишин Лернинг

❤18👍9🔥9

4.45K viewsedited 09:33

Мишин Лернинг 🇺🇦🇮🇱

👾 А у нас NextGen Text2Image: Retrieval-Augmented Diffusion Models от CompVis

Я не мог писать об этом раньше, но теперь все выложили. Хотя написать очень и очень хотелось..

Идея лежала на поверхности: DALL•E 2 💦 RETRO = ❤️

Подробнее разберём на примере:
> Нужно сгенерировать «Мадагаскарская руконожка на скейтборде». Я вот не помню как она выглядит)

❕DALL•E 1/2, Imagen принимали текст, и на основе него генерировали изображения. А что если добавить возможность подглядывать в реальный датасет?

❗️Для этого нам поможет CLIP и kNN: Ищем в датасете ближайшие изображения и подаём их (или их эмбеддинги) в качестве кондишн для генерации.

Новый LDM, натренированный в таком режиме, что можно использовать:
> Unconditional генерацию
> Class и Retrieval кондишн

То есть: Можно использовать только текстовое описание, а можно и помочь сети, похожими реальными примерами (похожие картинки будут выступать в качестве референсов)

Ну не круто ли?

📰 paper
🔬 Code

@Mishin Learning

🔥36👍9❤6👎2

6.89K viewsedited 15:24

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

💿 M U S I C \\\ R E C O M E N D A T I O N S

Друзья, посоветуйте интересной интеллектуальной музыки

Что-то их этого будет идеально:

- modern jazz
- XX-XXI academic
- prog \\\ experimental rock
- experimental avant electronic

➖ д я к у ю ➖

p.s.: в комменты занесу и свои рекомендации

❤10👍4🔥1

5.03K views14:41

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🎺🌌 Miles Davis Jazz Astronaut

Stable Diffusion на подходе, вот параметры, с которыми можно будт играть:

-- height [512] height of image
-- width [512] width of image

📲 да, можно будет создавать вертикальные или горизонтальные полтна

-- cfg_scale [7.0] CFG scale factor

🎛 Наверное самый важный параметр:

1,2 — мясо, бред, хаос
3,4 — перегруженное фото
5,6 — оптимум по деталям и целостности
7,8 — объекты целые, но синтетичные
> 9 — уже совсем скучно становится

--steps [50]

🪜 Сколько шагов семплирования пройдено:

50 — быстро и достаточно качественно
100 — оптимум времени / качеству
150 — медленно и супер детально

prompt: full-length portrait of miles davis in a space suit, studio lighting --height 768 --cfg_scale 6 --steps 150

🚀 Ждем, все будет очень скоро 😉

автор: Н е й р о э с т е т и к а ✖️ Мишин Лернинг

❤25👍9🔥2

4.54K views18:59

About

Blog

Apps

Platform