Мишин Лернинг 🇺🇦🇮🇱

🧙‍♂️ Blizzard, увольняйте ваших иллюстраторов

Stable Diffusion разрывает DALL•E 2! Такого арта я ещё нигде не видел! Мне кажется, что время когда, нейронными сетями можно делать полноценные иллюстрации настало.

Представляю: Коллекцию генеративного арта «Blizzard WarCraft». Более 50 артов, сгенерированных нейронной сетью.

Иллюстраторам уже стоит начинать бояться..

🔮 Коллекция B l i z z a r d WarCraft

❤46🔥10👎7👍6

8K views16:23

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🌙 Прощай DALL•E 2 ✨ Stable Diffusion в каждый дом! Скоро!

Ну что, ребята, задачу text2image можно считать практически решенной?

Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!

prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640

Н е й р о э с т е т и к а ✖️ Мишин Лернинг

❤35🔥12👎4👍3😢1

4.06K views08:58

Мишин Лернинг 🇺🇦🇮🇱

Субъективно: результаты генераций какой модели тебе кажутся более интересными и красивыми? Если выбирать одну модель, то:

Anonymous Poll

14%

🥑 DALL•E 2

42%

🧚‍♀️ Stable Diffusion

44%

🤔 с серьезным лицом посмотреть результат

🔥7👎3👍2

1.14K voters4.28K views10:51

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

✨ Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

📇 Начнем с новостей:

StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

🌬 Что такое StableDiffusion?

StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).

✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!

📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card

🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а

❤‍🔥39👍11👎2🌚1

11.3K viewsedited 16:21

Мишин Лернинг 🇺🇦🇮🇱

🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research

Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!

Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:

📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!

Новость взял у эйай ньюз

📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection

🗃 ViTDetот Facebook AI Research (код и веса моделей)

🤖 Мишин Лернинг

❤11👍7❤‍🔥1🌚1

4.97K viewsedited 12:24

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 Смотрите что CompVis творит с Text Video Editing

Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.

Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..

🤖 Мишин Лернинг

❤51👍7

18.6K viewsedited 16:25

About

Blog

Apps

Platform