🧙♂️ Blizzard, увольняйте ваших иллюстраторов
Stable Diffusion разрывает DALL•E 2! Такого арта я ещё нигде не видел! Мне кажется, что время когда, нейронными сетями можно делать полноценные иллюстрации настало.
Представляю: Коллекцию генеративного арта «Blizzard WarCraft». Более 50 артов, сгенерированных нейронной сетью.
Иллюстраторам уже стоит начинать бояться..
🔮 Коллекция B l i z z a r d WarCraft
Stable Diffusion разрывает DALL•E 2! Такого арта я ещё нигде не видел! Мне кажется, что время когда, нейронными сетями можно делать полноценные иллюстрации настало.
Представляю: Коллекцию генеративного арта «Blizzard WarCraft». Более 50 артов, сгенерированных нейронной сетью.
Иллюстраторам уже стоит начинать бояться..
🔮 Коллекция B l i z z a r d WarCraft
❤46🔥10👎7👍6
Forwarded from Нейроэстетика
🌙 Прощай DALL•E 2 ✨ Stable Diffusion в каждый дом! Скоро!
Ну что, ребята, задачу text2image можно считать практически решенной?
Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!
prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640
Н е й р о э с т е т и к а ✖️ Мишин Лернинг
Ну что, ребята, задачу text2image можно считать практически решенной?
Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!
prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640
Н е й р о э с т е т и к а ✖️ Мишин Лернинг
❤35🔥12👎4👍3😢1
Субъективно: результаты генераций какой модели тебе кажутся более интересными и красивыми? Если выбирать одну модель, то:
Anonymous Poll
14%
🥑 DALL•E 2
42%
🧚♀️ Stable Diffusion
44%
🤔 с серьезным лицом посмотреть результат
🔥7👎3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!
📇 Начнем с новостей:
StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.
Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.
🌬 Что такое StableDiffusion?
StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:
> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.
> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3
> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!
Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).
✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!
📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card
🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
📇 Начнем с новостей:
StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.
Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.
🌬 Что такое StableDiffusion?
StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:
> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.
> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3
> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!
Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).
✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!
📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card
🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
❤🔥39👍11👎2🌚1
🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research
Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!
Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:
📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!
Новость взял у эйай ньюз
📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection
🗃 ViTDetот Facebook AI Research (код и веса моделей)
🤖 Мишин Лернинг
Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!
Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:
📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!
Новость взял у эйай ньюз
📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection
🗃 ViTDetот Facebook AI Research (код и веса моделей)
🤖 Мишин Лернинг
❤11👍7❤🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Смотрите что CompVis творит с Text Video Editing
Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.
Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..
🤖 Мишин Лернинг
Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.
Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..
🤖 Мишин Лернинг
❤51👍7