Forwarded from Нейроэстетика
🌙 Прощай DALL•E 2 ✨ Stable Diffusion в каждый дом! Скоро!
Ну что, ребята, задачу text2image можно считать практически решенной?
Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!
prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640
Н е й р о э с т е т и к а ✖️ Мишин Лернинг
Ну что, ребята, задачу text2image можно считать практически решенной?
Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!
prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640
Н е й р о э с т е т и к а ✖️ Мишин Лернинг
❤35🔥12👎4👍3😢1
Субъективно: результаты генераций какой модели тебе кажутся более интересными и красивыми? Если выбирать одну модель, то:
Anonymous Poll
14%
🥑 DALL•E 2
42%
🧚♀️ Stable Diffusion
44%
🤔 с серьезным лицом посмотреть результат
🔥7👎3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!
📇 Начнем с новостей:
StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.
Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.
🌬 Что такое StableDiffusion?
StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:
> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.
> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3
> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!
Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).
✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!
📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card
🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
📇 Начнем с новостей:
StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.
Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.
🌬 Что такое StableDiffusion?
StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:
> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.
> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3
> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!
Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).
✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!
📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card
🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
❤🔥39👍11👎2🌚1
🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research
Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!
Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:
📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!
Новость взял у эйай ньюз
📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection
🗃 ViTDetот Facebook AI Research (код и веса моделей)
🤖 Мишин Лернинг
Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!
Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:
📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!
Новость взял у эйай ньюз
📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection
🗃 ViTDetот Facebook AI Research (код и веса моделей)
🤖 Мишин Лернинг
❤11👍7❤🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Смотрите что CompVis творит с Text Video Editing
Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.
Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..
🤖 Мишин Лернинг
Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.
Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..
🤖 Мишин Лернинг
❤51👍7
Forwarded from Neural Shit
Мне тут прилетел доступ к Stable Diffusion (спасибо, Миша!)
Первым делом поигрался со своими любимыми Пепе лягушатами (естественно).
1)Пепе в GTA SA
2)Пепе в Симпсонах
3)Пепе под LSD
4)Пепе в картине "Американская Готика"
5)Пепе в картине "Девушка с жемчужной сережкой"
6)Пепе в стиле Лавкрафта
Генерация оооочень быстрая, а самое главное, не нужен пердолинг с апскейлом — можно сразу выбрать произвольный нужный размер генерируемого изображения.
Кстати, эта штука умеет в инпэйнтинг (дорисовывать уже существующие изображения). Получается очень годно, глянуть пример можно тут.
Первым делом поигрался со своими любимыми Пепе лягушатами (естественно).
1)Пепе в GTA SA
2)Пепе в Симпсонах
3)Пепе под LSD
4)Пепе в картине "Американская Готика"
5)Пепе в картине "Девушка с жемчужной сережкой"
6)Пепе в стиле Лавкрафта
Генерация оооочень быстрая, а самое главное, не нужен пердолинг с апскейлом — можно сразу выбрать произвольный нужный размер генерируемого изображения.
Кстати, эта штука умеет в инпэйнтинг (дорисовывать уже существующие изображения). Получается очень годно, глянуть пример можно тут.
🔥30👍5❤🔥3🌚2
Forwarded from Нейроэстетика
Давайте честно: Нейросети смогут частично заменить иллюстраторов / фотографов; приведёт ли дальнейший прогресс в ИИ к изменениям на рабочих местах?
Anonymous Poll
78%
Да, определенно 🤖
11%
Нет, это игрушки 🧸
11%
Посмотреть результат 🤔
❤🔥9👎4🐳3👍1🔥1
🗃 Смогут ли нейросети частично заменить стоковые фото сервисы? Здесь я не имею в виду исторические снимки или фото знаменитостей или хронику и т.д. Именно частично: что для постов или статей изображения будут все чаще генерить, чем искать и скачивать.
Anonymous Poll
82%
👾 Да, я думаю, что ИИ составит конкуренцию фото-стокам
6%
🤳 Нет, стоки никак не ощутят влиянии генеративок
11%
🤔 С серьезным лицом посмотреть результат
🐳10🌚5👍4💯4❤🔥3🕊3👎1
Интервью Яныка с основателем Stability.AI:
- Что такое Stability.AI?
- Откуда деньги?
- Как получить компьют?
- Что такое Stable Diffusion?
- PowerPoint будущего
https://youtu.be/YQ2QtKcK2dA
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
The Man behind Stable Diffusion
#stablediffusion #ai #stabilityai
An interview with Emad Mostaque, founder of Stability AI.
OUTLINE:
0:00 - Intro
1:30 - What is Stability AI?
3:45 - Where does the money come from?
5:20 - Is this the CERN of AI?
6:15 - Who gets access to the resources?…
An interview with Emad Mostaque, founder of Stability AI.
OUTLINE:
0:00 - Intro
1:30 - What is Stability AI?
3:45 - Where does the money come from?
5:20 - Is this the CERN of AI?
6:15 - Who gets access to the resources?…
😢14👍9🐳7
Forwarded from Нейроэстетика
🚘 Кто-то слил в сеть скриншоты готовящейся GTA VI
✨ Поговорим про prompt-инжиниринг или создание текстовых описаний на примере GTA VI.
На самом деле, чтобы сгенерировать именно то, что вы придумали, нужно применять очень много текстовых трюков. Например, в интернете ещё нет скриншотов GTA VI. И поэтому при создании описания придётся использовать хитрости.
Нейросеть ничего знает про сеттинг игры, но мы ведь можем его описать. Я выбрал следующие фразы:
- GTA Vice City graphics mods
- GTA Vice City 2024 remaster
- Miami, palms and Miami buildings
Теперь про графику. Сначала выходило очень примитивно, так как сеть цеплялась за GTA Vice City. Но в отличие от реального ремастеринга GTA Vice City, графику наших генераций ещё можно спасти:
- next-gen ps5 game
- unreal engine
- rtx reflection
- artstation
Изображения получились уже достаточно качественные, но, в них не хватало реализма, слишком отдавало нарочитой компьютерной графикой. Вернуть же реализм достаточно просто:
- photorealistic screenshot
- still
- 50mm
- bokeh
В итоге я получил следующее текстовое описание: «still next-gen ps5 game Grand Theft Auto 6 2024 remaster, graphics mods, rain, red sunset, people, rtx reflections, GTA VI, Miami, palms and Miami buildings, photorealistic screenshot, unreal engine, 4K, 50mm bokeh, close-up ford mustang, gta vice city remastered, artstation
-W 704 -H 512 -n 9 -C 9 -s 100»
Где:
-W 704 -H 512 ширина и высота
-n 9 количество генераций за раз
-C 9 classifier free guidance scale 9
-s 100 количество денойзинг шагов
p.s.: Я заметил, что подбор prompt’ов для Stable Diffusion очень отличается от DALL•E 2, скорее всего дело именно в датасетах. Дерзайте!
Канал про генеративные нейронные сети
🌊 Н е й р о э с т е т и к а
✨ Поговорим про prompt-инжиниринг или создание текстовых описаний на примере GTA VI.
На самом деле, чтобы сгенерировать именно то, что вы придумали, нужно применять очень много текстовых трюков. Например, в интернете ещё нет скриншотов GTA VI. И поэтому при создании описания придётся использовать хитрости.
Нейросеть ничего знает про сеттинг игры, но мы ведь можем его описать. Я выбрал следующие фразы:
- GTA Vice City graphics mods
- GTA Vice City 2024 remaster
- Miami, palms and Miami buildings
Теперь про графику. Сначала выходило очень примитивно, так как сеть цеплялась за GTA Vice City. Но в отличие от реального ремастеринга GTA Vice City, графику наших генераций ещё можно спасти:
- next-gen ps5 game
- unreal engine
- rtx reflection
- artstation
Изображения получились уже достаточно качественные, но, в них не хватало реализма, слишком отдавало нарочитой компьютерной графикой. Вернуть же реализм достаточно просто:
- photorealistic screenshot
- still
- 50mm
- bokeh
В итоге я получил следующее текстовое описание: «still next-gen ps5 game Grand Theft Auto 6 2024 remaster, graphics mods, rain, red sunset, people, rtx reflections, GTA VI, Miami, palms and Miami buildings, photorealistic screenshot, unreal engine, 4K, 50mm bokeh, close-up ford mustang, gta vice city remastered, artstation
-W 704 -H 512 -n 9 -C 9 -s 100»
Где:
-W 704 -H 512 ширина и высота
-n 9 количество генераций за раз
-C 9 classifier free guidance scale 9
-s 100 количество денойзинг шагов
p.s.: Я заметил, что подбор prompt’ов для Stable Diffusion очень отличается от DALL•E 2, скорее всего дело именно в датасетах. Дерзайте!
Канал про генеративные нейронные сети
🌊 Н е й р о э с т е т и к а
🔥31👍14👎5❤4🏆3