Мишин Лернинг 🇺🇦🇮🇱
7.89K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🌙 Прощай DALL•E 2 Stable Diffusion в каждый дом! Скоро!

Ну что, ребята, задачу text2image можно считать практически решенной?

Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!

prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640

Н е й р о э с т е т и к а ✖️ Мишин Лернинг
35🔥12👎4👍3😢1
Субъективно: результаты генераций какой модели тебе кажутся более интересными и красивыми? Если выбирать одну модель, то:
Anonymous Poll
14%
🥑 DALL•E 2
42%
🧚‍♀️ Stable Diffusion
44%
🤔 с серьезным лицом посмотреть результат
🔥7👎3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

📇 Начнем с новостей:

StableDiffusion
вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

🌬 Что такое StableDiffusion?

StableDiffusion
— это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).

Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!

📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card

🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
❤‍🔥39👍11👎2🌚1
🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research

Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!

Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:

📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!

Новость взял у
эйай ньюз

📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection

🗃 ViTDetот Facebook AI Research (код и веса моделей)

🤖 Мишин Лернинг
11👍7❤‍🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Смотрите что CompVis творит с Text Video Editing

Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.

Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..

🤖 Мишин Лернинг
51👍7
Forwarded from Neural Shit
Мне тут прилетел доступ к Stable Diffusion (спасибо, Миша!)

Первым делом поигрался со своими любимыми Пепе лягушатами (естественно).

1)Пепе в GTA SA
2)Пепе в Симпсонах
3)Пепе под LSD
4)Пепе в картине "Американская Готика"
5)Пепе в картине "Девушка с жемчужной сережкой"
6)Пепе в стиле Лавкрафта

Генерация оооочень быстрая, а самое главное, не нужен пердолинг с апскейлом — можно сразу выбрать произвольный нужный размер генерируемого изображения.

Кстати, эта штука умеет в инпэйнтинг (дорисовывать уже существующие изображения). Получается очень годно, глянуть пример можно тут.
🔥30👍5❤‍🔥3🌚2
Давайте честно: Нейросети смогут частично заменить иллюстраторов / фотографов; приведёт ли дальнейший прогресс в ИИ к изменениям на рабочих местах?
Anonymous Poll
78%
Да, определенно 🤖
11%
Нет, это игрушки 🧸
11%
Посмотреть результат 🤔
❤‍🔥9👎4🐳3👍1🔥1
🗃 Смогут ли нейросети частично заменить стоковые фото сервисы? Здесь я не имею в виду исторические снимки или фото знаменитостей или хронику и т.д. Именно частично: что для постов или статей изображения будут все чаще генерить, чем искать и скачивать.
Anonymous Poll
82%
👾 Да, я думаю, что ИИ составит конкуренцию фото-стокам
6%
🤳 Нет, стоки никак не ощутят влиянии генеративок
11%
🤔 С серьезным лицом посмотреть результат
🐳10🌚5👍4💯4❤‍🔥3🕊3👎1