Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🧙‍♂️ Blizzard, увольняйте ваших иллюстраторов

Stable Diffusion разрывает DALL•E 2! Такого арта я ещё нигде не видел! Мне кажется, что время когда, нейронными сетями можно делать полноценные иллюстрации настало.

Представляю: Коллекцию генеративного арта «Blizzard WarCraft». Более 50 артов, сгенерированных нейронной сетью.

Иллюстраторам уже стоит начинать бояться..

🔮 Коллекция B l i z z a r d WarCraft
46🔥10👎7👍6
🌙 Прощай DALL•E 2 Stable Diffusion в каждый дом! Скоро!

Ну что, ребята, задачу text2image можно считать практически решенной?

Stable Diffusion гениален! Работать в латентном пространстве вместо пространства пикселей, получая такую высокую детализацию объектов и фона практически без артефактов! Это действительно NextGen!

prompt: anime fine details portrait of {Object and description}, bokeh. anime masterpiece by Studio Ghibli. 8k, sharp high quality classic anime from 1990 in style of Hayao Miyazaki --cfg_scale 13.5 --steps 150 --height 512 --width 640

Н е й р о э с т е т и к а ✖️ Мишин Лернинг
35🔥12👎4👍3😢1
Субъективно: результаты генераций какой модели тебе кажутся более интересными и красивыми? Если выбирать одну модель, то:
Anonymous Poll
14%
🥑 DALL•E 2
42%
🧚‍♀️ Stable Diffusion
44%
🤔 с серьезным лицом посмотреть результат
🔥7👎3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

📇 Начнем с новостей:

StableDiffusion
вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

🌬 Что такое StableDiffusion?

StableDiffusion
— это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).

Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!

📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card

🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
❤‍🔥39👍11👎2🌚1
🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research

Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!

Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:

📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!

Новость взял у
эйай ньюз

📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection

🗃 ViTDetот Facebook AI Research (код и веса моделей)

🤖 Мишин Лернинг
11👍7❤‍🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Смотрите что CompVis творит с Text Video Editing

Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.

Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..

🤖 Мишин Лернинг
51👍7