Мишин Лернинг 🇺🇦🇮🇱

✨ Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

📇 Начнем с новостей:

StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

🌬 Что такое StableDiffusion?

StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).

✨ Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!

📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card

🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а

❤‍🔥39👍11👎2🌚1

11.3K viewsedited 16:21

Мишин Лернинг 🇺🇦🇮🇱

🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research

Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!

Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:

📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!

Новость взял у эйай ньюз

📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection

🗃 ViTDetот Facebook AI Research (код и веса моделей)

🤖 Мишин Лернинг

❤11👍7❤‍🔥1🌚1

4.97K viewsedited 12:24

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 Смотрите что CompVis творит с Text Video Editing

Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.

Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..

🤖 Мишин Лернинг

❤51👍7

18.6K viewsedited 16:25

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Neural Shit

Мне тут прилетел доступ к Stable Diffusion (спасибо, Миша!)

Первым делом поигрался со своими любимыми Пепе лягушатами (естественно).

1)Пепе в GTA SA
2)Пепе в Симпсонах
3)Пепе под LSD
4)Пепе в картине "Американская Готика"
5)Пепе в картине "Девушка с жемчужной сережкой"
6)Пепе в стиле Лавкрафта

Генерация оооочень быстрая, а самое главное, не нужен пердолинг с апскейлом — можно сразу выбрать произвольный нужный размер генерируемого изображения.

Кстати, эта штука умеет в инпэйнтинг (дорисовывать уже существующие изображения). Получается очень годно, глянуть пример можно тут.

🔥30👍5❤‍🔥3🌚2

4.45K views20:30

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

Давайте честно: Нейросети смогут частично заменить иллюстраторов / фотографов; приведёт ли дальнейший прогресс в ИИ к изменениям на рабочих местах?

Anonymous Poll

Посмотреть результат 🤔

❤‍🔥9👎4🐳3👍1🔥1

1.77K voters4.43K views14:41

Мишин Лернинг 🇺🇦🇮🇱

🗃 Смогут ли нейросети частично заменить стоковые фото сервисы? Здесь я не имею в виду исторические снимки или фото знаменитостей или хронику и т.д. Именно частично: что для постов или статей изображения будут все чаще генерить, чем искать и скачивать.

Anonymous Poll

82%

👾 Да, я думаю, что ИИ составит конкуренцию фото-стокам

🤳 Нет, стоки никак не ощутят влиянии генеративок

11%

🤔 С серьезным лицом посмотреть результат

🐳10🌚5👍4💯4❤‍🔥3🕊3👎1

1.79K voters6.87K views14:57

Мишин Лернинг 🇺🇦🇮🇱

😎

The Man behind Stable Diffusion

Интервью Яныка с основателем Stability.AI:
- Что такое Stability.AI?
- Откуда деньги?
- Как получить компьют?
- Что такое Stable Diffusion?
- PowerPoint будущего

https://youtu.be/YQ2QtKcK2dA

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

The Man behind Stable Diffusion

#stablediffusion #ai #stabilityai

An interview with Emad Mostaque, founder of Stability AI.

OUTLINE:
0:00 - Intro
1:30 - What is Stability AI?
3:45 - Where does the money come from?
5:20 - Is this the CERN of AI?
6:15 - Who gets access to the resources?…

😢14👍9🐳7

8.2K viewsedited 10:59

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🚘 Кто-то слил в сеть скриншоты готовящейся GTA VI

✨ Поговорим про prompt-инжиниринг или создание текстовых описаний на примере GTA VI.

На самом деле, чтобы сгенерировать именно то, что вы придумали, нужно применять очень много текстовых трюков. Например, в интернете ещё нет скриншотов GTA VI. И поэтому при создании описания придётся использовать хитрости.

Нейросеть ничего знает про сеттинг игры, но мы ведь можем его описать. Я выбрал следующие фразы:

- GTA Vice City graphics mods
- GTA Vice City 2024 remaster
- Miami, palms and Miami buildings

Теперь про графику. Сначала выходило очень примитивно, так как сеть цеплялась за GTA Vice City. Но в отличие от реального ремастеринга GTA Vice City, графику наших генераций ещё можно спасти:

- next-gen ps5 game
- unreal engine
- rtx reflection
- artstation

Изображения получились уже достаточно качественные, но, в них не хватало реализма, слишком отдавало нарочитой компьютерной графикой. Вернуть же реализм достаточно просто:

- photorealistic screenshot
- still
- 50mm
- bokeh

В итоге я получил следующее текстовое описание: «still next-gen ps5 game Grand Theft Auto 6 2024 remaster, graphics mods, rain, red sunset, people, rtx reflections, GTA VI, Miami, palms and Miami buildings, photorealistic screenshot, unreal engine, 4K, 50mm bokeh, close-up ford mustang, gta vice city remastered, artstation
-W 704 -H 512 -n 9 -C 9 -s 100»

Где:
-W 704 -H 512 ширина и высота
-n 9 количество генераций за раз
-C 9 classifier free guidance scale 9
-s 100 количество денойзинг шагов

p.s.: Я заметил, что подбор prompt’ов для Stable Diffusion очень отличается от DALL•E 2, скорее всего дело именно в датасетах. Дерзайте!

Канал про генеративные нейронные сети
🌊 Н е й р о э с т е т и к а

🔥31👍14👎5❤4🏆3

4.65K views08:04

Мишин Лернинг 🇺🇦🇮🇱

⚠️ В твиттере происходит что-то необычное! Новые «*этики» пытаются закенселить Нейронную Сеть!

После выхода stable diffusion у художников бомбануло пукан. Забавно. Когда художников спрашиваешь: «может ли нейросеть заменить художника?», то ответ обычно такой «нет, нейросеть не испытывает вдохновения, это не искусство» или «машина не может заменить человека, она бездушна».

Как бы то ни было, бездушная машина вызвала настоящую панику, типа «AI нас всех уничижит!». Это даже забавно, что в сфере искусства возникла сильнейшая реакция, а не среди молчаливых жителей Москвы, где тоталитарная власть использует face-id совместно с re-id.

1) 10,800 репостов, 87,300 лайков, 3,672 комментария у поста некого RJ Palmer: «Новая нейросеть делает изображения, которые выглядят на 100% как нарисованные человеком. Я, как артист, экстремально обеспокоен». Забавно, что «экстремально обеспокоенный артист» сам мечтал о доступе к DALLE2! А теперь пишет, что генерить, как реальные художники «это просто мерзко».

2) Ян Лекун ~~крестный~~ Отец Свёрток, поддержал проект, а Андрей Карпаты, который один из первых получил веса, уже во всю играет с SD и пилит код для анимаций! ❤️

3) Чел, который легко спускал по 750$ на токены DALLE2, комментируя процесс их покупки незамысловатым комментарием: «🤤», придумал хэштеги: #cancelstablediffusion и #dontreleasetheweights … Могу сказать только что его аккаунт почти целиком состоит из генераций DALLE2. Отвечу ему на его же языке «😒»

4) Больше всего меня поразил полупоц из OpenAI, который сравнил Stable Diffusion с «Ядерным Оружием»!! Аллё, у вас там совсем крыша поехала от оруэлловского нейминга: Open это Closed, Closed это Open? Картинки не убивают людей, не уничтожают Мариуполь, не оккупируют Херсон, не казнят военнопленных, не занимаются ядерным шантажом, не устраивают геноцид!!
Такими сетями генерируют кота в шлеме космонавта или эльфийку с сиськами. Это ядерное орудие?

🚫 Что думаешь ты по этому поводу? Пиши в комментарии. Объективна ли паника, нужно ли кенселить нейросеть?

🤖 Мишин Лернинг

🔥107👎38👍13🌚5❤‍🔥4🙏4💯1

38K views08:56

About

Blog

Apps

Platform