Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

📇 Начнем с новостей:

StableDiffusion
вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

🌬 Что такое StableDiffusion?

StableDiffusion
— это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из diffusion beat gan )
3. VQ decoder из 64х64х4 в 512х512х3

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений объектов (кто слева, кто справа, и тд) чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD 0.8B на супер компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трейна 2B пар изображение-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете).

Для генерации нативного 512x512 изображения хватит 10 GB VRAM. Так что все от 2080ti до 3090ti кажется хорошим вариантом для дома! Ну и в Colab модель конечно же тоже влезет, даже в бесплатный!

📇 Blog Post
💻 Code StableDiffusion
👁 Веса Модели model card

🤖 Мишин Лернинг ✖️ Н е й р о э с т е т и к а
❤‍🔥39👍11👎2🌚1
🧲 Бэкбоны на трансформерах уже Detectron 2 от Facebook AI Research

Трансформеры (ViT, Swin) для задач компьютерного зрения уже стали новой нормой. Вот и претрененные бэкбоны для Mask R-CNN и Cascade Mask R-CNN завезли!

Я по-прежнему считаю, что ViT — одна из самых гениальных архитектур современности! Вы просто посмотрите на эти метрики:

📣 ViTDet — ViT-H Cascade (multiscale) 53.1 в задаче Instance Segmentation on COCO без обучения на дополнительных данных!

Новость взял у
эйай ньюз

📑 Paper: Exploring Plain Vision Transformer Backbones for Object Detection

🗃 ViTDetот Facebook AI Research (код и веса моделей)

🤖 Мишин Лернинг
11👍7❤‍🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Смотрите что CompVis творит с Text Video Editing

Как я уже показывал, Stability Diffusion готовит Inpainting версию своей модели.

Теперь Patrick Esser поделился интересным прогрессом. Посмотрите, я реально залип..

🤖 Мишин Лернинг
51👍7
Forwarded from Neural Shit
Мне тут прилетел доступ к Stable Diffusion (спасибо, Миша!)

Первым делом поигрался со своими любимыми Пепе лягушатами (естественно).

1)Пепе в GTA SA
2)Пепе в Симпсонах
3)Пепе под LSD
4)Пепе в картине "Американская Готика"
5)Пепе в картине "Девушка с жемчужной сережкой"
6)Пепе в стиле Лавкрафта

Генерация оооочень быстрая, а самое главное, не нужен пердолинг с апскейлом — можно сразу выбрать произвольный нужный размер генерируемого изображения.

Кстати, эта штука умеет в инпэйнтинг (дорисовывать уже существующие изображения). Получается очень годно, глянуть пример можно тут.
🔥30👍5❤‍🔥3🌚2
Давайте честно: Нейросети смогут частично заменить иллюстраторов / фотографов; приведёт ли дальнейший прогресс в ИИ к изменениям на рабочих местах?
Anonymous Poll
78%
Да, определенно 🤖
11%
Нет, это игрушки 🧸
11%
Посмотреть результат 🤔
❤‍🔥9👎4🐳3👍1🔥1
🗃 Смогут ли нейросети частично заменить стоковые фото сервисы? Здесь я не имею в виду исторические снимки или фото знаменитостей или хронику и т.д. Именно частично: что для постов или статей изображения будут все чаще генерить, чем искать и скачивать.
Anonymous Poll
82%
👾 Да, я думаю, что ИИ составит конкуренцию фото-стокам
6%
🤳 Нет, стоки никак не ощутят влиянии генеративок
11%
🤔 С серьезным лицом посмотреть результат
🐳10🌚5👍4💯4❤‍🔥3🕊3👎1
😎 The Man behind Stable Diffusion

Интервью Яныка с основателем Stability.AI:
- Что такое Stability.AI?
- Откуда деньги?
- Как получить компьют?
- Что такое Stable Diffusion?
- PowerPoint будущего

https://youtu.be/YQ2QtKcK2dA
Please open Telegram to view this post
VIEW IN TELEGRAM
😢14👍9🐳7
🚘 Кто-то слил в сеть скриншоты готовящейся GTA VI

Поговорим про prompt-инжиниринг или создание текстовых описаний на примере GTA VI.

На самом деле, чтобы сгенерировать именно то, что вы придумали, нужно применять очень много текстовых трюков. Например, в интернете ещё нет скриншотов GTA VI. И поэтому при создании описания придётся использовать хитрости.

Нейросеть ничего знает про сеттинг игры, но мы ведь можем его описать. Я выбрал следующие фразы:

- GTA Vice City graphics mods
- GTA Vice City 2024 remaster
- Miami, palms and Miami buildings


Теперь про графику. Сначала выходило очень примитивно, так как сеть цеплялась за GTA Vice City. Но в отличие от реального ремастеринга GTA Vice City, графику наших генераций ещё можно спасти:

- next-gen ps5 game
- unreal engine
- rtx reflection
- artstation


Изображения получились уже достаточно качественные, но, в них не хватало реализма, слишком отдавало нарочитой компьютерной графикой. Вернуть же реализм достаточно просто:

- photorealistic screenshot
- still
- 50mm
- bokeh


В итоге я получил следующее текстовое описание:
«still next-gen ps5 game Grand Theft Auto 6 2024 remaster, graphics mods, rain, red sunset, people, rtx reflections, GTA VI, Miami, palms and Miami buildings, photorealistic screenshot, unreal engine, 4K, 50mm bokeh, close-up ford mustang, gta vice city remastered, artstation
-W 704 -H 512 -n 9 -C 9 -s 100»

Где:
-W 704 -H 512 ширина и высота
-n 9 количество генераций за раз
-C 9 classifier free guidance scale 9
-s 100 количество денойзинг шагов

p.s.: Я заметил, что подбор prompt’ов для Stable Diffusion очень отличается от DALL•E 2, скорее всего дело именно в датасетах. Дерзайте!

Канал про генеративные нейронные сети
🌊 Н е й р о э с т е т и к а
🔥31👍14👎54🏆3
⚠️ В твиттере происходит что-то необычное! Новые «*этики» пытаются закенселить Нейронную Сеть!

После выхода stable diffusion у художников бомбануло пукан. Забавно. Когда художников спрашиваешь: «может ли нейросеть заменить художника?», то ответ обычно такой «нет, нейросеть не испытывает вдохновения, это не искусство» или «машина не может заменить человека, она бездушна».

Как бы то ни было, бездушная машина вызвала настоящую панику, типа «AI нас всех уничижит!». Это даже забавно, что в сфере искусства возникла сильнейшая реакция, а не среди молчаливых жителей Москвы, где тоталитарная власть использует face-id совместно с re-id.

1) 10,800 репостов, 87,300 лайков, 3,672 комментария у поста некого RJ Palmer: «Новая нейросеть делает изображения, которые выглядят на 100% как нарисованные человеком. Я, как артист, экстремально обеспокоен». Забавно, что «экстремально обеспокоенный артист» сам мечтал о доступе к DALLE2! А теперь пишет, что генерить, как реальные художники «это просто мерзко».

2) Ян Лекун крестный Отец Свёрток, поддержал проект, а Андрей Карпаты, который один из первых получил веса, уже во всю играет с SD и пилит код для анимаций! ❤️

3) Чел, который легко спускал по 750$ на токены DALLE2, комментируя процесс их покупки незамысловатым комментарием: «🤤», придумал хэштеги: #cancelstablediffusion и #dontreleasetheweights … Могу сказать только что его аккаунт почти целиком состоит из генераций DALLE2. Отвечу ему на его же языке «😒»

4) Больше всего меня поразил полупоц из OpenAI, который сравнил Stable Diffusion с «Ядерным Оружием»!! Аллё, у вас там совсем крыша поехала от оруэлловского нейминга: Open это Closed, Closed это Open? Картинки не убивают людей, не уничтожают Мариуполь, не оккупируют Херсон, не казнят военнопленных, не занимаются ядерным шантажом, не устраивают геноцид!!
Такими сетями генерируют кота в шлеме космонавта или эльфийку с сиськами. Это ядерное орудие?

🚫 Что думаешь ты по этому поводу? Пиши в комментарии. Объективна ли паника, нужно ли кенселить нейросеть?

🤖 Мишин Лернинг
🔥107👎38👍13🌚5❤‍🔥4🙏4💯1