Мишин Лернинг 🇺🇦🇮🇱
7.89K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🚀 Встречайте новую SOTA Text-2-Image eDiffi: Диффузионные "Эксперты" от NVIDIA

Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.

Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix

Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image

Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).

Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.

👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:

GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04
FID ↓

Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.

🥑 eDiffi от NVIDIA
📇 Paper eDiffi

@ м и ш и н л е р н и н г
👍38🔥51❤‍🔥1😍1🏆1💋1
Forwarded from Denis Sexy IT 🤖
Ночью выкатили совершенно офигенную фичу для пользователей нейролава: тренировка своих моделей для арт генерации, aka Dreambooth.

Работает примерно так: вы учите ее на 20+ фотографиях объектов, или одном стиле, и после этого получаете модель где текстом можете указывать «что именно с объектом происходит и в каком он стиле».

В отличие от конкурентов, мы позволяем не только натренировать модель каждому желающему, но и использовать ее после на сайте, как и обычный арт генератор (и со всеми улучшалками что мы встроили в базовую SD).

Помимо этого, бонусом идет база промптов которые наша команда подготовила – то есть можно просто сидеть и рандомно выбирать, что понравилось.

Например – я, один раз обучив модель на 20 своих фотках, больше не нуждаюсь в новых аватарках, потому что могу теперь их производить в фабричных масштабах по тысяче в день.

Играться тут, фича платная:
https://neural.love/train-a-model
(Инструкция по ссылке)

P.S. Очень горжусь командой, параллельно обслуживать тренировки моделей, которые могут длится по часу и больше, та еще задача
🔥43👍72😢1
This media is not supported in your browser
VIEW IN TELEGRAM
🧳 Nvidia представила Magic3D — 3D по текстовому описанию!

Самое крутое в таких работа то, что для них не требуется обучать новую Text-To-3D диффузию. Для задачи вполне подходят уже обученные:
— 2B DALL-E от OpenAI
— 2B Imagen от Google
— 2B eDiff-I от Nvidia
И конечно же готовящийся новый ???M ** от ********* 😉

Работа по своей сути является eDiff-I-ким гомологом Гугловского Imagen-овского DreamFusion.

👾 Принцип работы очень и очень простой:

Этот алгоритм я уже описывал, так что просто повторю. Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.

То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!

Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)

2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию

3) Затем к картинке подмешивают шум, и все это подается на Text2Image диффузионный U-Net

4) После чего U-Net предсказывает необходимый денойз

5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель

📇 project
📄 paper
👍25🔥6❤‍🔥4🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🐣 Text-2-Image для генерации векторных изображений в формате SVG надо? VectorFusion от Berkeley

Помните, недавний подход DreamFusion от Google? Они взяли Imagen и превратили его в 3D при помощи NERF. Кстати, Вчера Nvidia сделала их реплику.

По сути это такой подход в дифференцируемой графике. Ее можно ведь применять и к 2D векторной графике. Создаете первичные векторные формы (по факту цветные закорючки) любого цвета и размера в любом количестве. Рендерите в растр, и похожим методом как в случае с DreamFusion! Через бекпроб к звездам, как говорится. А градиенты берутся из Stable Diffusion! Еще бы, пока что единственный актуальны Text-2-Image опенсорс!

Так что мы с вами увидим много крутых подходов в ближайшее время, благодаря тому, что кто-то все таки опенсорсит image -генеративные модели!

📄
paper
🐣
project
💐
gallery

🧸 м и ш и н л е р н и н г
🔥29👍83💯1💋1
🧸 Готовы к новой версии Stable Diffusion?!
❤‍🔥114👍14🔥10😍8👎2💯2🙏1💋1