🤷♀️ 55% подписчиков считают, что бункерный применит ядерное оружие
(да применит + попытается) / (все - посмотреть результат)
окей, пошёл работать дальше
(да применит + попытается) / (все - посмотреть результат)
окей, пошёл работать дальше
🕊86👎21🌚11👍6😢2😍2🏆2⚡1🐳1💋1
👾 Мысли вслух про диффузионные модели
Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:
Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.
Что еще можно сказать про диффузионные модели:
▪️Обучение скор-функции ∇x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.
▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!
▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали
К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"
1) Диффузу не нужен боттлнэк.
А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!
2) Многопроходные подходы лучше однопроходных.
Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.
#мысли
🤖 м и ш и н л е р н и н г
Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:
Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.
Что еще можно сказать про диффузионные модели:
▪️Обучение скор-функции ∇x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.
▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!
▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали
К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"
1) Диффузу не нужен боттлнэк.
А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!
2) Многопроходные подходы лучше однопроходных.
Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.
#мысли
🤖 м и ш и н л е р н и н г
👍53🐳5💯5🔥4🌚2⚡1🏆1
❤️🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,альфа-метилированные триптамины AudioGEN можно рассматривать как триптаминовые гомологи амфетамина аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
🤖 м и ш и н л е р н и н г
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
🤖 м и ш и н л е р н и н г
🔥54👍4❤🔥2👌2💯2⚡1🙏1🏆1💋1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 IMAGEN VIDEO — Диффузии уже не остановить!
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
🔥46👍14❤6❤🔥2💋2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Помните недавний Dream Fusion: Imagen + Nerf? Встречайте Stable-Dreamfusion
Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!
👉 https://github.com/ashawkey/stable-dreamfusion
За инфу спасибо Денису 💙💛
🤖 м и ш и н л е р н и н г
Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!
👉 https://github.com/ashawkey/stable-dreamfusion
За инфу спасибо Денису 💙💛
🤖 м и ш и н л е р н и н г
👍43😍9❤5🕊3💋2👎1
Допожемо ЗСУ! Сьогодні ця допомога особливо важлива!
🇺🇦 https://savelife.in.ua/en/donate-en/
💳 from Ukraine, from abroad, cryptocurrency
🇺🇦 https://savelife.in.ua/en/donate-en/
💳 from Ukraine, from abroad, cryptocurrency
savelife.in.ua
Donate to Ukraine Army - Come Back Alive Foundation
Come Back Alive Foundation raises funds to help Ukrainian Army. You can donate to Ukraine Army from anywhere in the world via card payments, wire transfers, swift or crypto.
❤168👎38🔥10😍3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🛼 Microsoft представили Designer — первый профессиональный Text-to-Image инструмент основанный на DALL•E2
Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!
Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!
А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.
И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.
К тому же поговаривают, что скоро в открытом доступе появитсянечто на голову превосходящее DALL•E 2, не говоря уже о стебле . Так что 🛼 Designer не будет единственным таким инструментом.
🛼 Designer (уже можно оставить заявку)
🤖🎓 м и ш и н л е р н и н г
Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!
Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!
А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.
И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.
К тому же поговаривают, что скоро в открытом доступе появится
🛼 Designer (уже можно оставить заявку)
🤖🎓 м и ш и н л е р н и н г
🔥60👍16❤2👎2🐳2⚡1💯1
Помните, я писал, что LAION обучили CLIP-H? Кроме опенсорсной SOTA в Zero-Shot на ImageNet, CLIP можно использовать и для генерации в режиме Classifier-Guidance.
В этом посте хочется чуть рассказать про Classifier-Guidance. Ведь StabilityAI уже добавили эту фишку в свой редактор DreamStudio!
Classifier Guidance — это подход для улучшения генераций уже обученной диффузии. То есть дообучать ничего не нужно. Ну почти. Кроме обученной диффузии, еще нужен классификатор. Но зачем?
Дело тут в том, что DDPM и даже iDDPM не выдают нормальных семплов при генерации. Это одна из проблем диффузии. Семплированию нужно помогать! Без этой помощи у iDDPM на вышло составить конкуренцию BigGAN на ImageNet генерации, а вот Diffusion Models Beat GANs on Image Synthesis вышло! Кроме поиска архитектурного решения: UNet c оптимальным кол-вом residual блоков и атеншн, ключевой идеей стал Classifier Guidance.
DDPM предсказывает µ шума, который нужно убрать из картинки. iDDPM, кроме mean предиктят еще и Σ. Рассмотрим на примере генерации кота:
1) Предскажем µ и Σ зашумленного изображения x_t в момент (шаг диффузии) времени t
2) Подадим x_t на классификатор Pφ, и получим градиенты (по сути deep-dream-like градиенты) от класса y (кот) по входу:
grads = ∇x_t log Pφ(y|x_t)
3) Получим новый mean µ_new как сумму µ и Σ*grads. Смысл тут такой: µ (mean) это то, что нужно задейнозить по мнению диффузии, а grads то, что нужно изменить по мнению классификатора. Кстати, Σ предсказывает разброс в котором можно сэмплироваться, и логично использовать Σ для скейла градиентов:
µ_new = µ + Σ * grads
А что делать чтобы генерировать по текстовому описанию? Использовать zero-shot классификатор CLIP!
Конечно в таком подходе мы упираемся в понимание текста самим CLIP'ом, но для таких моделей как Stable Diffusion знания CLIP сильно помогают. см картинки
@ м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤4🔥3❤🔥2🏆2
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚
Даже в LoFi умеет
Код: https://github.com/marcoppasini/musika
Онлайн демка: https://huggingface.co/spaces/marcop/musika
Даже в LoFi умеет
Код: https://github.com/marcoppasini/musika
Онлайн демка: https://huggingface.co/spaces/marcop/musika
😍22⚡3👍3❤🔥2👎2🔥2
Forwarded from AI для Всех
Нейрокомпрессия звука
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
🔥111❤🔥10👍8💯3👌2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Там на huggingface появилось пространство с text2music
Мелодии вполне годные выходят, генерация быстрая (при условии, что нет очередей и нагрузка не большая).
А если очередь большая, то можно запустить в колабе
Мелодии вполне годные выходят, генерация быстрая (при условии, что нет очередей и нагрузка не большая).
А если очередь большая, то можно запустить в колабе
👍39❤🔥11🔥8❤2🌚2
🚀 Встречайте новую SOTA Text-2-Image eDiffi: Диффузионные "Эксперты" от NVIDIA
Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.
Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix
Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image
Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).
Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.
👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:
GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04 FID ↓
Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.
🥑 eDiffi от NVIDIA
📇 Paper eDiffi
@ м и ш и н л е р н и н г
Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.
Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix
Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image
Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).
Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.
👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:
GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04 FID ↓
Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.
🥑 eDiffi от NVIDIA
📇 Paper eDiffi
@ м и ш и н л е р н и н г
👍38🔥5❤1❤🔥1😍1🏆1💋1