✨ Нейросеть "Стебель Диффузии" доступна каждому
tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.
🌬 Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.
Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3
👉 Веса и модель (в том числе новый чекпоинт!)
🔮 Оптимизированный нотбук / колаб со всеми плюшками (зарегайся на HuggingFace и получи токен, ссылка выше)
🤗 Diffusers от HuggingFace (библиотека самого графа Диффузора)
📇 Блог пост Stability.AI про релиз весов
Мишин Лернинг
tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.
🌬 Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.
Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3
👉 Веса и модель (в том числе новый чекпоинт!)
🔮 Оптимизированный нотбук / колаб со всеми плюшками (зарегайся на HuggingFace и получи токен, ссылка выше)
🤗 Diffusers от HuggingFace (библиотека самого графа Диффузора)
📇 Блог пост Stability.AI про релиз весов
Мишин Лернинг
🔥80👍9❤2👎2🙏1
🤖 OpenAI только что опустили цены на свои модели: Невидимая рука рынка или вполне осязаемая рука Эмада из Stability.AI?
Сижу, не шалю, никого не трогаю, починяю код, дебажу и вдруг прилетает письмо от OpenAI: "Мы рады сообщить, что снижаем цену за токен для наших стандартных моделей GPT-3 моделей для инференса"
— GPT-3 Davinci 175B c $0.06 до $0.02 за 1000 токенов
— GPT-3 Curie 13B c $0.006 до $0.002 за 1000 токенов
Типа в 3 раза дешевле стали старшие GPT-3 модели.. ПроДалли 2 конечно ни единго слова. Захожу значит на сайт, посмотреть цену токенов Дали, а там: "Сорян, пока токены купить нельзя, магазин закрыт, ушла на 15 мин, приходите позже"
Ну и как это понимать?
Мишин Лернинг
Сижу, не шалю, никого не трогаю, починяю код, дебажу и вдруг прилетает письмо от OpenAI: "Мы рады сообщить, что снижаем цену за токен для наших стандартных моделей GPT-3 моделей для инференса"
— GPT-3 Davinci 175B c $0.06 до $0.02 за 1000 токенов
— GPT-3 Curie 13B c $0.006 до $0.002 за 1000 токенов
Типа в 3 раза дешевле стали старшие GPT-3 модели.. ПроДалли 2 конечно ни единго слова. Захожу значит на сайт, посмотреть цену токенов Дали, а там: "Сорян, пока токены купить нельзя, магазин закрыт, ушла на 15 мин, приходите позже"
Ну и как это понимать?
Мишин Лернинг
🌚38🔥13👍5👎2
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
⚜️ Выкатили пару платных фичу в наш Curated AI art generator ⚜️
Я не удержался и сделал глуповатый анонс фичи «RE-MIX» в стиле будто мы пафосный дом моды нейронок.
Если коротко, то может работать в двух режимах:
🔹 Перепридумать текущую картинку на входе, поместив ее в какую-то категорию генератора – для этого можно загрузить картинку, но не вводить текст
🔹 Изменить картинку в соответствии с текстом и категорией которую вы выбрали
А еще появился «HD mode», фича которая добавляет много секси деталей в арт который генерируется (пример).
В общем, играться тут:
https://neural.love/ai-art-generator
P.S. Бесплатные фичи все так же остались как и были
P.P.S. Усы мои, да
Я не удержался и сделал глуповатый анонс фичи «RE-MIX» в стиле будто мы пафосный дом моды нейронок.
Если коротко, то может работать в двух режимах:
🔹 Перепридумать текущую картинку на входе, поместив ее в какую-то категорию генератора – для этого можно загрузить картинку, но не вводить текст
🔹 Изменить картинку в соответствии с текстом и категорией которую вы выбрали
А еще появился «HD mode», фича которая добавляет много секси деталей в арт который генерируется (пример).
В общем, играться тут:
https://neural.love/ai-art-generator
P.S. Бесплатные фичи все так же остались как и были
P.P.S. Усы мои, да
❤🔥18👍3👎2🔥2🌚2
🔁 ERNIE-VILG: UNIFIED GENERATIVE PRE-TRAINING FOR BIDIRECTIONAL VISION-LANGUAGE GENERATION
Может ли одна сеть решать две задачи:
— Text2Image & Image2Text —
Ответ да, конечно может. И самое начало 2022 года это подтвердило. В одно и тоже время, независимо, появились три подобные архитектуры.
Cкажу, что тренировать их end2end не стоит, если есть желание выбить SOTA в двух задачах одновременно. А вот использовать end2end претрейн — хорошая идея! Подход идеален для файнтюнов для множества задач!
Кстати сегодня стало доступно демо, так что можете сгенерировать своего "астронавта на коне на марсе с эйфелевой башней", не забудьте только перевести в гугле ваш запрос на китайский: 宇航员在火星上骑马,从后面可以看到埃菲尔铁塔。宇航员骑马
p.s.: понимание текста на голову выше чем у стебля диффузионного
📄 paper
🤗 online demo
Может ли одна сеть решать две задачи:
— Text2Image & Image2Text —
Ответ да, конечно может. И самое начало 2022 года это подтвердило. В одно и тоже время, независимо, появились три подобные архитектуры.
Cкажу, что тренировать их end2end не стоит, если есть желание выбить SOTA в двух задачах одновременно. А вот использовать end2end претрейн — хорошая идея! Подход идеален для файнтюнов для множества задач!
Кстати сегодня стало доступно демо, так что можете сгенерировать своего "астронавта на коне на марсе с эйфелевой башней", не забудьте только перевести в гугле ваш запрос на китайский: 宇航员在火星上骑马,从后面可以看到埃菲尔铁塔。宇航员骑马
p.s.: понимание текста на голову выше чем у стебля диффузионного
📄 paper
🤗 online demo
👍16🔥4❤2👎2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 OpenAI внедрили в DALL·E 2 "Outpainting"
Только что пришло письмо от OpenAI, где говорится, чтоиз-за опенсорса stable diffusion они решили внедрить Outpainting, про который я подробно писал весной, в интерфейс DALL-E 2.
Outpainting позволяет генерировать изображения любого размера. Но в отличие от гибкого разрешения в диффузионных UNet'ах с вниманием, Outpainting предполагает пошаговую генерацию со всеми своими плюсам и минусами.
+ Поэтапная, контролируемая генерация деталей и объектов
- Локальное рецептивное поле
Outpainting — это продолжение генерации изображения за его первоначальными границами. Outpainting добавляет визуальные элементы, развивая генерацию в новых направлениях, основываясь на вашем текстовом описании.
Это позволяет начать ваше полотно в одном стиле, а закончить в другом, уточнять элементы и менять их!
Outpainting — это Inpainting без привязки исходному разрешению..
📇 blog post
🥑 DALL-E 2 Editor
Только что пришло письмо от OpenAI, где говорится, что
Outpainting позволяет генерировать изображения любого размера. Но в отличие от гибкого разрешения в диффузионных UNet'ах с вниманием, Outpainting предполагает пошаговую генерацию со всеми своими плюсам и минусами.
+ Поэтапная, контролируемая генерация деталей и объектов
- Локальное рецептивное поле
Outpainting — это продолжение генерации изображения за его первоначальными границами. Outpainting добавляет визуальные элементы, развивая генерацию в новых направлениях, основываясь на вашем текстовом описании.
Это позволяет начать ваше полотно в одном стиле, а закончить в другом, уточнять элементы и менять их!
Outpainting — это Inpainting без привязки исходному разрешению..
📇 blog post
🥑 DALL-E 2 Editor
❤29👍8⚡3👎2
❗️OpenAI начало обучать GPT-4. Обучение будет закончено через пару месяцев
Сказать больше не могу, чтобы не подставлять.. Но что стоит знать:
— Огромное количество параметров
— Спарс парадигма?
— Стоимость обучения ~ $.e6
— Text, image-vqvae и текстовые токены в одном потоке (аудио? / видео?)
— SOTA в огромном количестве задач!
— Релизное окно: Декабрь-Февраль
p.s.: откуда инфа? ..оттуда. доверяю ли я ей сам? ну в чём-то да, в чём-то нет. мое дело рассказать, ваше — отказаться
@мишин лернинг
Сказать больше не могу, чтобы не подставлять.. Но что стоит знать:
— Огромное количество параметров
— Спарс парадигма?
— Стоимость обучения ~ $.e6
— Text, image-vqvae и текстовые токены в одном потоке (аудио? / видео?)
— SOTA в огромном количестве задач!
— Релизное окно: Декабрь-Февраль
p.s.: откуда инфа? ..оттуда. доверяю ли я ей сам? ну в чём-то да, в чём-то нет. мое дело рассказать, ваше — отказаться
@мишин лернинг
Telegram
Мишин Лернинг 🇺🇦🇮🇱
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
🔥81👍8⚡4👎4🏆3
Forwarded from Denis Sexy IT 🤖
Внезапно нейролав стал фотостоком и пора делать поиск 🫠 Такими темпами на следующей неделе будет миллион сгенерированных картинок
С момента последнего апдейта:
- Появилась рисовалка скетча с ПК
- Новая категория Sci-Fi (идеально если вы космодрочер как я)
- Новая категория Anything: если вы профессиональный промпт инженер, welcome
Играться тут:
https://neural.love/ai-art-generator
С момента последнего апдейта:
- Появилась рисовалка скетча с ПК
- Новая категория Sci-Fi (идеально если вы космодрочер как я)
- Новая категория Anything: если вы профессиональный промпт инженер, welcome
Играться тут:
https://neural.love/ai-art-generator
❤21👍9🔥2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🔮 Стебель Диффузии v1.5 доступен всем в DreamStudio
Улечшения в сравнении с v1.4:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд
👉 200 генераций в DreamStudio бесплатно
🤖 Мишин Лернинг
Улечшения в сравнении с v1.4:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд
👉 200 генераций в DreamStudio бесплатно
🤖 Мишин Лернинг
👍35❤3👎3🔥3
🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
🤖 Мишин Лернинг
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
🤖 Мишин Лернинг
🔥47👍5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
🫐🍝🍓 Андрей Карпаты, устав от Тесла, запилил Stable Diffusion Video
Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!
Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.
Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.
Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!
🫐 code 🍓 colab
🤖 Мишин Лернинг
Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!
Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.
Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.
Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!
🫐 code 🍓 colab
🤖 Мишин Лернинг
❤41👍9🔥4⚡1🏆1
Сегодня (через 5 часов) состоится презентация Apple
Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?
Ну и новый дизайн часов тоже интересно глянуть.
👉 ссылка на вечерную Youtube трансляцию
Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?
Ну и новый дизайн часов тоже интересно глянуть.
👉 ссылка на вечерную Youtube трансляцию
👍21👎7❤1🔥1
Что-то планируете брать?
Anonymous Poll
3%
Apple Watch 8⌚️
4%
Apple Watch Ultra❤️🔥
11%
AirPods Pro 2 🎧
1%
iPhone XIV📱
1%
iPhone XIV max📱
7%
iPhone XIV pro📱
7%
iPhone XIV pro max 📱
78%
ничего..
👎36👍16❤🔥1⚡1🌚1
Чем занимаетесь в сфере машинного обучения?
Anonymous Poll
25%
Работаю/ресерчу в Computer Vision
10%
Работаю/ресерчу в NLP
3%
Работаю/ресерчу в Мультимодалке
11%
Работаю в Data Science
3%
Работаю в Data Analytics
8%
Работаю в ML, но не CV/NLP
14%
Работаю в IT, хочу в ML
10%
Работаю в IT, не хочу в ML
8%
Не работаю в IT, но хочу в ML
8%
Не работаю в IT, и хочу в ML
👍9🔥1