This media is not supported in your browser
VIEW IN TELEGRAM
🥑 DALL-E 2 позволяет не только генерировать новые изображение, но и скрещивать реальные!
DALL-E 2 сочетает лучшее из двух миров:
▪️Zero-Shot способность генерации изображений практически во всех доменах
▪️И способность интерполяции между изображениями (между векторами их эмбедингов)
На gif'ке — DALL-E 2 вариации между двумя изображениями: логотипом OpenAI и картиной "Изучение цвета квадратов и кругов" Кандинского; путем интерполяции их CLIP эмбедингов, а затем декодирования с помощью диффузионной модели unСLIP (декодер части модели DALL-E 2).
Так что все прелести StyleGAN-интерполяции поставляются в DALL-E 2 "из коробки"
DALL-E 2 сочетает лучшее из двух миров:
▪️Zero-Shot способность генерации изображений практически во всех доменах
▪️И способность интерполяции между изображениями (между векторами их эмбедингов)
На gif'ке — DALL-E 2 вариации между двумя изображениями: логотипом OpenAI и картиной "Изучение цвета квадратов и кругов" Кандинского; путем интерполяции их CLIP эмбедингов, а затем декодирования с помощью диффузионной модели unСLIP (декодер части модели DALL-E 2).
Так что все прелести StyleGAN-интерполяции поставляются в DALL-E 2 "из коробки"
❤30👍7
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Если помните, Nvidia не так давно показала свою новую нейронку (iNGP) – скармливаешь ей кучу фоток и она дает тебе 3D пространство этого помещения, в котором можно «перемещать камеру».
Один из интересных побочных эффектов этого алгоритма, это то, что можно «залетать» в отражения, в данном случае в зеркало — и летать там смотреть чего как.
Вход в зазеркалье открывается только с помощью нейронок, теперь все понятно ¯\_(ツ)_/¯
UPD для нердов: Эта сцена тренировалась на 134 фотографиях
Один из интересных побочных эффектов этого алгоритма, это то, что можно «залетать» в отражения, в данном случае в зеркало — и летать там смотреть чего как.
Вход в зазеркалье открывается только с помощью нейронок, теперь все понятно ¯\_(ツ)_/¯
UPD для нердов: Эта сцена тренировалась на 134 фотографиях
❤60👍21🔥2
🚵 Transformers for Referring Video Object Segmentation | Zero-Shot, VideoSWIN, MDETR, MTTR | YouTube Lecture
Представляете себе трансформер для zero-shot стабильной детекции объектов на видео по текстовому описанию? Если Ваш мозг уже начал рисовать MDETR, базирующийся на Video Swin на стероидах, то поздравляю, Вы на правильном пути!
🎥 MTTR — Evgenii Zheltonozhskii (coathor) | Transformer Community | YouTube
Надеюсь, вы помните про мой проект:
Transformer | Прогрессивное ML Комьюнити
В ближайшие месяцы я планирую возобновить работу Transformer'a: продолжить лекции, приглашать специалистов, и делать контент!
А уже сегодня стала доступна запись лекции от соавтора популярной нейростети MTTR:
Evgenii Zheltonozhskii, M.Sc. in Technion | Телеграм Канал автора
Что вас ждет на лекции:
▪️ Short intro, reminder on Transformers
▪️ Intro to RVOS task, explanation and challenges
▪️ Related work: short overview of previous approaches to RVOS, DETR, VisTR, MDETR
▪️ Our approach overview
▪️ Real life samples, discussion of challenges, limitations and future directions
📄 MTTR paper
💻 MTTR code
🚀 MTTR demo
🔮 MTTR colab
P.S.: Буду очень рад, если подпишетесь на мой YouTube канал Transformer 🔔 ML и AI лекции от топовых ресерчеров и специалистов!
Представляете себе трансформер для zero-shot стабильной детекции объектов на видео по текстовому описанию? Если Ваш мозг уже начал рисовать MDETR, базирующийся на Video Swin на стероидах, то поздравляю, Вы на правильном пути!
🎥 MTTR — Evgenii Zheltonozhskii (coathor) | Transformer Community | YouTube
Надеюсь, вы помните про мой проект:
Transformer | Прогрессивное ML Комьюнити
В ближайшие месяцы я планирую возобновить работу Transformer'a: продолжить лекции, приглашать специалистов, и делать контент!
А уже сегодня стала доступна запись лекции от соавтора популярной нейростети MTTR:
Evgenii Zheltonozhskii, M.Sc. in Technion | Телеграм Канал автора
Что вас ждет на лекции:
▪️ Short intro, reminder on Transformers
▪️ Intro to RVOS task, explanation and challenges
▪️ Related work: short overview of previous approaches to RVOS, DETR, VisTR, MDETR
▪️ Our approach overview
▪️ Real life samples, discussion of challenges, limitations and future directions
📄 MTTR paper
💻 MTTR code
🚀 MTTR demo
🔮 MTTR colab
P.S.: Буду очень рад, если подпишетесь на мой YouTube канал Transformer 🔔 ML и AI лекции от топовых ресерчеров и специалистов!
YouTube
Transformers for Referring Video Object Segmentation | Zero-Shot, VideoSWIN, MDETR, MTTR [eng]
Evgenii Zheltonozhskii, M.Sc. in Technion https://evgeniizh.com | Telegram Blog: https://t.iss.one/j_links
Transfomer: https://transformer.community
MTTR paper: https://arxiv.org/abs/2111.14821
MTTR code: https://github.com/mttr2021/MTTR
MTTR demo: https://h…
Transfomer: https://transformer.community
MTTR paper: https://arxiv.org/abs/2111.14821
MTTR code: https://github.com/mttr2021/MTTR
MTTR demo: https://h…
❤12👍3
Выкатили код LiT🔥: Новационный подход contrastive-tuning от Google Research, Brain Team, Zurich обходит CLIP и ALIGN
Помните, в ноябре 2021го выходила статья LiT🔥?
Сегодня стал доступен не только код, но и блог пост в googleblog, colab и онлайн демо, которое, кстати, очень и очень удачно демонстрирует силу подхода на известных примерах и контрпримерах!
🔓 В CLIP и текстовая и визуальная “башня” контрастив модели учились с нуля. u - unlocked from-scratch
🔐 Возникает вопрос: не будет ли лучше взять претрейны моделей (e.g.: ResNet, ViT, MLP-Mixer), и дальше файнтюнить их в режиме contrastive language–image? U - unlocked from a pre-trained model
🔒 Авторы показали, что лучше всего работает подход с полностью замороженной обученной визуальной “башней”!
Модель ViT-G/14, обученная в режиме contrastive-tuning LiT, обходит такой же CLIP в zero-shot на ImageNet: 84.5% vs 76.2%, соответсвенно.
📄 Paper LiT🔥
🎲 Online Demo
📇 Google Blog
💻 LiT code
🔮 LiT Colab
Помните, в ноябре 2021го выходила статья LiT🔥?
Сегодня стал доступен не только код, но и блог пост в googleblog, colab и онлайн демо, которое, кстати, очень и очень удачно демонстрирует силу подхода на известных примерах и контрпримерах!
🔓 В CLIP и текстовая и визуальная “башня” контрастив модели учились с нуля. u - unlocked from-scratch
🔐 Возникает вопрос: не будет ли лучше взять претрейны моделей (e.g.: ResNet, ViT, MLP-Mixer), и дальше файнтюнить их в режиме contrastive language–image? U - unlocked from a pre-trained model
🔒 Авторы показали, что лучше всего работает подход с полностью замороженной обученной визуальной “башней”!
Модель ViT-G/14, обученная в режиме contrastive-tuning LiT, обходит такой же CLIP в zero-shot на ImageNet: 84.5% vs 76.2%, соответсвенно.
📄 Paper LiT🔥
🎲 Online Demo
📇 Google Blog
💻 LiT code
🔮 LiT Colab
❤16👍6
👾 Вышел пейпер: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
У вас есть доступ к DALL-E 2? Ответ может быть «да», если вы один из немногих привилегированных юзеров или вы один из создателей) К сожалению AI движется по пути корпоратократии.
GPT-NeoX-20B — отличный пример того, как независимые ресерчеры натренировали и предоставили в открытый доступ достаточно большую модель с очень хорошими метриками!
В пейпере очень много полезных деталей, касающихся тренировки модели. Описаны и архитектурные трюки и детали тренировки!
Надеюсь, что в бушующем все больше независимых AI ресерч компаний смогут составить конкуренцию корпорациям. А пока наслаждаемся 20B в эпоху 540B.
📄 paper
💻 code
У вас есть доступ к DALL-E 2? Ответ может быть «да», если вы один из немногих привилегированных юзеров или вы один из создателей) К сожалению AI движется по пути корпоратократии.
GPT-NeoX-20B — отличный пример того, как независимые ресерчеры натренировали и предоставили в открытый доступ достаточно большую модель с очень хорошими метриками!
В пейпере очень много полезных деталей, касающихся тренировки модели. Описаны и архитектурные трюки и детали тренировки!
Надеюсь, что в бушующем все больше независимых AI ресерч компаний смогут составить конкуренцию корпорациям. А пока наслаждаемся 20B в эпоху 540B.
📄 paper
💻 code
❤30👍9
This media is not supported in your browser
VIEW IN TELEGRAM
🐂 DALL-E 2 Picasso's deconstruction
«Бык» Пабло Пикассо — это серия литографий, созданных в 1945 году. На ней изображен бык в стадиях "абстракции", если позволите, начиная с достаточно реалистичного изображения и заканчивая всего лишь несколькими линиями.
На видео интерполяция (последовательный переход между изображениями) и галлюцинация выполненная на тему деконструкции Пикассо при помощи нейронной сети DALL-E 2 от OpenAI.
p.s.: Технически все очень просто: картинки со всеми стадиями абстракции «Быка» Пикассо проходят через CLIP для получения их векторов, между которыми и создается интерполяция, а затем рендеринг через unCLIP и 2 диффузионных апскейлера.
«Бык» Пабло Пикассо — это серия литографий, созданных в 1945 году. На ней изображен бык в стадиях "абстракции", если позволите, начиная с достаточно реалистичного изображения и заканчивая всего лишь несколькими линиями.
На видео интерполяция (последовательный переход между изображениями) и галлюцинация выполненная на тему деконструкции Пикассо при помощи нейронной сети DALL-E 2 от OpenAI.
p.s.: Технически все очень просто: картинки со всеми стадиями абстракции «Быка» Пикассо проходят через CLIP для получения их векторов, между которыми и создается интерполяция, а затем рендеринг через unCLIP и 2 диффузионных апскейлера.
❤42👍8😢2
🏆 Инженер из OpenAI придумал, как использовать DALL-E 2 для генерации качественных картин любого размера!
Да, опять DALL-E 2, ну что я могу поделать, когда вокруг такая красивая простота! Действительно все гениальное — просто.
Идею подхода, инженер из OpenAI David Schnurr, описывает так: "Я создал серию изображений с помощью DALL·E , где каждое последующее изображение, использовало предыдущее изображение, как кондишн), а затем соединил их все вместе".
По своей сути DALL-E 2, является развитием идеи GLIDE (сам декодер так вообще тюн GLIDE, где добавили кондишн векторов CLIP, сделав тем самым unCLIP). A GLIDE мы уже знаем как использовать в режиме Inpainting! У MLArt есть крутой колаб с этим Inpainting функционалом для GLIDE.
🌬 Оригиналы генераций приложил в комментарии к посту в своем телеграм-канале Нейроэстетика, где выкладываю генеративный арт.
p.s.: Нейро-полотно Босха и Дали от DALL-E действительно лучшее из того, что я пока видел!
Да, опять DALL-E 2, ну что я могу поделать, когда вокруг такая красивая простота! Действительно все гениальное — просто.
Идею подхода, инженер из OpenAI David Schnurr, описывает так: "Я создал серию изображений с помощью DALL·E , где каждое последующее изображение, использовало предыдущее изображение, как кондишн), а затем соединил их все вместе".
По своей сути DALL-E 2, является развитием идеи GLIDE (сам декодер так вообще тюн GLIDE, где добавили кондишн векторов CLIP, сделав тем самым unCLIP). A GLIDE мы уже знаем как использовать в режиме Inpainting! У MLArt есть крутой колаб с этим Inpainting функционалом для GLIDE.
🌬 Оригиналы генераций приложил в комментарии к посту в своем телеграм-канале Нейроэстетика, где выкладываю генеративный арт.
p.s.: Нейро-полотно Босха и Дали от DALL-E действительно лучшее из того, что я пока видел!
❤39👍14
🎲 Мысли вслух по поводу GPT-3 от OpenAI
Удивился насколько неплохо может суммаризировать текст GPT-3 (Babbage) в которой всего лишь 1.3B параметров.
Прикрепил два скриншота GPT-3 интерфейса апишки от OpenAI с примерами. Видно, что иногда 175B (Davinci) — оверхед по стоимости.
Хочу сказать, что ребята как и из OpenAI, так и из EleutherAI умеют обучать свои модели.
1.3B версии GPT, что Babbage от OpenAI, что GPT-Neo 1.3B от EleutherAI, для своих размеров, нормально справляются с пониманием текста и генерацией (все ок с перплексией) и модель не начинает выдавать абракадабру после генерации 500-600 первых токенов (типа все ок с обучением позишн эмбеддингов, как и должно быть у gpt), что позволяет генерировать длинные и относительно связные тексты.
Удивился насколько неплохо может суммаризировать текст GPT-3 (Babbage) в которой всего лишь 1.3B параметров.
Прикрепил два скриншота GPT-3 интерфейса апишки от OpenAI с примерами. Видно, что иногда 175B (Davinci) — оверхед по стоимости.
Хочу сказать, что ребята как и из OpenAI, так и из EleutherAI умеют обучать свои модели.
1.3B версии GPT, что Babbage от OpenAI, что GPT-Neo 1.3B от EleutherAI, для своих размеров, нормально справляются с пониманием текста и генерацией (все ок с перплексией) и модель не начинает выдавать абракадабру после генерации 500-600 первых токенов (типа все ок с обучением позишн эмбеддингов, как и должно быть у gpt), что позволяет генерировать длинные и относительно связные тексты.
👍27
🔘 Спустя год хайпа подхода вышел пейпер VQGAN-CLIP от EleutherAI
Когда в голове у всех DALL-E 2 и Latent Diffusion, Katherine Crowson и Stella Biderman и другие крутые ребята из EleutherAI выкатывают папир по VQGAN-CLIP.
Спрашивается зачем? А я сейчас покажу, откудана Беларусь готовилось нападение, и если бы за шесть часов не был нанесен ноги у этого растут и зачем это все.
То что сейчас происходит, я бы назвал, демократизацией искусственного интеллекта! Ведь давайте будем честны, DALL-E 2 — огонь, но светит он через закрытые шторы. А вот ресерчеры из EleutherAI, делают современный AI, который сейчас считается привилегией ограниченного круга избранных, доступным для всех.
К чему это я? VQGAN-CLIP — хит прошлого лета, был доступен сразу всем и каждому, и развивался благодоря коммьюнити! Я тоже делал очень крутые штуки своей версией CLIP-VQGAN.
И в этом году мы видим, сначала код GPT-NeoX с открытыми весами, а потом формализацию — пейпер, который полезен, в котором есть детали!
💻 Code
📄 VQGAN-CLIP paper
Когда в голове у всех DALL-E 2 и Latent Diffusion, Katherine Crowson и Stella Biderman и другие крутые ребята из EleutherAI выкатывают папир по VQGAN-CLIP.
Спрашивается зачем? А я сейчас покажу, откуда
То что сейчас происходит, я бы назвал, демократизацией искусственного интеллекта! Ведь давайте будем честны, DALL-E 2 — огонь, но светит он через закрытые шторы. А вот ресерчеры из EleutherAI, делают современный AI, который сейчас считается привилегией ограниченного круга избранных, доступным для всех.
К чему это я? VQGAN-CLIP — хит прошлого лета, был доступен сразу всем и каждому, и развивался благодоря коммьюнити! Я тоже делал очень крутые штуки своей версией CLIP-VQGAN.
И в этом году мы видим, сначала код GPT-NeoX с открытыми весами, а потом формализацию — пейпер, который полезен, в котором есть детали!
💻 Code
📄 VQGAN-CLIP paper
❤31👍14
Forwarded from AI для Всех
HuggingFace запустили свой курс по RL! Судя по скриншотам - это бомба 💣
Курс бесплатный, регистрируют тут
Курс бесплатный, регистрируют тут
👍64
Постмодерн — состояние современной культуры, включающее в себя такие признаки как полистилистика, деконструктивизм, имманентность культурных кодов, ирония, сомнение в общепринятых истинах и др.
Постмодернизм как стиль сформировался в 1950-х годах, как система начал складываться в 1960-х, а окончательная структура оформилась в 1980-х. Первая стадия постмодернизма (1970—1980-е) была классическим постмодерном, с упором на текст, а вторая стадия (1990—2000-е) характеризуется возникновением неклассического постмодернизма, в котором активно используются такие выразительные средства, как объект, мизансцена, мимика, контекст, ирония, чёрный юмор и др. В США в 1960-х годах возникло течение «новый классицизм», а в 1990-х — «новый роман».
Постмодернизм связан с теорией речевых актов американского философа Джозефа Остина, который разделял философское отношение к реальности на две разновидности: понятие и суждение. Понятие в его трактовке было основано на концептах, формирующихся не как общие идеи, а как индивидуальные, неделимые смыслы. К примеру, понятие «галстук» индивидуальное, даже «бессмысленное», так как в понятии нет ни единой точки соприкосновения с материальной реальностью, где реально используется галстук. А суждение — это «общие и нематериальные идеи, которые относятся к конкретному предмету (в данном случае — галстуку) и сводятся к утверждениям о том, что этот предмет существует, что он — галстук». Остин утверждает, что «концепты — это мысли, но не вещи; суждение — это предмет, но не мысль».
сгенерировано
Постмодернизм как стиль сформировался в 1950-х годах, как система начал складываться в 1960-х, а окончательная структура оформилась в 1980-х. Первая стадия постмодернизма (1970—1980-е) была классическим постмодерном, с упором на текст, а вторая стадия (1990—2000-е) характеризуется возникновением неклассического постмодернизма, в котором активно используются такие выразительные средства, как объект, мизансцена, мимика, контекст, ирония, чёрный юмор и др. В США в 1960-х годах возникло течение «новый классицизм», а в 1990-х — «новый роман».
Постмодернизм связан с теорией речевых актов американского философа Джозефа Остина, который разделял философское отношение к реальности на две разновидности: понятие и суждение. Понятие в его трактовке было основано на концептах, формирующихся не как общие идеи, а как индивидуальные, неделимые смыслы. К примеру, понятие «галстук» индивидуальное, даже «бессмысленное», так как в понятии нет ни единой точки соприкосновения с материальной реальностью, где реально используется галстук. А суждение — это «общие и нематериальные идеи, которые относятся к конкретному предмету (в данном случае — галстуку) и сводятся к утверждениям о том, что этот предмет существует, что он — галстук». Остин утверждает, что «концепты — это мысли, но не вещи; суждение — это предмет, но не мысль».
сгенерировано
❤19👍9👎2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Демодернизация Айфона от DALL-E-2
Сорс
Сорс
❤42👍10😢4