🏆 Инженер из OpenAI придумал, как использовать DALL-E 2 для генерации качественных картин любого размера!
Да, опять DALL-E 2, ну что я могу поделать, когда вокруг такая красивая простота! Действительно все гениальное — просто.
Идею подхода, инженер из OpenAI David Schnurr, описывает так: "Я создал серию изображений с помощью DALL·E , где каждое последующее изображение, использовало предыдущее изображение, как кондишн), а затем соединил их все вместе".
По своей сути DALL-E 2, является развитием идеи GLIDE (сам декодер так вообще тюн GLIDE, где добавили кондишн векторов CLIP, сделав тем самым unCLIP). A GLIDE мы уже знаем как использовать в режиме Inpainting! У MLArt есть крутой колаб с этим Inpainting функционалом для GLIDE.
🌬 Оригиналы генераций приложил в комментарии к посту в своем телеграм-канале Нейроэстетика, где выкладываю генеративный арт.
p.s.: Нейро-полотно Босха и Дали от DALL-E действительно лучшее из того, что я пока видел!
Да, опять DALL-E 2, ну что я могу поделать, когда вокруг такая красивая простота! Действительно все гениальное — просто.
Идею подхода, инженер из OpenAI David Schnurr, описывает так: "Я создал серию изображений с помощью DALL·E , где каждое последующее изображение, использовало предыдущее изображение, как кондишн), а затем соединил их все вместе".
По своей сути DALL-E 2, является развитием идеи GLIDE (сам декодер так вообще тюн GLIDE, где добавили кондишн векторов CLIP, сделав тем самым unCLIP). A GLIDE мы уже знаем как использовать в режиме Inpainting! У MLArt есть крутой колаб с этим Inpainting функционалом для GLIDE.
🌬 Оригиналы генераций приложил в комментарии к посту в своем телеграм-канале Нейроэстетика, где выкладываю генеративный арт.
p.s.: Нейро-полотно Босха и Дали от DALL-E действительно лучшее из того, что я пока видел!
❤39👍14
🎲 Мысли вслух по поводу GPT-3 от OpenAI
Удивился насколько неплохо может суммаризировать текст GPT-3 (Babbage) в которой всего лишь 1.3B параметров.
Прикрепил два скриншота GPT-3 интерфейса апишки от OpenAI с примерами. Видно, что иногда 175B (Davinci) — оверхед по стоимости.
Хочу сказать, что ребята как и из OpenAI, так и из EleutherAI умеют обучать свои модели.
1.3B версии GPT, что Babbage от OpenAI, что GPT-Neo 1.3B от EleutherAI, для своих размеров, нормально справляются с пониманием текста и генерацией (все ок с перплексией) и модель не начинает выдавать абракадабру после генерации 500-600 первых токенов (типа все ок с обучением позишн эмбеддингов, как и должно быть у gpt), что позволяет генерировать длинные и относительно связные тексты.
Удивился насколько неплохо может суммаризировать текст GPT-3 (Babbage) в которой всего лишь 1.3B параметров.
Прикрепил два скриншота GPT-3 интерфейса апишки от OpenAI с примерами. Видно, что иногда 175B (Davinci) — оверхед по стоимости.
Хочу сказать, что ребята как и из OpenAI, так и из EleutherAI умеют обучать свои модели.
1.3B версии GPT, что Babbage от OpenAI, что GPT-Neo 1.3B от EleutherAI, для своих размеров, нормально справляются с пониманием текста и генерацией (все ок с перплексией) и модель не начинает выдавать абракадабру после генерации 500-600 первых токенов (типа все ок с обучением позишн эмбеддингов, как и должно быть у gpt), что позволяет генерировать длинные и относительно связные тексты.
👍27
🔘 Спустя год хайпа подхода вышел пейпер VQGAN-CLIP от EleutherAI
Когда в голове у всех DALL-E 2 и Latent Diffusion, Katherine Crowson и Stella Biderman и другие крутые ребята из EleutherAI выкатывают папир по VQGAN-CLIP.
Спрашивается зачем? А я сейчас покажу, откудана Беларусь готовилось нападение, и если бы за шесть часов не был нанесен ноги у этого растут и зачем это все.
То что сейчас происходит, я бы назвал, демократизацией искусственного интеллекта! Ведь давайте будем честны, DALL-E 2 — огонь, но светит он через закрытые шторы. А вот ресерчеры из EleutherAI, делают современный AI, который сейчас считается привилегией ограниченного круга избранных, доступным для всех.
К чему это я? VQGAN-CLIP — хит прошлого лета, был доступен сразу всем и каждому, и развивался благодоря коммьюнити! Я тоже делал очень крутые штуки своей версией CLIP-VQGAN.
И в этом году мы видим, сначала код GPT-NeoX с открытыми весами, а потом формализацию — пейпер, который полезен, в котором есть детали!
💻 Code
📄 VQGAN-CLIP paper
Когда в голове у всех DALL-E 2 и Latent Diffusion, Katherine Crowson и Stella Biderman и другие крутые ребята из EleutherAI выкатывают папир по VQGAN-CLIP.
Спрашивается зачем? А я сейчас покажу, откуда
То что сейчас происходит, я бы назвал, демократизацией искусственного интеллекта! Ведь давайте будем честны, DALL-E 2 — огонь, но светит он через закрытые шторы. А вот ресерчеры из EleutherAI, делают современный AI, который сейчас считается привилегией ограниченного круга избранных, доступным для всех.
К чему это я? VQGAN-CLIP — хит прошлого лета, был доступен сразу всем и каждому, и развивался благодоря коммьюнити! Я тоже делал очень крутые штуки своей версией CLIP-VQGAN.
И в этом году мы видим, сначала код GPT-NeoX с открытыми весами, а потом формализацию — пейпер, который полезен, в котором есть детали!
💻 Code
📄 VQGAN-CLIP paper
❤31👍14
Forwarded from AI для Всех
HuggingFace запустили свой курс по RL! Судя по скриншотам - это бомба 💣
Курс бесплатный, регистрируют тут
Курс бесплатный, регистрируют тут
👍64
Постмодерн — состояние современной культуры, включающее в себя такие признаки как полистилистика, деконструктивизм, имманентность культурных кодов, ирония, сомнение в общепринятых истинах и др.
Постмодернизм как стиль сформировался в 1950-х годах, как система начал складываться в 1960-х, а окончательная структура оформилась в 1980-х. Первая стадия постмодернизма (1970—1980-е) была классическим постмодерном, с упором на текст, а вторая стадия (1990—2000-е) характеризуется возникновением неклассического постмодернизма, в котором активно используются такие выразительные средства, как объект, мизансцена, мимика, контекст, ирония, чёрный юмор и др. В США в 1960-х годах возникло течение «новый классицизм», а в 1990-х — «новый роман».
Постмодернизм связан с теорией речевых актов американского философа Джозефа Остина, который разделял философское отношение к реальности на две разновидности: понятие и суждение. Понятие в его трактовке было основано на концептах, формирующихся не как общие идеи, а как индивидуальные, неделимые смыслы. К примеру, понятие «галстук» индивидуальное, даже «бессмысленное», так как в понятии нет ни единой точки соприкосновения с материальной реальностью, где реально используется галстук. А суждение — это «общие и нематериальные идеи, которые относятся к конкретному предмету (в данном случае — галстуку) и сводятся к утверждениям о том, что этот предмет существует, что он — галстук». Остин утверждает, что «концепты — это мысли, но не вещи; суждение — это предмет, но не мысль».
сгенерировано
Постмодернизм как стиль сформировался в 1950-х годах, как система начал складываться в 1960-х, а окончательная структура оформилась в 1980-х. Первая стадия постмодернизма (1970—1980-е) была классическим постмодерном, с упором на текст, а вторая стадия (1990—2000-е) характеризуется возникновением неклассического постмодернизма, в котором активно используются такие выразительные средства, как объект, мизансцена, мимика, контекст, ирония, чёрный юмор и др. В США в 1960-х годах возникло течение «новый классицизм», а в 1990-х — «новый роман».
Постмодернизм связан с теорией речевых актов американского философа Джозефа Остина, который разделял философское отношение к реальности на две разновидности: понятие и суждение. Понятие в его трактовке было основано на концептах, формирующихся не как общие идеи, а как индивидуальные, неделимые смыслы. К примеру, понятие «галстук» индивидуальное, даже «бессмысленное», так как в понятии нет ни единой точки соприкосновения с материальной реальностью, где реально используется галстук. А суждение — это «общие и нематериальные идеи, которые относятся к конкретному предмету (в данном случае — галстуку) и сводятся к утверждениям о том, что этот предмет существует, что он — галстук». Остин утверждает, что «концепты — это мысли, но не вещи; суждение — это предмет, но не мысль».
сгенерировано
❤19👍9👎2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Демодернизация Айфона от DALL-E-2
Сорс
Сорс
❤42👍10😢4
Media is too big
VIEW IN TELEGRAM
🥻StyleGAN-Human: A Data-Centric Odyssey of Human Generation
Тут ребята генерируют людей целиком, а не только лица. Вроде ничего нового, но результат неплохой. Даже в эпоху DALL-E 2, подобная технология может быть полезна, так как позволяет генерировать реалистичные «стоковые души» для разных коммерческих задач.
🔮 Colab | сгенерировать стоковую душу
Ребята уже выложили веса StyleGAN (1024x512), StyleGAN 2 (1024x512) и даже StyleGAN 3, но пока только в 512х256, но обещают скоро выложить и 1024x512 веса.
🖥 project 💻 git 🎥 youtube
p.s.: На ютуб ролике с объяснением, пока всего 90 просторов
Тут ребята генерируют людей целиком, а не только лица. Вроде ничего нового, но результат неплохой. Даже в эпоху DALL-E 2, подобная технология может быть полезна, так как позволяет генерировать реалистичные «стоковые души» для разных коммерческих задач.
🔮 Colab | сгенерировать стоковую душу
Ребята уже выложили веса StyleGAN (1024x512), StyleGAN 2 (1024x512) и даже StyleGAN 3, но пока только в 512х256, но обещают скоро выложить и 1024x512 веса.
🖥 project 💻 git 🎥 youtube
p.s.: На ютуб ролике с объяснением, пока всего 90 просторов
❤20👍14
Я сейчас вам покажу, откуда на веса потекли градиенты. И если бы за шесть часов до конца эпохи не был нанесён превентивный градиентный клипинг по нейронной сети — четыре батча, я сейчас покажу, датасет я принёс — они бы взорвали наш лосс. Не мы развязали этот файнтюн, у нас веса после претрейна чисты. Хорошо, что регуляризировали..
👍167❤33😢15👎8🔥1
🚀 Сегодня OpenAI выкатил в открытый доступ все веса известной нейросети CLIP | Привет, ViT-L/14@336px
Случилось! Спустя 16 месяцев OpenAI выложили веса топового CLIP ViT-L/14 в разрешении 336px. Напомню, что в начале февраля OpenAI выложили веса CLIP ViT-L14 в разрешении 224px.
Заменить ViT-L/14 на ViT-L/14@336px можно легко одной строчкой:
вместо:
ViT CLIP стал стандартом. И уже понятно, что более серьезным, чем когда-то были VGG и RN50 на ImageNet. Его используют для генерации и изменения картинок, поиска по фото, нейронного ранжирования, метрики схожести, zero-shot классификации и linear probe и т.д.
А теперь нам стала доступна самая топовая модель! Да, есть интересные конкуренты, но CLIP останется стандартом на долгие годы. Как это было с RN50 на ImageNet, и не потому что ResNet особенный, он просто был важной вехой в истории DL.
ссылка на веса CLIP ViT-L/14@336px
Случилось! Спустя 16 месяцев OpenAI выложили веса топового CLIP ViT-L/14 в разрешении 336px. Напомню, что в начале февраля OpenAI выложили веса CLIP ViT-L14 в разрешении 224px.
Заменить ViT-L/14 на ViT-L/14@336px можно легко одной строчкой:
вместо:
model, preprocess = clip.load('ViT-L/14', device)пишем:
model, preprocess = clip.load('ViT-L/14@336px', device)Почему это важно?
ViT CLIP стал стандартом. И уже понятно, что более серьезным, чем когда-то были VGG и RN50 на ImageNet. Его используют для генерации и изменения картинок, поиска по фото, нейронного ранжирования, метрики схожести, zero-shot классификации и linear probe и т.д.
А теперь нам стала доступна самая топовая модель! Да, есть интересные конкуренты, но CLIP останется стандартом на долгие годы. Как это было с RN50 на ImageNet, и не потому что ResNet особенный, он просто был важной вехой в истории DL.
ссылка на веса CLIP ViT-L/14@336px
❤32👍11
🥑 Вчера OpenAI сделали DALL•E 2 флешмоб под названием «Давайте сделаем 3D-рендер»
Как мы знаем OpenAI — самые настоящие OpenAI. Веса DALL•E 2 закрыты, код закрыт. Зато открыт пиар и медиа маркетинг. Вот вчера открытые к своему комьюнити OpenAI принимали в своем инстаграмме запросы от юзеров user_text и после конкатенации “3D render of “ + user_text постили результаты.
И да, user_text’ы проходили через жесткий cherry-pick, как и генерации. Было сгенерировано меньше десяти картинок, а запросов были сотни.
Но, недолго вам упиваться своей уникальностью. Так было с GPT, так будет и с DALL•E 2. Это лишь вопрос полугода.
А вопросов к самому DALL•E 2 — нет, тут все на высшем уровне, вот результаты:
▪️Авокадо танцуют, бухают и поют на гавайском луау
▪️Молекула ДНК
▪️Песочные часы
▪️Пушистая альпака в солнцезащитных очках
▪️Львенок астронавт
▪️Снежный шар
p.s.: Ситуация с монополией OpenAI имеет свои плюсы, это побуждает рынок и сильных ресерчеров заполнять конкурентную нишу, но с blackjack’ом и open-source’ом
Как мы знаем OpenAI — самые настоящие OpenAI. Веса DALL•E 2 закрыты, код закрыт. Зато открыт пиар и медиа маркетинг. Вот вчера открытые к своему комьюнити OpenAI принимали в своем инстаграмме запросы от юзеров user_text и после конкатенации “3D render of “ + user_text постили результаты.
И да, user_text’ы проходили через жесткий cherry-pick, как и генерации. Было сгенерировано меньше десяти картинок, а запросов были сотни.
Но, недолго вам упиваться своей уникальностью. Так было с GPT, так будет и с DALL•E 2. Это лишь вопрос полугода.
А вопросов к самому DALL•E 2 — нет, тут все на высшем уровне, вот результаты:
▪️Авокадо танцуют, бухают и поют на гавайском луау
▪️Молекула ДНК
▪️Песочные часы
▪️Пушистая альпака в солнцезащитных очках
▪️Львенок астронавт
▪️Снежный шар
p.s.: Ситуация с монополией OpenAI имеет свои плюсы, это побуждает рынок и сильных ресерчеров заполнять конкурентную нишу, но с blackjack’ом и open-source’ом
❤35👍11😢2👎1