Мишин Лернинг 🇺🇦🇮🇱
7.91K subscribers
1.16K photos
141 videos
4 files
634 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🏆 Инженер из OpenAI придумал, как использовать DALL-E 2 для генерации качественных картин любого размера!

Да, опять DALL-E 2, ну что я могу поделать, когда вокруг такая красивая простота! Действительно все гениальное — просто.

Идею подхода, инженер из OpenAI David Schnurr, описывает так: "Я создал серию изображений с помощью DALL·E , где каждое последующее изображение, использовало предыдущее изображение, как кондишн), а затем соединил их все вместе".

По своей сути DALL-E 2, является развитием идеи GLIDE (сам декодер так вообще тюн GLIDE, где добавили кондишн векторов CLIP, сделав тем самым unCLIP). A GLIDE мы уже знаем как использовать в режиме Inpainting! У MLArt есть крутой колаб с этим Inpainting функционалом для GLIDE.

🌬 Оригиналы генераций приложил в комментарии к посту в своем телеграм-канале Нейроэстетика, где выкладываю генеративный арт.

p.s.: Нейро-полотно Босха и Дали от DALL-E действительно лучшее из того, что я пока видел!
39👍14
🎲 Мысли вслух по поводу GPT-3 от OpenAI

Удивился насколько неплохо может суммаризировать текст GPT-3 (Babbage) в которой всего лишь 1.3B параметров.

Прикрепил два скриншота GPT-3 интерфейса апишки от OpenAI с примерами. Видно, что иногда 175B (Davinci) — оверхед по стоимости.

Хочу сказать, что ребята как и из OpenAI, так и из EleutherAI умеют обучать свои модели.

1.3B версии GPT, что Babbage от OpenAI, что GPT-Neo 1.3B от EleutherAI, для своих размеров, нормально справляются с пониманием текста и генерацией (все ок с перплексией) и модель не начинает выдавать абракадабру после генерации 500-600 первых токенов (типа все ок с обучением позишн эмбеддингов, как и должно быть у gpt), что позволяет генерировать длинные и относительно связные тексты.
👍27
🔘 Спустя год хайпа подхода вышел пейпер VQGAN-CLIP от EleutherAI

Когда в голове у всех DALL-E 2 и Latent Diffusion, Katherine Crowson и Stella Biderman и другие крутые ребята из EleutherAI выкатывают папир по VQGAN-CLIP.

Спрашивается зачем? А я сейчас покажу, откуда на Беларусь готовилось нападение, и если бы за шесть часов не был нанесен ноги у этого растут и зачем это все.

То что сейчас происходит, я бы назвал, демократизацией искусственного интеллекта! Ведь давайте будем честны, DALL-E 2 — огонь, но светит он через закрытые шторы. А вот ресерчеры из EleutherAI, делают современный AI, который сейчас считается привилегией ограниченного круга избранных, доступным для всех.

К чему это я? VQGAN-CLIP — хит прошлого лета, был доступен сразу всем и каждому, и развивался благодоря коммьюнити! Я тоже делал очень крутые штуки своей версией CLIP-VQGAN.

И в этом году мы видим, сначала код GPT-NeoX с открытыми весами, а потом формализацию — пейпер, который полезен, в котором есть детали!

💻 Code
📄
VQGAN-CLIP paper
31👍14
Forwarded from AI для Всех
HuggingFace запустили свой курс по RL! Судя по скриншотам - это бомба 💣

Курс бесплатный, регистрируют тут
👍64
Постмодерн — состояние современной культуры, включающее в себя такие признаки как полистилистика, деконструктивизм, имманентность культурных кодов, ирония, сомнение в общепринятых истинах и др.

Постмодернизм как стиль сформировался в 1950-х годах, как система начал складываться в 1960-х, а окончательная структура оформилась в 1980-х. Первая стадия постмодернизма (1970—1980-е) была классическим постмодерном, с упором на текст, а вторая стадия (1990—2000-е) характеризуется возникновением неклассического постмодернизма, в котором активно используются такие выразительные средства, как объект, мизансцена, мимика, контекст, ирония, чёрный юмор и др. В США в 1960-х годах возникло течение «новый классицизм», а в 1990-х — «новый роман».

Постмодернизм связан с теорией речевых актов американского философа Джозефа Остина, который разделял философское отношение к реальности на две разновидности: понятие и суждение. Понятие в его трактовке было основано на концептах, формирующихся не как общие идеи, а как индивидуальные, неделимые смыслы. К примеру, понятие «галстук» индивидуальное, даже «бессмысленное», так как в понятии нет ни единой точки соприкосновения с материальной реальностью, где реально используется галстук. А суждение — это «общие и нематериальные идеи, которые относятся к конкретному предмету (в данном случае — галстуку) и сводятся к утверждениям о том, что этот предмет существует, что он — галстук». Остин утверждает, что «концепты — это мысли, но не вещи; суждение — это предмет, но не мысль».

сгенерировано
19👍9👎2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Демодернизация Айфона от DALL-E-2
Сорс
42👍10😢4
Media is too big
VIEW IN TELEGRAM
🥻StyleGAN-Human: A Data-Centric Odyssey of Human Generation

Тут ребята генерируют людей целиком, а не только лица. Вроде ничего нового, но результат неплохой. Даже в эпоху DALL-E 2, подобная технология может быть полезна, так как позволяет генерировать реалистичные «стоковые души» для разных коммерческих задач.

🔮 Colab | сгенерировать стоковую душу

Ребята уже выложили веса StyleGAN (1024x512), StyleGAN 2 (1024x512) и даже StyleGAN 3, но пока только в 512х256, но обещают скоро выложить и 1024x512 веса.

🖥 project 💻 git 🎥 youtube

p.s.: На ютуб ролике с объяснением, пока всего 90 просторов
20👍14
Я сейчас вам покажу, откуда на веса потекли градиенты. И если бы за шесть часов до конца эпохи не был нанесён превентивный градиентный клипинг по нейронной сети — четыре батча, я сейчас покажу, датасет я принёс — они бы взорвали наш лосс. Не мы развязали этот файнтюн, у нас веса после претрейна чисты. Хорошо, что регуляризировали..
👍16733😢15👎8🔥1
🚀 Сегодня OpenAI выкатил в открытый доступ все веса известной нейросети CLIP | Привет, ViT-L/14@336px

Случилось! Спустя 16 месяцев OpenAI выложили веса топового CLIP ViT-L/14 в разрешении 336px. Напомню, что в начале февраля OpenAI выложили веса CLIP ViT-L14 в разрешении 224px.

Заменить ViT-L/14 на ViT-L/14@336px можно легко одной строчкой:

вместо:
model, preprocess = clip.load('ViT-L/14', device)
пишем:
model, preprocess = clip.load('ViT-L/14@336px', device)

Почему это важно?

ViT CLIP стал стандартом. И уже понятно, что более серьезным, чем когда-то были VGG и RN50 на ImageNet. Его используют для генерации и изменения картинок, поиска по фото, нейронного ранжирования, метрики схожести, zero-shot классификации и linear probe и т.д.

А теперь нам стала доступна самая топовая модель! Да, есть интересные конкуренты, но CLIP останется стандартом на долгие годы. Как это было с RN50 на ImageNet, и не потому что ResNet особенный, он просто был важной вехой в истории DL.

ссылка на веса CLIP ViT-L/14@336px
32👍11
🥑 Вчера OpenAI сделали DALL•E 2 флешмоб под названием «Давайте сделаем 3D-рендер»

Как мы знаем OpenAI — самые настоящие OpenAI. Веса DALL•E 2 закрыты, код закрыт. Зато открыт пиар и медиа маркетинг. Вот вчера открытые к своему комьюнити OpenAI принимали в своем инстаграмме запросы от юзеров user_text и после конкатенации “3D render of “ + user_text постили результаты.

И да, user_text’ы проходили через жесткий cherry-pick, как и генерации. Было сгенерировано меньше десяти картинок, а запросов были сотни.

Но, недолго вам упиваться своей уникальностью. Так было с GPT, так будет и с DALL•E 2. Это лишь вопрос полугода.

А вопросов к самому DALL•E 2 — нет, тут все на высшем уровне, вот результаты:
▪️Авокадо танцуют, бухают и поют на гавайском луау
▪️Молекула ДНК
▪️Песочные часы
▪️Пушистая альпака в солнцезащитных очках
▪️Львенок астронавт
▪️Снежный шар

p.s.: Ситуация с монополией OpenAI имеет свои плюсы, это побуждает рынок и сильных ресерчеров заполнять конкурентную нишу, но с blackjack’ом и open-source’ом
35👍11😢2👎1