Мишин Лернинг 🇺🇦🇮🇱
7.93K subscribers
1.16K photos
141 videos
4 files
630 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👁 Ничего необычного, просто декорации к музыкальному клипу сгенерил DALL•E 2

Прошло почти десять лет с начала эпохи Deep Learning, и ИИ стал входить в наш мир — сначала осторожно и с вежливой улыбкой, а потом все уверенней и смелее. Важнейшими визитными карточками эпохи ИИ оказались нейросети GPT-3, CLIP и DALL•E, которые, как отмечали исследователи, стали поворотной точкой в развитии всей мировой культуры.

Если вдуматься, уже тогда можно было понять, что дело не в самих результатах, демонстрируемых нейронными сетями, а в деньгах, с которыми прямо связывалось их обучение.

К этому выводу приводили, во-первых, классические фрейдистские ассоциации, обусловленные не столько названием сетей, сколько теми чувствами, что возникали в душах мл-инженеров при употреблении в их присутствии
заветных слов GPT, CLIP и DALL•E в очередном посте или в названии лекции; во-вторых, логическое умозаключение — с ресерчерами, позволившими себе эти самые GPT, CLIP и DALL•E, явно стоит считаться.

🌊
https://t.iss.one/neuroesthetica
🔥18👎43👍1
VQ-Diffusion

Что это такое?
Это модель от microsoft. Смысл этой модели и различие её от обычной диффузии(glide, dalle2, imagen) заключается в том, что она генерирует латентное пространство vqvae, вместо того, чтобы генерировать сразу картинку.
Они заменили unet на трансформер dalle, что позволяет им без проблем генерировать сразу пространство vqvae.
Также они считают текстовые эмбеддинги с помощью клипа, что довольно интересно.

Собрал колаб для этой модели.

гитхаб

пейпер

@gradientdip
9👍7🔥4👎1
Forwarded from эйай ньюз
Свежее интервью с Яном Лекуном (20 мин) с парижской конфы Viva Trchnology.

В нем он коротко прошелся по своему вижену AGI и немного унизил DALL-E, GPT-3 и прочие хайповые сетки, сказав что в них нет нужного ингредиента, чтобы стать реально умными. Масштабировать размер моделей и закидывать их ресурсами – это неверный путь.

Посмотрите, интервью короткое и не напряжное.
25👍9👎1
Forwarded from Neural Shit
Мне до сих пор присылают по 2-3 раза в день разные люди эту уже просроченную и заебавшую всех проклятую новость о том, что работник гуглов нашёл разум у нейросети LaMDA.

Штош, я долго от этого пытался ударжаться, но кажется, это неизбежно: админ нейралщита высказывает своё отвратительное мнение, которого никто не просил. И звучит оно примерно так: хватит обращать внимание на всяких фриковатых дегенератов, которые несут хуйню (на всех, кроме меня, конечно же), даже если они работают в гугле. Любая работа без поехавшего кукухой ебаната — это как деревня без дурака (а я рос в деревне и знаю о чём говорю).

Ну ёбаный-покарёбаный? Вы видели промпты, которые этот тормозной сотрудник кормил нейросети? С такими промптами зачатки разума даже у моих бывших коллег найти можно.

Так что восстание машин пока что отменяется :(
🔥618👍8👎1
🔥65👍15😢3👎1
🌉🇨🇳 Великая китайская стена в Сан-Франциско

DALL•E 2 vs DALL•E 1; Imagen vs Parti; Google vs Google. По метрикам (FID msCOCO) Parti это новая SOTA. Но уже многие замечали, что FID это совсем неподходящая метрика для оценки Zero-shot способностей Text2Image моделей.

• Первые 3 картинки: Imagen (Diffusion, 2nd Generation Text2Image)

• Последние 3 картинки: Parti (Autoregression, 1st Generation Text2Image)
🔥17👍1👎1
Какая сеть рисует более фотореалистичную картинку, чьи результаты красивее?
Anonymous Poll
92%
Imagen
8%
Parti
👍1👎1
Чьи генерации больше соответствуют текстовому описанию «The Great Wall of San Francisco»?
Anonymous Poll
84%
Imagen
16%
Parti
👍1👎1
Forwarded from DL in NLP (Vlad Lialin)
Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
👍76👎2
Media is too big
VIEW IN TELEGRAM
📼 Demis Hassabis: DeepMind - Al, Superintelligence & the Future of Humanity

Посмотрел годный подкаст с Demis Hassabis из DeepMind, и спешу поделиться. Очень интересный разговор получился.

👉 https://youtu.be/Gfr50f6ZBvo

p.s.: В видео к посту очень неплохой кусочек из начала подкаста, где обсуждается вопрос симуляции, вычислений, физики и нейронауки. Мне очень близка позиция Demis Hassabis

@
мишин_лернинг
👍7🔥3👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

@ai_newz
👍32🔥9👎1
💎 Нейросеть DALL•E 2 научилась строить дома и добывать алмазы

Вот такой шлак мне предложил гугл в новостях.. Дам вам совет: «И — боже вас сохрани — не читайте до обеда науч поп новости про ИИ, вообще никаких науч поп новостей не читайте..»

То у нас осознание из LaMDA мироточит, то у DALL•E 2 язык свой течет, теперь вот алмазы самовывозом..

👉 помойка ixbt (хз, что это такое), где это опубликовали
🔥30👎7😢6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🗽 Эпоха Модульных Нейронных Сетей на примере DALL•E 2

DALL•E 2 — Модуляр (предлагаю новый термин), состоящий из 6 модулей:

▫️CLIP Visual Tower | VIT, contrastive
▫️CLIP Text Tower | Casual LM, contrastive
▫️Prior (CLIP text2image) | NN, Diffusion
▫️unCLIP 64x64| UNet, Diffusion
▫️64x64 > 256x256| UNet, Diffusion
▫️256x256 > 1024x1024| UNet, Diffusion

Для работы модуляра DALL•E 2 необходимы все 6 модулей, которые, могут независимо решать множество задач, от классификации до суперрезолюшена.

Модулярами никого не удивишь:

▫️CLIP: Text & Visual Towers
▫️Parti: Transformer & VIT-VQGAN
▫️Imagen: T5, 64pix UNet, 64>256 E-Unet & 256>1024 E-Unet

Модуляр — нейронная архитектура, состоящая из модулей. Каждый модуль — нейронная сеть, способная решать независимую задчачу. Модули могут тренироваться совместно (CLIP), последовательно (DALL•E: VQVAE > GPT), и независимо.

Современные архитектуры напоминают конструкторы: сети строят из слоев и блоков, а модуляры из нейронных сетей.

@мишин_лернинг
23🔥11👎5👍2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
👾Мир иллюстраторов и аниматоров никогда не будет прежним

Скажем вместе:
спасибо тебе, диффузия! Кстати делать анимации, используя DALL•E 2 в режиме инпэинтинга становится новым трендом.

Правда пока это не полноценная Text2Video диффузия, но благодаря инпэинтингу уже можно делать разные движения, зумы и повороты, постепенно генерируя новую и новую область.

Но даже эта возможность открывает DALL•E 2 двери в анимацию, и выгодно отличает ее от Imagen, который из коробки не имеет Image Inpainting файнтюна. Но архитектурных ограничений у Imagen нет, так что все возможно.

Посмотрим что ждет нас впереди. Полноценный Text2Video Diffusion уровня DALL•E 2 не за горами.

@
mishin_learning
25🔥13👎1