Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
634 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🔥65👍15😢3👎1
🌉🇨🇳 Великая китайская стена в Сан-Франциско

DALL•E 2 vs DALL•E 1; Imagen vs Parti; Google vs Google. По метрикам (FID msCOCO) Parti это новая SOTA. Но уже многие замечали, что FID это совсем неподходящая метрика для оценки Zero-shot способностей Text2Image моделей.

• Первые 3 картинки: Imagen (Diffusion, 2nd Generation Text2Image)

• Последние 3 картинки: Parti (Autoregression, 1st Generation Text2Image)
🔥17👍1👎1
Какая сеть рисует более фотореалистичную картинку, чьи результаты красивее?
Anonymous Poll
92%
Imagen
8%
Parti
👍1👎1
Чьи генерации больше соответствуют текстовому описанию «The Great Wall of San Francisco»?
Anonymous Poll
84%
Imagen
16%
Parti
👍1👎1
Forwarded from DL in NLP (Vlad Lialin)
Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
👍76👎2
Media is too big
VIEW IN TELEGRAM
📼 Demis Hassabis: DeepMind - Al, Superintelligence & the Future of Humanity

Посмотрел годный подкаст с Demis Hassabis из DeepMind, и спешу поделиться. Очень интересный разговор получился.

👉 https://youtu.be/Gfr50f6ZBvo

p.s.: В видео к посту очень неплохой кусочек из начала подкаста, где обсуждается вопрос симуляции, вычислений, физики и нейронауки. Мне очень близка позиция Demis Hassabis

@
мишин_лернинг
👍7🔥3👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

@ai_newz
👍32🔥9👎1
💎 Нейросеть DALL•E 2 научилась строить дома и добывать алмазы

Вот такой шлак мне предложил гугл в новостях.. Дам вам совет: «И — боже вас сохрани — не читайте до обеда науч поп новости про ИИ, вообще никаких науч поп новостей не читайте..»

То у нас осознание из LaMDA мироточит, то у DALL•E 2 язык свой течет, теперь вот алмазы самовывозом..

👉 помойка ixbt (хз, что это такое), где это опубликовали
🔥30👎7😢6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🗽 Эпоха Модульных Нейронных Сетей на примере DALL•E 2

DALL•E 2 — Модуляр (предлагаю новый термин), состоящий из 6 модулей:

▫️CLIP Visual Tower | VIT, contrastive
▫️CLIP Text Tower | Casual LM, contrastive
▫️Prior (CLIP text2image) | NN, Diffusion
▫️unCLIP 64x64| UNet, Diffusion
▫️64x64 > 256x256| UNet, Diffusion
▫️256x256 > 1024x1024| UNet, Diffusion

Для работы модуляра DALL•E 2 необходимы все 6 модулей, которые, могут независимо решать множество задач, от классификации до суперрезолюшена.

Модулярами никого не удивишь:

▫️CLIP: Text & Visual Towers
▫️Parti: Transformer & VIT-VQGAN
▫️Imagen: T5, 64pix UNet, 64>256 E-Unet & 256>1024 E-Unet

Модуляр — нейронная архитектура, состоящая из модулей. Каждый модуль — нейронная сеть, способная решать независимую задчачу. Модули могут тренироваться совместно (CLIP), последовательно (DALL•E: VQVAE > GPT), и независимо.

Современные архитектуры напоминают конструкторы: сети строят из слоев и блоков, а модуляры из нейронных сетей.

@мишин_лернинг
23🔥11👎5👍2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
👾Мир иллюстраторов и аниматоров никогда не будет прежним

Скажем вместе:
спасибо тебе, диффузия! Кстати делать анимации, используя DALL•E 2 в режиме инпэинтинга становится новым трендом.

Правда пока это не полноценная Text2Video диффузия, но благодаря инпэинтингу уже можно делать разные движения, зумы и повороты, постепенно генерируя новую и новую область.

Но даже эта возможность открывает DALL•E 2 двери в анимацию, и выгодно отличает ее от Imagen, который из коробки не имеет Image Inpainting файнтюна. Но архитектурных ограничений у Imagen нет, так что все возможно.

Посмотрим что ждет нас впереди. Полноценный Text2Video Diffusion уровня DALL•E 2 не за горами.

@
mishin_learning
25🔥13👎1
Forwarded from эйай ньюз
Мы все тут очень следим за похождениями Иана Хорошего Паренька. Так вот после ухода из Эпле он перешёл в DeepMind и будет работать с другим топовым ресерчером – Ориолом Виньялсом.

@ai_newz
👍34👎1
🤖👄 Ни один язык не останется без внимания — машинный перевод на 200 языков❗️от MetaAI, который мы заслужили

Ни один язык не останется без внимания — так называется пейпер и новый подход от MetaAI. No Language Left Behind или сокращенно NLLB.

Основные поинты:
▫️ SOTA Машинного перевода на 200 языков!
▫️ Основная MoE модель — 54.5B
▫️ Dense модели — 3.3B и 1.3B
▫️ Distilled Dense модели — 1.3B и 600M

Цель исследования — качественный автоматический машинный перевод + охват для себя (Instagram & Facebook) и для мира — все в опенсорс!

Кроме самих моделей MetaAI опенсорснули:
- Код трейна/инференса моделей
- Код дистилляции моделей
- Код файнтюна моделей ❤️

Последнее вообще топ, так как можно малыми усилиями получить кастомный машинный переводчик под свой домен и нужные языки!

p.s.: в пейпере очень много полезных идей: от пайплайна обучения, регуляризации и дистилляции до тех. деталей типа сравнения MoE Expert Output Masking с Gating Dropout, для NLPшников — маст хэв!

📄 paper 💻 code

@mishin_leaning
🔥54👍5👎1
🍑 Чей пукан бомбит умная JEPA ЛеКуна?

Правильно, дети, порвало пукан у Jürgen Schmidhuber. Никто не сомневался, он все придумал в 1997 и 1991 годах одновременно, и не может понять, почему все этого не видят!??

Почему не понимают, что он Jürgen SchmidhUberAllesInDerWelt не только LSTM, но и Transformer, ResNet и вообще весь ИИ?

Так же он пишет, что все что придумал ЛеКун он уже тоже придумал, и его JEPA ничем не хуже!

Он не забывает снова бомбануть на тему Тьюринг Award, которую дали ЛеКуну, а ему не дали, не дали - не дали. Хахахахахах.

Jurgen Schmidhuber (Chief Scientific Advisor в AIRI, дочка СБЕРа) последнее время често бомбит, что не получает должного внимания в ресерч комьюнити. Но своими писюльк.. блог-постами он добился лишь того, что вместо крутого ресерчера в сфере ИИ в головах людей, он ассоциируется разве что с ИИ-фриками.

Ну а почитать его высер можно тут 👉 https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html

p.s.: на скриншоте слева и справа — размер полотна..

@мишин лернинг
👎21👍9🔥5😢31
🎓 Как вы YOLO назовете или про МЛ-новости

Увидел в комментах интересное сообщение:

Да чет заебало эту поеботу читать, где нормальные новости? Какая то хуйня высер на высере, то один шизик чет спизданул пишите, то второй. Кому не похуй?

Я думаю, что околоML важная часть ML-дискурса, поэтому и освещаю все новости, а не только то, что вышел YOLO-7 до которого мне нет никакого дела..

DINO: DETR / SwinV2 / Florence-CoSwin — полезно с академ точки зрения и метрик. YOLO v5 — тем, что не надо быть мл гуру, чтобы быстро решить таску и затащить детектор в прод. И я знаю отличный пример такого прода 👍

Вышел YOLO-7 и вышел. Тут интереснее для меня феномен нейминга, чем выход очередного детекора. Движ с Yolo5 и 6. Пример с OpenAI, им не нравится что dalle-mini, ассоциируется с их DALL-E. И это одна из причин популярности dalle-mini, а не более качественных публичных аналогов DALL-E.

Вот такие вот НоРмальНЫЕ НоВОСТИ про ML.

Если вам нужен этот йола7 — держите:
📄 бумажка 💻 код и модели

@mishin_leaning
17👎14👍3