🌉🇨🇳 Великая китайская стена в Сан-Франциско
DALL•E 2 vs DALL•E 1; Imagen vs Parti; Google vs Google. По метрикам (FID msCOCO) Parti это новая SOTA. Но уже многие замечали, что FID это совсем неподходящая метрика для оценки Zero-shot способностей Text2Image моделей.
• Первые 3 картинки: Imagen (Diffusion, 2nd Generation Text2Image)
• Последние 3 картинки: Parti (Autoregression, 1st Generation Text2Image)
DALL•E 2 vs DALL•E 1; Imagen vs Parti; Google vs Google. По метрикам (FID msCOCO) Parti это новая SOTA. Но уже многие замечали, что FID это совсем неподходящая метрика для оценки Zero-shot способностей Text2Image моделей.
• Первые 3 картинки: Imagen (Diffusion, 2nd Generation Text2Image)
• Последние 3 картинки: Parti (Autoregression, 1st Generation Text2Image)
🔥17👍1👎1
Какая сеть рисует более фотореалистичную картинку, чьи результаты красивее?
Anonymous Poll
92%
Imagen
8%
Parti
👍1👎1
Чьи генерации больше соответствуют текстовому описанию «The Great Wall of San Francisco»?
Anonymous Poll
84%
Imagen
16%
Parti
👍1👎1
Forwarded from DL in NLP (Vlad Lialin)
Новости NLP одной строкой
1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
X (formerly Twitter)
alewkowycz (@alewkowycz) on X
Very excited to present Minerva🦉: a language model capable of solving mathematical questions using step-by-step natural language reasoning.
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…
👍7❤6👎2
Media is too big
VIEW IN TELEGRAM
📼 Demis Hassabis: DeepMind - Al, Superintelligence & the Future of Humanity
Посмотрел годный подкаст с Demis Hassabis из DeepMind, и спешу поделиться. Очень интересный разговор получился.
👉 https://youtu.be/Gfr50f6ZBvo
p.s.: В видео к посту очень неплохой кусочек из начала подкаста, где обсуждается вопрос симуляции, вычислений, физики и нейронауки. Мне очень близка позиция Demis Hassabis
@мишин_лернинг
Посмотрел годный подкаст с Demis Hassabis из DeepMind, и спешу поделиться. Очень интересный разговор получился.
👉 https://youtu.be/Gfr50f6ZBvo
p.s.: В видео к посту очень неплохой кусочек из начала подкаста, где обсуждается вопрос симуляции, вычислений, физики и нейронауки. Мне очень близка позиция Demis Hassabis
@мишин_лернинг
👍7🔥3👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
6DRepNet: 6D Rotation representation for unconstrained head pose estimation
Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.
Есть репозиторий с кодом, весами и демкой для веб -камеры.
@ai_newz
Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.
Есть репозиторий с кодом, весами и демкой для веб -камеры.
@ai_newz
👍32🔥9👎1
💎 Нейросеть DALL•E 2 научилась строить дома и добывать алмазы
Вот такой шлак мне предложил гугл в новостях.. Дам вам совет: «И — боже вас сохрани — не читайте до обеда науч поп новости про ИИ, вообще никаких науч поп новостей не читайте..»
То у нас осознание из LaMDA мироточит, то у DALL•E 2 язык свой течет, теперь вот алмазы самовывозом..
👉 помойка ixbt (хз, что это такое), где это опубликовали
Вот такой шлак мне предложил гугл в новостях.. Дам вам совет: «И — боже вас сохрани — не читайте до обеда науч поп новости про ИИ, вообще никаких науч поп новостей не читайте..»
То у нас осознание из LaMDA мироточит, то у DALL•E 2 язык свой течет, теперь вот алмазы самовывозом..
👉 помойка ixbt (хз, что это такое), где это опубликовали
🔥30👎7😢6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🗽 Эпоха Модульных Нейронных Сетей на примере DALL•E 2
DALL•E 2 — Модуляр (предлагаю новый термин), состоящий из 6 модулей:
▫️CLIP Visual Tower | VIT, contrastive
▫️CLIP Text Tower | Casual LM, contrastive
▫️Prior (CLIP text2image) | NN, Diffusion
▫️unCLIP 64x64| UNet, Diffusion
▫️64x64 > 256x256| UNet, Diffusion
▫️256x256 > 1024x1024| UNet, Diffusion
Для работы модуляра DALL•E 2 необходимы все 6 модулей, которые, могут независимо решать множество задач, от классификации до суперрезолюшена.
Модулярами никого не удивишь:
▫️CLIP: Text & Visual Towers
▫️Parti: Transformer & VIT-VQGAN
▫️Imagen: T5, 64pix UNet, 64>256 E-Unet & 256>1024 E-Unet
Модуляр — нейронная архитектура, состоящая из модулей. Каждый модуль — нейронная сеть, способная решать независимую задчачу. Модули могут тренироваться совместно (CLIP), последовательно (DALL•E: VQVAE > GPT), и независимо.
Современные архитектуры напоминают конструкторы: сети строят из слоев и блоков, а модуляры из нейронных сетей.
@мишин_лернинг
DALL•E 2 — Модуляр (предлагаю новый термин), состоящий из 6 модулей:
▫️CLIP Visual Tower | VIT, contrastive
▫️CLIP Text Tower | Casual LM, contrastive
▫️Prior (CLIP text2image) | NN, Diffusion
▫️unCLIP 64x64| UNet, Diffusion
▫️64x64 > 256x256| UNet, Diffusion
▫️256x256 > 1024x1024| UNet, Diffusion
Для работы модуляра DALL•E 2 необходимы все 6 модулей, которые, могут независимо решать множество задач, от классификации до суперрезолюшена.
Модулярами никого не удивишь:
▫️CLIP: Text & Visual Towers
▫️Parti: Transformer & VIT-VQGAN
▫️Imagen: T5, 64pix UNet, 64>256 E-Unet & 256>1024 E-Unet
Модуляр — нейронная архитектура, состоящая из модулей. Каждый модуль — нейронная сеть, способная решать независимую задчачу. Модули могут тренироваться совместно (CLIP), последовательно (DALL•E: VQVAE > GPT), и независимо.
Современные архитектуры напоминают конструкторы: сети строят из слоев и блоков, а модуляры из нейронных сетей.
@мишин_лернинг
❤23🔥11👎5👍2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
👾Мир иллюстраторов и аниматоров никогда не будет прежним
Скажем вместе: спасибо тебе, диффузия! Кстати делать анимации, используя DALL•E 2 в режиме инпэинтинга становится новым трендом.
Правда пока это не полноценная Text2Video диффузия, но благодаря инпэинтингу уже можно делать разные движения, зумы и повороты, постепенно генерируя новую и новую область.
Но даже эта возможность открывает DALL•E 2 двери в анимацию, и выгодно отличает ее от Imagen, который из коробки не имеет Image Inpainting файнтюна. Но архитектурных ограничений у Imagen нет, так что все возможно.
Посмотрим что ждет нас впереди. Полноценный Text2Video Diffusion уровня DALL•E 2 не за горами.
@mishin_learning
Скажем вместе: спасибо тебе, диффузия! Кстати делать анимации, используя DALL•E 2 в режиме инпэинтинга становится новым трендом.
Правда пока это не полноценная Text2Video диффузия, но благодаря инпэинтингу уже можно делать разные движения, зумы и повороты, постепенно генерируя новую и новую область.
Но даже эта возможность открывает DALL•E 2 двери в анимацию, и выгодно отличает ее от Imagen, который из коробки не имеет Image Inpainting файнтюна. Но архитектурных ограничений у Imagen нет, так что все возможно.
Посмотрим что ждет нас впереди. Полноценный Text2Video Diffusion уровня DALL•E 2 не за горами.
@mishin_learning
❤25🔥13👎1
🤖👄 Ни один язык не останется без внимания — машинный перевод на 200 языков❗️от MetaAI, который мы заслужили
Ни один язык не останется без внимания — так называется пейпер и новый подход от MetaAI. No Language Left Behind или сокращенно NLLB.
Основные поинты:
▫️ SOTA Машинного перевода на 200 языков!
▫️ Основная MoE модель — 54.5B
▫️ Dense модели — 3.3B и 1.3B
▫️ Distilled Dense модели — 1.3B и 600M
Цель исследования — качественный автоматический машинный перевод + охват для себя (Instagram & Facebook) и для мира — все в опенсорс!
Кроме самих моделей MetaAI опенсорснули:
- Код трейна/инференса моделей
- Код дистилляции моделей
- Код файнтюна моделей ❤️
Последнее вообще топ, так как можно малыми усилиями получить кастомный машинный переводчик под свой домен и нужные языки!
p.s.: в пейпере очень много полезных идей: от пайплайна обучения, регуляризации и дистилляции до тех. деталей типа сравнения MoE Expert Output Masking с Gating Dropout, для NLPшников — маст хэв!
📄 paper 💻 code
@mishin_leaning
Ни один язык не останется без внимания — так называется пейпер и новый подход от MetaAI. No Language Left Behind или сокращенно NLLB.
Основные поинты:
▫️ SOTA Машинного перевода на 200 языков!
▫️ Основная MoE модель — 54.5B
▫️ Dense модели — 3.3B и 1.3B
▫️ Distilled Dense модели — 1.3B и 600M
Цель исследования — качественный автоматический машинный перевод + охват для себя (Instagram & Facebook) и для мира — все в опенсорс!
Кроме самих моделей MetaAI опенсорснули:
- Код трейна/инференса моделей
- Код дистилляции моделей
- Код файнтюна моделей ❤️
Последнее вообще топ, так как можно малыми усилиями получить кастомный машинный переводчик под свой домен и нужные языки!
p.s.: в пейпере очень много полезных идей: от пайплайна обучения, регуляризации и дистилляции до тех. деталей типа сравнения MoE Expert Output Masking с Gating Dropout, для NLPшников — маст хэв!
📄 paper 💻 code
@mishin_leaning
🔥54👍5👎1
🍑 Чей пукан бомбит умная JEPA ЛеКуна?
Правильно, дети, порвало пукан у Jürgen Schmidhuber. Никто не сомневался, он все придумал в 1997 и 1991 годах одновременно, и не может понять, почему все этого не видят!??
Почему не понимают, что он Jürgen SchmidhUberAllesInDerWelt не только LSTM, но и Transformer, ResNet и вообще весь ИИ?
Так же он пишет, что все что придумал ЛеКун он уже тоже придумал, и его JEPA ничем не хуже!
Он не забывает снова бомбануть на тему Тьюринг Award, которую дали ЛеКуну, а ему не дали, не дали - не дали. Хахахахахах.
Jurgen Schmidhuber (Chief Scientific Advisor в AIRI, дочка СБЕРа) последнее время често бомбит, что не получает должного внимания в ресерч комьюнити. Но своимиписюльк.. блог-постами он добился лишь того, что вместо крутого ресерчера в сфере ИИ в головах людей, он ассоциируется разве что с ИИ-фриками.
Ну а почитать его высер можно тут 👉 https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html
p.s.: на скриншоте слева и справа — размер полотна..
@мишин лернинг
Правильно, дети, порвало пукан у Jürgen Schmidhuber. Никто не сомневался, он все придумал в 1997 и 1991 годах одновременно, и не может понять, почему все этого не видят!??
Почему не понимают, что он Jürgen SchmidhUberAllesInDerWelt не только LSTM, но и Transformer, ResNet и вообще весь ИИ?
Так же он пишет, что все что придумал ЛеКун он уже тоже придумал, и его JEPA ничем не хуже!
Он не забывает снова бомбануть на тему Тьюринг Award, которую дали ЛеКуну, а ему не дали, не дали - не дали. Хахахахахах.
Jurgen Schmidhuber (Chief Scientific Advisor в AIRI, дочка СБЕРа) последнее время често бомбит, что не получает должного внимания в ресерч комьюнити. Но своими
Ну а почитать его высер можно тут 👉 https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html
p.s.: на скриншоте слева и справа — размер полотна..
@мишин лернинг
👎21👍9🔥5😢3❤1
Как вы относитесь к бомбежке Schmidhuber’a и его атакам на LeCun’a?
Anonymous Poll
24%
Это смешно и фриковато. Умный чел, но выглядел бы «выше», если бы не бомбил. Брызжать желчью не ок.
10%
Все по делу. Schmidhuber действительно незаслуженно остался в тени LeCun’a. Правильно что пишет.
66%
🧐 С умным лицом посмотреть результаты
👍8👎8
🎓 Как вы YOLO назовете или про МЛ-новости
Увидел в комментах интересное сообщение:
Да чет заебало эту поеботу читать, где нормальные новости? Какая то хуйня высер на высере, то один шизик чет спизданул пишите, то второй. Кому не похуй?
Я думаю, что околоML важная часть ML-дискурса, поэтому и освещаю все новости, а не только то, что вышел YOLO-7 до которого мне нет никакого дела..
DINO: DETR / SwinV2 / Florence-CoSwin — полезно с академ точки зрения и метрик. YOLO v5 — тем, что не надо быть мл гуру, чтобы быстро решить таску и затащить детектор в прод. И я знаю отличный пример такого прода 👍
Вышел YOLO-7 и вышел. Тут интереснее для меня феномен нейминга, чем выход очередного детекора. Движ с Yolo5 и 6. Пример с OpenAI, им не нравится что dalle-mini, ассоциируется с их DALL-E. И это одна из причин популярности dalle-mini, а не более качественных публичных аналогов DALL-E.
Вот такие вот НоРмальНЫЕ НоВОСТИ про ML.
Если вам нужен этот йола7 — держите:
📄 бумажка 💻 код и модели
@mishin_leaning
Увидел в комментах интересное сообщение:
Да чет заебало эту поеботу читать, где нормальные новости? Какая то хуйня высер на высере, то один шизик чет спизданул пишите, то второй. Кому не похуй?
Я думаю, что околоML важная часть ML-дискурса, поэтому и освещаю все новости, а не только то, что вышел YOLO-7 до которого мне нет никакого дела..
DINO: DETR / SwinV2 / Florence-CoSwin — полезно с академ точки зрения и метрик. YOLO v5 — тем, что не надо быть мл гуру, чтобы быстро решить таску и затащить детектор в прод. И я знаю отличный пример такого прода 👍
Вышел YOLO-7 и вышел. Тут интереснее для меня феномен нейминга, чем выход очередного детекора. Движ с Yolo5 и 6. Пример с OpenAI, им не нравится что dalle-mini, ассоциируется с их DALL-E. И это одна из причин популярности dalle-mini, а не более качественных публичных аналогов DALL-E.
Вот такие вот НоРмальНЫЕ НоВОСТИ про ML.
Если вам нужен этот йола7 — держите:
📄 бумажка 💻 код и модели
@mishin_leaning
❤17👎14👍3