эйай ньюз
77.6K subscribers
1.73K photos
900 videos
7 files
2.04K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Картинки к посту выше.

@ai_newz
🔥28👍2
Как я уже говорил, господам дизайнерам, иллюстраторам и фотографам для увеличения эффективности и качества своего труда в новой эпохе киберпанка и метаверса пора учиться работать в паре с нейронками. Например, некоторые творческие люди уже строят свой набор ежедневных инструментов вокруг DALLE-2.

Да, далле-2 пока не доступна каждому. Но есть куча других нейронок и сервисов для генерации изображений, которыми можно пользоваться бесплатно или за небольшую плату. Например, midjourney, ruDalle-XXL и другие. Если вы немного знаете питон, то ваше возможности расширяются, вы тогда можете сами запускать такие нейронки в колабах.

Самое время начать изучать новые технологии!

@ai_newz
🔥23👍11🤔4😢1
Forwarded from AI для Всех
Мета выпустила переводчик на 200 языков.

Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.

Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.

📖 Статья
🗽 Код
👍60👏4🌭43💯1
CS25: Transformers United

Ух! Вышел курс чисто по Трансформерам от Стенфорда! Думаю, должно быть интересно.

Выложили уже 4 лекции. Го смотреть, прокачиваться.

🌐 Сайт
📺 Видео лекции

@ai_newz
🔥92👍12
Андрей Карпатый, директор по AI в Тесле и создатель первого и очень известного курса по Deep Learning cs231 в Стенфорде, сваливает из Теслы.

Говорит, что теперь, когда он решил self-driving довел автопилот до стабильной работы на улицах города, он готов двигаться дальше, делать образовательные проекты и опен-соурс.

Но кто знает, какая у него истинная мотивация. Мб стоки Теслы слишком сильно просели 😁, да и Илон барагозит много
.

@ai_newz
😁57👍10🤔62🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Dressing Avatars: Deep Photorealistic Appearance for Physically Simulated Clothing

Коллеги из Meta Reality Labs выкатили реалистичных full-body аватаров да и с реалистичной симуляцией разной одежды в динамике (что очень сложная проблема) с помощью нейронок.

Можно переодевать аватаров в разные шмотки и рендерить с произвольных углов в движении.

Пока это целый монстр из трех моделей, и работает в реалтайме (30 fps) только на трех GPU Tesla V100. Но есть большой потенциал для оптимизации и ускорения таких моделей.

❱❱ Подробнее в полном видео (5 мин) и статье.

@ai_newz
🔥52👍12👎3
Advances in Neural Rendering: Курс

Продолжая серию постов о курсах и сборках материалов для обучения.

Вот толковый курс по нейронному рендерингу с SIGGRAPH 2021. За 5 часов вам расскажут от основ до продвинутых методов (полная программа курса). Рекомендую!

1⃣ Часть 1 (2.5 часа)
2⃣ Часть 2 (3 часа)

#ликбез
@ai_newz
👍34🔥12🤔1
R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis

Немного о последних "сотах" в нейронном рендеринге. Неявное представление сцены, которое учит NeRF, печально известно тем, что из него очень долго рендерить. На каждый пиксель картинки нужно сделать десятки или сотни прогонов сети (ray marching). Недавние работы научились это дело ускорять, запекая неявное представление, например кэшированием выходов сетки в трехмерный грид. Но эффективная имплементация таких методов зачастую требует низкоуровневых оптимизаций кода и знаний CUDA.

В этой работе, Снэп показал более элегантный трюк. После обучения нерфа, они дистиллируют информацию (teacher-student подход) в глубокий MLP со скип-соедмнениями. Самое главное – новый MLP на вход принимает координату пикселя и расположение камеры и выдает RGB значение за один прогон, без богопротивного ray marching. Это даёт изи ускорение в 30 раз, при этом сохраняя качество рендеринга.

❱❱ Сайт
❱❱ Код

@ai_newz
👍27🔥17
This media is not supported in your browser
VIEW IN TELEGRAM
NUWA-Infinity: новая авторегресионная модель для генерации картинок большого размера

Микромягкие выкатили новую модельку, улучшение NUWA. По сравнению с DALL·E, Imagen и Parti, микрософтовсккая модель генерит в высоком разрешении длинные картинки произвольного размера, да ещё в image-2-video умеет.

Модель авторегресионная, без диффузии. Результаты на видео. Кода пока нет,но, кажется, планируют выкатить.

📜 Статья
🌐 Сайт проекта (там есть интерактивные визуализации)

@ai_newz
🔥31👍13🤯2
Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.

Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.

Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.

Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте

@ai_newz
🔥22👍84
Эта детка получает слишком много внимания

@ai_newz
😁93🐳17👍9🤣8🥰4🔥3🤩3
Наткнулся на любопытную статью с MICCAI 2021 (это крупнейшая конференция по AI в медицине). Оказывается, нейросеть довольно точно (ошибка 4-6 лет, в зависимости от датасета) может предсказать возраст пациента по рентгеновскому снимку кисти.

@ai_newz
🔥54👍6❤‍🔥2
После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.

Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.

На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"
🔥21👍12😁2
#чтивонаночь

Bf16 или fp16 здорового человека

Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.

FP32
Использует 8 знаков на экспоненту , 23 на мантиссу

FP16
Использует 5 знаков на экспоненту, 10 на мантиссу

BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу

Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)

- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой

- Просто делай torch.bfloat16 каждое утро и видеопамять болеть не будет

- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше

клёвая статья на медиум

Дока Nvidia про тоже самое, но с графиками и более техническое
👍34🥰8🔥6🤔6👎2😱2
Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz
🤩49👍4🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz
125👍39🔥19❤‍🔥6😱5😁4👏1