Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.
Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.
Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.
Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте
@ai_newz
Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.
Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.
Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте
@ai_newz
После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.
Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.
На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"
Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.
На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"
YouTube
Breaking down language barriers with augmented reality | Google
Augmented reality allows us to spend more time focusing on what matters in the real world, in our real lives. It can break down communication barriers — and help us better understand each other by making language visible. Watch what happens when we bring…
Forwarded from Love. Death. Transformers.
#чтивонаночь
Bf16 или fp16 здорового человека
Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.
FP32
Использует 8 знаков на экспоненту , 23 на мантиссу
FP16
Использует 5 знаков на экспоненту, 10 на мантиссу
BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу
Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)
- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой
- Просто делай
- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше
клёвая статья на медиум
Дока Nvidia про тоже самое, но с графиками и более техническое
Bf16 или fp16 здорового человека
Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.
FP32
Использует 8 знаков на экспоненту , 23 на мантиссу
FP16
Использует 5 знаков на экспоненту, 10 на мантиссу
BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу
Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)
- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой
- Просто делай
torch.bfloat16
каждое утро и видеопамять болеть не будет- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше
клёвая статья на медиум
Дока Nvidia про тоже самое, но с графиками и более техническое
Medium
FP64, FP32, FP16, BFLOAT16, TF32, and other members of the ZOO
There are many floating point formats you can hear about in the context of deep learning. Here is a summary of what are they about and…
Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.
Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.
@ai_newz
Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.
И качество картинки поразительное. Обалденно!
Нейросети прогрессируют у нас на глазах.
@ai_newz
И качество картинки поразительное. Обалденно!
Нейросети прогрессируют у нас на глазах.
@ai_newz
Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).
В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.
У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.
@ai_newz
В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.
У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.
Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.
@ai_newz
Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.
@ai_newz
Netflix
Watch The Future Of | Netflix Official Site
With the help of industry experts, this innovative docuseries examines new and emerging technological trends to imagine revolutionary possibilities.
This media is not supported in your browser
VIEW IN TELEGRAM
📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures
Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!
Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!
Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.
❱❱ Статья
@ai_newz
Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!
Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!
Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.
❱❱ Статья
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.
Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.
О, этот дивный новый мир!
@ai_newz
Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.
О, этот дивный новый мир!
@ai_newz
Telegram
Neural Shit
Ладно, дополненная реальность не настолько убогая и бесполезная хуита, как я всегда писал.
PianoVision научит вас играть на пианино поможет вам думать, что вы умеете играть на пианино. Нужны только две веши: собственно пианино и VR-шлем (знаю точно, что…
PianoVision научит вас играть на пианино поможет вам думать, что вы умеете играть на пианино. Нужны только две веши: собственно пианино и VR-шлем (знаю точно, что…
This media is not supported in your browser
VIEW IN TELEGRAM
OWL-ViT by GoogleAI
Давно не говорили о детекции, друзья.
Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.
По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.
Внизу схема архитектуры и минимальный код для инференса.
@ai_newz
Давно не говорили о детекции, друзья.
Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.
По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.
Внизу схема архитектуры и минимальный код для инференса.
@ai_newz
Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.
📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit
@ai_newz
📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут статейка вышла: 3D реконструкция по дизайнерским скетчам. Интересные результаты, местами выглядит как магия из Гарри Поттера.
После беглого осмотра статьи и кода становится понятно, что в методе нет никаких нейронок. Кажется, все работает на дифф-геометрии и оптимизации (целочисленное программирование).
❱❱ Сайт проекта
❱❱ Код
@ai_newz
После беглого осмотра статьи и кода становится понятно, что в методе нет никаких нейронок. Кажется, все работает на дифф-геометрии и оптимизации (целочисленное программирование).
❱❱ Сайт проекта
❱❱ Код
@ai_newz
Привет, мои ботаники! Новая рубрика: "Минутка ликбеза".
Вообще никто:
Я: вот вам список с тысячами страниц текста и десятки часов лекции про Диффузионные Модели — https://github.com/heejkoo/Awesome-Diffusion-Models
@ai_newz
Вообще никто:
Я: вот вам список с тысячами страниц текста и десятки часов лекции про Диффузионные Модели — https://github.com/heejkoo/Awesome-Diffusion-Models
@ai_newz
Media is too big
VIEW IN TELEGRAM
Нвидиа порадовала крутой статьей (SIGGRAPH 2022). Тут сетки учатся реалистично и эффективно управлять мечником, что довольно нелегкая задача. Чтобы умело махать мечом и щитом нужно очень хорошо владеть своим телом. И это решается с помощью Imitation Learning и RL (подробности в посте ниже).
Чтобы быть в тренде, также прикрутили текстовые промпты. Можно написать "делай сальто назад и в полете бей мечом", и персонаж повинуется.
Ух, какие реалистичные игры нас скоро ожидают!
Видео со звуком 🔉.
Советую посмотреть еще полное видео (8 м) с описанием метода, очень интересно!
❱❱ Сайт проекта
@ai_newz
Чтобы быть в тренде, также прикрутили текстовые промпты. Можно написать "делай сальто назад и в полете бей мечом", и персонаж повинуется.
Ух, какие реалистичные игры нас скоро ожидают!
Видео со звуком 🔉.
Советую посмотреть еще полное видео (8 м) с описанием метода, очень интересно!
❱❱ Сайт проекта
@ai_newz