👹Dream Field: Нейронка для генерации 3D объектов по текстовому описанию
Google Research
Если вкратце, то это NeRF + CLIP. То есть нейронная сеть оптимизирует неявное представление 3D сцены таким образом, что рендеринг этой сцены с любого угла даёт картинку совпадающую с заданным текстовым описанием. Так как тут идет прямая максимизация похожести с текстовым описанием, то из-за высокой степени свободы и недостатка регуляризации сгенерированные объекты слегка напоминают старый добрый DeepDream.
Подробнее в статье - Zero-Shot Text-Guided Object Generation with Dream Fields.
Сайт проекта >> Статья >> Видео презентация (4 мин)
Google Research
Если вкратце, то это NeRF + CLIP. То есть нейронная сеть оптимизирует неявное представление 3D сцены таким образом, что рендеринг этой сцены с любого угла даёт картинку совпадающую с заданным текстовым описанием. Так как тут идет прямая максимизация похожести с текстовым описанием, то из-за высокой степени свободы и недостатка регуляризации сгенерированные объекты слегка напоминают старый добрый DeepDream.
Подробнее в статье - Zero-Shot Text-Guided Object Generation with Dream Fields.
Сайт проекта >> Статья >> Видео презентация (4 мин)
Скоро все будем в таких щеголять по Метаверсу. А в реале будем в лаптях ходить 🤡.
А Nike молодец! Ещё одна крупная компания двигается в сторону NFT и метаверса.
А Nike молодец! Ещё одна крупная компания двигается в сторону NFT и метаверса.
Telegram
Future Sailors — VR, AR and stuff
#AR
Nike купили RTFKT — компанию, которая делает NFT и виртуальную обувь для metaverse. Отметили это классным видосиком
Nike купили RTFKT — компанию, которая делает NFT и виртуальную обувь для metaverse. Отметили это классным видосиком
Forwarded from Denis Sexy IT 🤖
Вы же помните фильм, где всё начиналось с руки робота попавшей в прошлое?
Корейские исследователи сделали достаточно реалистичную руку, которая может делать всякую тонкую работу, например использовать ножницы для разрезания бумаги, пинцет или наливать пивасик. Рука достаточно прочная, с силой хвата 34 Н и лёгкая, 1,1 кг.
Длина руки 22 см, на каждом из пальцев установлены датчики, а в целом у руки имеется 20 суставов, что даёт 15 степеней свободы (ловкая рука 🌚). Она автономная и по сути её хоть сейчас можно установить на какой-нибудь робо-манипулятор, говорят разработчики.
Как утверждают создатели, такая рука идеальна для, например, нанесения мелких микросхем на печатные платы и тп.
Очень интересно возьмут ли на какие-то фабрики такие руки – представьте конвейер где 50 рук на палках, мечта петербуржца 🌚🌝
Оригинал статьи тут.
Корейские исследователи сделали достаточно реалистичную руку, которая может делать всякую тонкую работу, например использовать ножницы для разрезания бумаги, пинцет или наливать пивасик. Рука достаточно прочная, с силой хвата 34 Н и лёгкая, 1,1 кг.
Длина руки 22 см, на каждом из пальцев установлены датчики, а в целом у руки имеется 20 суставов, что даёт 15 степеней свободы (ловкая рука 🌚). Она автономная и по сути её хоть сейчас можно установить на какой-нибудь робо-манипулятор, говорят разработчики.
Как утверждают создатели, такая рука идеальна для, например, нанесения мелких микросхем на печатные платы и тп.
Очень интересно возьмут ли на какие-то фабрики такие руки – представьте конвейер где 50 рук на палках, мечта петербуржца 🌚🌝
Оригинал статьи тут.
🎉 С Наступающим, Друзья! 🎊
Итоги года подводить не буду. Хочу пожелать вам много прорывных идей в новом году чтобы модели сходились с квадратичной скоростью да к глобальному минимуму!
Сейчас отпочиваю в Турции, так что ждите с новыми постами после праздников ☃️
Итоги года подводить не буду. Хочу пожелать вам много прорывных идей в новом году чтобы модели сходились с квадратичной скоростью да к глобальному минимуму!
Сейчас отпочиваю в Турции, так что ждите с новыми постами после праздников ☃️
Media is too big
VIEW IN TELEGRAM
Тактильная перчатка для VR
Вышла (почти) тактильная перчатка для виртуальной реальности от bHaptics. Она будет работать с разными VR шлемами, в том числе и Oculus. В каждом пальце перчатки стоит актуатор, которой вибрирует при взаимодействии с предметами.
Стоит перчатка $299, уже можно сделать предзаказ.
Вышла (почти) тактильная перчатка для виртуальной реальности от bHaptics. Она будет работать с разными VR шлемами, в том числе и Oculus. В каждом пальце перчатки стоит актуатор, которой вибрирует при взаимодействии с предметами.
Стоит перчатка $299, уже можно сделать предзаказ.
PoolFormer: учёные заменили атеншн обычным пулингом и что из этого вышло...
Новая статья-упрощение трансформеров. Авторы взяли и заменили атеншн на AvgPool со страйдом 1. И результаты на многих бенчмарках из компьютерного зрения оказались лучше. Более того, такая сеть требует меньше ресурсов.
Так что "Attention is all you need" – суждение не совсем верное, по крайне мере, для задач из области зрения. Для NLP нужно ещё проверить.
>> Статья >> Код
Новая статья-упрощение трансформеров. Авторы взяли и заменили атеншн на AvgPool со страйдом 1. И результаты на многих бенчмарках из компьютерного зрения оказались лучше. Более того, такая сеть требует меньше ресурсов.
Так что "Attention is all you need" – суждение не совсем верное, по крайне мере, для задач из области зрения. Для NLP нужно ещё проверить.
>> Статья >> Код
Forwarded from DL in NLP (nlpcontroller_bot)
The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
Начался второй сезон AI подкаста от Питера Абеля!
В первом эпизоде второго сезона Абель пригласил светило из мира обучения с подкреплением – профессора Сергея Левина из Беркли.
У Лёхи Фридмана тоже есть выпуск с Левиным, о котором я упоминал в своем англоязычном канале ранее. Советую послушать.
В первом эпизоде второго сезона Абель пригласил светило из мира обучения с подкреплением – профессора Сергея Левина из Беркли.
У Лёхи Фридмана тоже есть выпуск с Левиным, о котором я упоминал в своем англоязычном канале ранее. Советую послушать.
YouTube
Season 2 Ep. 1 Sergey Levine explains the challenges of real world robotics
In Episode One of Season Two, Host Pieter Abbeel is joined by guest (and close collaborator) Sergey Levine, professor at UC Berkeley, EECS. Sergey discusses the early years of his career, how Andrew Ng influenced him to become interested in machine learning…
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn)
This media is not supported in your browser
VIEW IN TELEGRAM
Нвидия Канвас (в девичестве Гоген) обновился до версии 1.1.
И там уже появились первые признаки (очень первичные) pipeline ready инструмента.
В 4 раза большее разрешение, новая ИИ модель с улучшенным качеством и минимизацией артефактов.
И там появился экспорт в Фотошоп!
Где все ваши безумные мазки раскиданы по слоям.
В общем ИИ настойчиво рекомендует "spend more time visualizing ideas" или "ИИ все дорисует за вас".
Пробуем тут: https://www.nvidia.com/en-us/studio/canvas/
И там уже появились первые признаки (очень первичные) pipeline ready инструмента.
В 4 раза большее разрешение, новая ИИ модель с улучшенным качеством и минимизацией артефактов.
И там появился экспорт в Фотошоп!
Где все ваши безумные мазки раскиданы по слоям.
В общем ИИ настойчиво рекомендует "spend more time visualizing ideas" или "ИИ все дорисует за вас".
Пробуем тут: https://www.nvidia.com/en-us/studio/canvas/
Trnio – аппка для 3D сканирования
Приложение выдаёт довольно чистые 3D сканы сцен и объектов, в отличие от других приложений, которые я видел. Используют ARKit и данные с яблочного лидара. Вычисления делают в облаке, а не на телефоне. Так что, возможно, если хорошенько навалиться, то приложение может и не выдержать;)
Из минусов, апп немного лажает на объектах с отражением. Что в принципе понятно, потому что лидар не может верно определить глубину на зеркальных поверхностях.
Сайт проекта
Приложение выдаёт довольно чистые 3D сканы сцен и объектов, в отличие от других приложений, которые я видел. Используют ARKit и данные с яблочного лидара. Вычисления делают в облаке, а не на телефоне. Так что, возможно, если хорошенько навалиться, то приложение может и не выдержать;)
Из минусов, апп немного лажает на объектах с отражением. Что в принципе понятно, потому что лидар не может верно определить глубину на зеркальных поверхностях.
Сайт проекта
ConvNeXt: Конволюционная сеть нового поколения наносит удар по Трансформерам
Очень хорошая работа от FAIR и BAIR (Беркли), показывающая, что при правильном сочетании методов ConvNets лучше, чем Трансформеры для зрения.
Нужно только сделать сверточную сетку по-жирнее.
Вот несколько основных трюков: более крупные кернелы, layer norm, жирный слой внутри Res-блоков, ....
Итого, получаем 87,1% топ-1 точности на ImageNet-1k, что бьет все трансформеры.
Конечно, это не значит, что про трансформеры можно забыть. Они очень даже полезны в других задачах. Например, для end-to-end детекции учень удачна архитектуры DETR, где первые слои содержат конволюции, а затем следуют self-attention блоки, которые смотрят на все фото целиком, и могут детектировать множество объектов, не зависимо от их порядка, за один прогон.
>> Код и веса есть на гитхабе >> Статья
Очень хорошая работа от FAIR и BAIR (Беркли), показывающая, что при правильном сочетании методов ConvNets лучше, чем Трансформеры для зрения.
Нужно только сделать сверточную сетку по-жирнее.
Вот несколько основных трюков: более крупные кернелы, layer norm, жирный слой внутри Res-блоков, ....
Итого, получаем 87,1% топ-1 точности на ImageNet-1k, что бьет все трансформеры.
Конечно, это не значит, что про трансформеры можно забыть. Они очень даже полезны в других задачах. Например, для end-to-end детекции учень удачна архитектуры DETR, где первые слои содержат конволюции, а затем следуют self-attention блоки, которые смотрят на все фото целиком, и могут детектировать множество объектов, не зависимо от их порядка, за один прогон.
>> Код и веса есть на гитхабе >> Статья
Google ускоряет методы секвенирования генома для лучшего понимания и лечения болезней
Секвенирование генома может помочь нам лучше понять, диагностировать и лечить болезни. Например, поставщики медицинских услуг все чаще используют секвенирование генома для диагностики редких генетических заболеваний, таких как повышенный риск рака молочной железы или легочной артериальной гипертензии, которые, по оценкам, затрагивают примерно 8% населения.
В Google Health разрабатывают ML методы для ускорения выявления генетических заболеваний. Недавно Google заключил новое партнерство с компанией Pacific Biosciences для дальнейшего продвижения геномных технологий в исследованиях и клинической работе.
Почему это важно?
Генетические заболевания могут вызывать критические состояния, и во многих случаях своевременное выявление проблемы может позволить принять меры по спасению жизни. Особенно это касается новорожденных. Генетические или врожденные болезни влияют почти на 6% рождений, но клинические тесты секвенирования для выявления этих болезней обычно занимают дни или недели. Поэтому так важно придумать методы для быстрого секвенирования генома.
Подробнее о работе гугла в области геномики читайте по ссылке.
Секвенирование генома может помочь нам лучше понять, диагностировать и лечить болезни. Например, поставщики медицинских услуг все чаще используют секвенирование генома для диагностики редких генетических заболеваний, таких как повышенный риск рака молочной железы или легочной артериальной гипертензии, которые, по оценкам, затрагивают примерно 8% населения.
В Google Health разрабатывают ML методы для ускорения выявления генетических заболеваний. Недавно Google заключил новое партнерство с компанией Pacific Biosciences для дальнейшего продвижения геномных технологий в исследованиях и клинической работе.
Почему это важно?
Генетические заболевания могут вызывать критические состояния, и во многих случаях своевременное выявление проблемы может позволить принять меры по спасению жизни. Особенно это касается новорожденных. Генетические или врожденные болезни влияют почти на 6% рождений, но клинические тесты секвенирования для выявления этих болезней обычно занимают дни или недели. Поэтому так важно придумать методы для быстрого секвенирования генома.
Подробнее о работе гугла в области геномики читайте по ссылке.
Google
Advancing genomics to better understand and treat disease
Genome sequencing can help us better understand, diagnose and treat disease. For example, healthcare providers are increasingly using genome sequencing to diagnose rare genetic diseases, such as elevated risk for breast cancer or pulmonary arterial hypertension…
Normalizing Flows - что это?
Если грубо, то Normalizing Flow - это такая модель, которая с помощью серии обратимых трансформаций переводит одно распределение в другое. При этом такой маппинг полностью обратим и работает в обе стороны. Таким образом можно получить маппинг из нормального распределения в любое другое сложное распространение.
Если вы когда-нибудь хотели разобраться получше в том, что такое Normalizing Flows, то вот вам хорошая подборка ресурсов про них.
Если грубо, то Normalizing Flow - это такая модель, которая с помощью серии обратимых трансформаций переводит одно распределение в другое. При этом такой маппинг полностью обратим и работает в обе стороны. Таким образом можно получить маппинг из нормального распределения в любое другое сложное распространение.
Если вы когда-нибудь хотели разобраться получше в том, что такое Normalizing Flows, то вот вам хорошая подборка ресурсов про них.
A Goose of Eternal Dread (Гусь бесконечного страха)
Ух! Эффектно выглядит!
Алгоритм: Clip Guided Diffusion
Автор: @danielrussruss
Ух! Эффектно выглядит!
Алгоритм: Clip Guided Diffusion
Автор: @danielrussruss
This media is not supported in your browser
VIEW IN TELEGRAM
18 месяцев назад: "Обучение NeRF занимает 5 часов..."
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»
Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.
Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.
Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.
Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»
Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.
Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.
Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.
Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code
Forwarded from AbstractDL
Grokking: оверфиттинг это ещё не конец (by OpenAI)
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья, видео
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья, видео