DeepMind опубликовал статью, где они представляют новую архитектуру - Perceiver.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.
Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:
➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).
➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.
➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.
Сама статья довольно хорошо написана, можете в ней почитать подробности.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.
Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:
➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).
➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.
➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.
Сама статья довольно хорошо написана, можете в ней почитать подробности.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Люди могут относительно легко ходить по различным поверхностям. Например, по камням, по грязи, по толстым коврам, и т.д.. Мы можем делать это с уставшими мышцами, а также неся любые предметы. Для этого мы постоянно почти мгновенно приспосабливаемся к изменяющимся условиям в нашем теле и под ногами.
Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.
Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.
Продолжение ниже ↓
Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.
Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.
Продолжение ниже ↓
Rapid Motor Adaptation (RMA) - это end-to-end система, основанная на Reinforcement Learning, которая тренируется в симуляции и выдает напрямую положение суставов, не полагаясь на заранее заданные шаблоны движения ног или другие примитивы управления [как это, например, сейчас работает у Boston Dynamics, насколько мне известно].
С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!
Подробнее можно почитать тут.
С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!
Подробнее можно почитать тут.
Facebook
AI now enables robots to adapt rapidly to changing real world conditions
Researchers from Facebook AI, @berkeley_ai and @SCSatCMU have developed AI that can enable a legged robot or other machines to adapt in fractions of a second to changing conditions in the real world.
Forwarded from Жалкие низкочастотники
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжается бум и увеличение качества нейросетевых картинок и роликов, сгенерированных по текстовому описанию с помощью связки сетей типа VQGAN+CLIP. Ролик выше я нашёл сегодня в твиттере, а по делу рекомендую почитать свежий пост в ML блоге университета Беркли (да и весь блог хороший, чего уж там) — в посте этом формулируется красивая мысль, что мы тут наблюдаем формирование новой демосцены.
Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Блог Lilian Weng (ресерчер из OpenAI) - один из моих любимых технических блогов. У нее очень емкие статьи-обзоры по различными темам в области AI.
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
#ликбез
@ai_newz
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
#ликбез
@ai_newz
❤1
Кроме того, у Lilian Weng есть целая серия крутых постов о генеративных моделях:
- Про Generative Adversarial Netowrks (GANs)
- Про Aunoencoders & Variational Autoencoders (VAE)
- Про модели основанные на Normalizing Flows
В закладки!
#ликбез
@ai_newz
- Про Generative Adversarial Netowrks (GANs)
- Про Aunoencoders & Variational Autoencoders (VAE)
- Про модели основанные на Normalizing Flows
В закладки!
#ликбез
@ai_newz
Media is too big
VIEW IN TELEGRAM
А вот и совсем свежая статья от Googe Brain, которая использует диффузионные модели для супер-резолюшена.
Результаты — просто шок! Их модель бьет SOTA метод основанный на GAN-ах. На видео видим пример того, как картинка 64x64 апскейлится в 1024x1024.
https://iterative-refinement.github.io/
Результаты — просто шок! Их модель бьет SOTA метод основанный на GAN-ах. На видео видим пример того, как картинка 64x64 апскейлится в 1024x1024.
https://iterative-refinement.github.io/
Белки необходимы для жизни, и понимание их структуры может облегчить понимание их функций и принципов работы в организме. Осенью прошлого года компания DeepMind совершила очередной прорыв. Они представили AlphFold - нейронку для прогнозирования трехмерной структуры белка по последовательности аминокислот.
Задачу прогнозирования трехмерной структуры белка безуспешно пытались решить на протяжении более 50 лет, и AlphFold позволила ученым быстро получать результаты довольно близкие к уровню точности, который достижим в реальных физических экспериментах. AlphFold — это первый вычислительный метод, который может предсказывать структуры белка с атомарной точностью, даже если эта структура (либо подобная) не была известна ранее.
Сегодня DeepMind опубликовал слегка улучшенную версию AlphaFold в элитном журнале Nature и весь исходный код модели на GitHub (!). Приятный бонус — это 62-страничный доп. материал к статье, который подробно описывает все детали пайплайна с примерами в виде псевдо-кода. Теперь можно зарыться на выходные и реально изучить всю подноготную!
Исходный код | Статья в Nature - Highly accurate protein structure prediction with AlphaFold
Задачу прогнозирования трехмерной структуры белка безуспешно пытались решить на протяжении более 50 лет, и AlphFold позволила ученым быстро получать результаты довольно близкие к уровню точности, который достижим в реальных физических экспериментах. AlphFold — это первый вычислительный метод, который может предсказывать структуры белка с атомарной точностью, даже если эта структура (либо подобная) не была известна ранее.
Сегодня DeepMind опубликовал слегка улучшенную версию AlphaFold в элитном журнале Nature и весь исходный код модели на GitHub (!). Приятный бонус — это 62-страничный доп. материал к статье, который подробно описывает все детали пайплайна с примерами в виде псевдо-кода. Теперь можно зарыться на выходные и реально изучить всю подноготную!
Исходный код | Статья в Nature - Highly accurate protein structure prediction with AlphaFold
Forwarded from Denis Sexy IT 🤖
Сделал реалистичную версию Барби, штож, такой себе ее и представлял.
Сделал по ссылке: neural.love/portraits (и немного фотошопа)
Мы кстати ускорили раз в 100 этот сервис, но ввели подписку за 249р в месяц и лимит на 3 бесплатные генерации портрета, так как сервер с GPU стоит дороговато и нужно окупать 🥲
Сейчас работаем над тем чтобы повысить точность реализма генерации портрета, чтобы как тут было примерно, напишу как будет чем похвастать ✨
Сделал по ссылке: neural.love/portraits (и немного фотошопа)
Мы кстати ускорили раз в 100 этот сервис, но ввели подписку за 249р в месяц и лимит на 3 бесплатные генерации портрета, так как сервер с GPU стоит дороговато и нужно окупать 🥲
Сейчас работаем над тем чтобы повысить точность реализма генерации портрета, чтобы как тут было примерно, напишу как будет чем похвастать ✨
OpenAI распускает свою команду, которая занималась исследованиями связанными с робототехникой. Это как раз та команда, которая, например, обучила роботическую руку собирать кубик Рубика с помощью реинфорсмент лернинга. Такое решение было принято, потому что компания считает более перспективными исследования в областях, где не нужно физическое оборудование (кроме серверов, конечно), и уже есть много доступных данных. А так же из экономических соображений, так как производство софта и сервисов — это бизнес с гораздо более высокой маржой. Да, хохма в том, что некоммерческая организация OpenAI все больше и больше задумывается о прибыли. Это можно понять, ведь для создания общего искусственного интеллекта (AGI), способного изучить все задачи, которые умеет делать человек и даже больше, нужно много денег.
Ни для кого не секрет, что также и исследования в области робототехники — очень затратная деятельность, требующая больших инвестиций. Поэтому компаний, занимающихся этим, не так много. Из крупных и успешных на ум приходит только Boston Dynamics, которая здорово походила по рукам. Знали ли вы, что в 2013 Google купил Boston Dynamics, затем Google тоже свернул свою программу с роботами и в 2017 продал Boston Dynamic японской фирме SoftBank. На этом приключения Boston Dynamics не закончились, и в декабре 2020 SoftBank перепродал 80% акций (контрольный пакет) автопроизводителю Hyundai. Выглядит эта пляска как-то неладно, как будто каждая компания через несколько лет понимает, что на роботах из Boston Dynamics пока трудно заработать и перепродаёт её другому лопуху.
В любом случае, очень интересно наблюдать за тем, какие фокусные направления выбирают титаны исследований в области AI. Но мне немного жаль, что роботы пока плетутся в арьергарде этих исследований.
Ни для кого не секрет, что также и исследования в области робототехники — очень затратная деятельность, требующая больших инвестиций. Поэтому компаний, занимающихся этим, не так много. Из крупных и успешных на ум приходит только Boston Dynamics, которая здорово походила по рукам. Знали ли вы, что в 2013 Google купил Boston Dynamics, затем Google тоже свернул свою программу с роботами и в 2017 продал Boston Dynamic японской фирме SoftBank. На этом приключения Boston Dynamics не закончились, и в декабре 2020 SoftBank перепродал 80% акций (контрольный пакет) автопроизводителю Hyundai. Выглядит эта пляска как-то неладно, как будто каждая компания через несколько лет понимает, что на роботах из Boston Dynamics пока трудно заработать и перепродаёт её другому лопуху.
В любом случае, очень интересно наблюдать за тем, какие фокусные направления выбирают титаны исследований в области AI. Но мне немного жаль, что роботы пока плетутся в арьергарде этих исследований.
VentureBeat
OpenAI disbands its robotics research team
OpenAI has disbanded its robotics team in what might be a reflection of economic and commercial realities.
👍2
Новости из мира нейроинтерфейсов (Brain-computer interfaces). Facebook Reality Labs совместно с Университетом Сан-Франциско впервые продемонстрировали, что лишенный речи (парализованный) человек может почти мгновенно передать свои слова, только лишь подумав о том, как он их говорит.
Обошлось не без ограничений. Прибор на голове регистрирует нейронную активность мозга и декодирует ее в слова. Сам прибор — это электрод, имплантированный в череп (да, типа того, что Илон Маск продвигает). Набор распознаваемых слов ограничен — их всего 50, но их них можно составить более тысячи предложений. Точность декодирования 74%, а скорость 15 слов в минуту, что довольно неплохо.
Это первый в своем роде эксперимент, когда активность нейронов коры головного мозга парализованного человека была декодирована в полные слова. До этого похожие эксперименты работали только на человеке, который действительно вслух произносил слова (то есть он не был парализован).
Обошлось не без ограничений. Прибор на голове регистрирует нейронную активность мозга и декодирует ее в слова. Сам прибор — это электрод, имплантированный в череп (да, типа того, что Илон Маск продвигает). Набор распознаваемых слов ограничен — их всего 50, но их них можно составить более тысячи предложений. Точность декодирования 74%, а скорость 15 слов в минуту, что довольно неплохо.
Это первый в своем роде эксперимент, когда активность нейронов коры головного мозга парализованного человека была декодирована в полные слова. До этого похожие эксперименты работали только на человеке, который действительно вслух произносил слова (то есть он не был парализован).
Tech at Meta
BCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces for restoring…
BCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces for restoring speech communicationBCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces…
Ученые из Toyota Research Institute научили роботов делать базовые домашние дела.
В чем сок?
Модель которая позволяет роботу видеть и понимать пространство обучена сугубо на синтетических данных. А сам робот не имеет никаких depth-камер или лидаров. В голове робота только пара обычных камер.
Почему это интересно?
У каждого в квартире есть множество прозрачных, или зеркальных предметов. Традиционные RGB-D камеры очень плохо работают с такими объектами из-за того, что ИК-излучение, спощьзуемое в depth-камерах, проходит сквозь такие предметы либо отражается от них. Поэтому было важно найти способ работать с любыми предметами, независимо от их текстуры. Геометрия объекта тут первостепенна.
Детали
Робота протестировали на четырех домашних интерьерах. С новым бинокулярным "зрением" он может успешно хватать сложные объекты в 95% случаев, тогда как модель с RGB-D сенсором успешна только в 35% случаев. Сама модель (см картинку ниже) берет на вход кадры с левой и правой камеры и пропускает через Feature Pyramid Network (FPN), на выходе выдавая: 1) сегментационные маски, 2) ориентированные 3D bounding box-ы объектов, 3) ключевые точки объектов, и 4) disparity map, которая дает представление о глубине сцены. Затем, используя такое разложение сцены, другой модуль решает, как удобнее всего схватить объект.
Есть код для обучения модели.
Подробнее в блог-посте от авторов.
В чем сок?
Модель которая позволяет роботу видеть и понимать пространство обучена сугубо на синтетических данных. А сам робот не имеет никаких depth-камер или лидаров. В голове робота только пара обычных камер.
Почему это интересно?
У каждого в квартире есть множество прозрачных, или зеркальных предметов. Традиционные RGB-D камеры очень плохо работают с такими объектами из-за того, что ИК-излучение, спощьзуемое в depth-камерах, проходит сквозь такие предметы либо отражается от них. Поэтому было важно найти способ работать с любыми предметами, независимо от их текстуры. Геометрия объекта тут первостепенна.
Детали
Робота протестировали на четырех домашних интерьерах. С новым бинокулярным "зрением" он может успешно хватать сложные объекты в 95% случаев, тогда как модель с RGB-D сенсором успешна только в 35% случаев. Сама модель (см картинку ниже) берет на вход кадры с левой и правой камеры и пропускает через Feature Pyramid Network (FPN), на выходе выдавая: 1) сегментационные маски, 2) ориентированные 3D bounding box-ы объектов, 3) ключевые точки объектов, и 4) disparity map, которая дает представление о глубине сцены. Затем, используя такое разложение сцены, другой модуль решает, как удобнее всего схватить объект.
Есть код для обучения модели.
Подробнее в блог-посте от авторов.
YouTube
Robo-Selfie - Adeptness at Complex Tasks in Home Environments
Today, Toyota Research Institute (TRI) unveiled new robotics capabilities aimed at solving complex tasks in home environments. Specifically, TRI roboticists were able to train robots to understand and operate in complicated situations that confuse most other…
👍2
Ну, наконец-то! Такого робота-уборщика нужно пустить в России на пляжах Сочи и Туапсе. Офигенная идея с тем, что обычные люди фоткают мусор (убирать-то лень, а фоткать нет) и тем самым пополняют тренировочную выборку робота.
Telegram
Denis Sexy IT 🤖
В Гааге робот BeachBot собирает окурки с пляжа с помощью ИИ — до 30 штук за 10 минут.
Узнавать, как выглядит мусор, и отличать его от других предметов ему помогают пользователи, которые присылают фото через приложение Microsoft Trove за вознаграждение
…
Узнавать, как выглядит мусор, и отличать его от других предметов ему помогают пользователи, которые присылают фото через приложение Microsoft Trove за вознаграждение
…
Google Research забабахал сетку, которая буквально парсит музыку. На вход подается запись виртуозной игры на фортепиано, и сетка выдает MIDI-последовательность, которая кодирует все ноты в данной композиции.
Цимес в том, что представленная сеть имеет очень простую архитектуру, в отличии предыдущих архитектур для этой задачи. В будущем возможно дальнейшее развитие представленной модели для других видов музыки и инструментов. И было бы здорово научить сетку декодировать абсолютно любую музыку. Больше не придется жадно подбирать аккорды под любимые хиты Моргенштерна или Филиппа Киркорова!
Код обещают скоро выложить.
Подробности в статье.
Цимес в том, что представленная сеть имеет очень простую архитектуру, в отличии предыдущих архитектур для этой задачи. В будущем возможно дальнейшее развитие представленной модели для других видов музыки и инструментов. И было бы здорово научить сетку декодировать абсолютно любую музыку. Больше не придется жадно подбирать аккорды под любимые хиты Моргенштерна или Филиппа Киркорова!
Код обещают скоро выложить.
Подробности в статье.
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Как и обещал, делюсь колабом:
Вводите свой текст, и нажимаете Play слева подряд у пунктов.
В этот раз попробовал сделать "Полет сквозь Юпитер", это короткое видео генерировалось почти 1 час 30 минут.
Have fun:
https://colab.research.google.com/drive/13AuPTY-CSoZdCxWPZeNtV3iRHXs_9ZcB
P.S. Если вы программист, было бы клево получить больше разных эффектов при convert в zoom.sh, а не только повороты или зум
Вводите свой текст, и нажимаете Play слева подряд у пунктов.
В этот раз попробовал сделать "Полет сквозь Юпитер", это короткое видео генерировалось почти 1 час 30 минут.
Have fun:
https://colab.research.google.com/drive/13AuPTY-CSoZdCxWPZeNtV3iRHXs_9ZcB
P.S. Если вы программист, было бы клево получить больше разных эффектов при convert в zoom.sh, а не только повороты или зум
👍1
Яндекс устраивает свое соревнование по предсказанию будущих траекторий движения агентов на дороге.
Помните, я писал про соревнование от Google Waymo по предсказанию будущего движения машин, где наша команда заняла 3-е место? За полгода до этого было еще соревнование от Lyft, где мы тоже заняли 3-е место. Теперь все больше и больше исследователей интересуются этой задачей, все потому, что точное ее решение ускорит попадание машин без водителей на улицы наших городов. Конечно, и Яндекс не остался в стороне.
Разница в том, что у Яндекса на соревновании используются данные их беспилотников в разных локациях (Москва, Сколково, Модиин-Илит, Иннополис, Анн-Арбор, Тель-Авив), в отличие от Waymo и Lyft, у которых все данные были сняты в одном городе. Задача следующая: по 5 секундам истории движения агентов (людей, авто) предсказать их траекторию на 5 секунд в будущее. Так как будущее недетерминировано, то просят предсказать до пяти наиболее вероятных траекторий. Тренировка идет на данных из Москвы, а тест на данных из других городов, что сильно усложняет задачу и повышает интерес! Просто заучить данные нейронкой уже не выйдет как на соревновании от Lyft.
На воркшопе в в рамках NeurIPS 2021 победители будут рассказывать о своих решениях. Призы по трем трекам (предсказание погоды, поведения участников дорожного движения, машинный перевод текстов) поскромнее, чем бывают на Kaggle, но все же приятно: 5k$ / 3k$ / 1k$ за 1/2/3 места соответственно. Подробности про соревнование тут.
Помните, я писал про соревнование от Google Waymo по предсказанию будущего движения машин, где наша команда заняла 3-е место? За полгода до этого было еще соревнование от Lyft, где мы тоже заняли 3-е место. Теперь все больше и больше исследователей интересуются этой задачей, все потому, что точное ее решение ускорит попадание машин без водителей на улицы наших городов. Конечно, и Яндекс не остался в стороне.
Разница в том, что у Яндекса на соревновании используются данные их беспилотников в разных локациях (Москва, Сколково, Модиин-Илит, Иннополис, Анн-Арбор, Тель-Авив), в отличие от Waymo и Lyft, у которых все данные были сняты в одном городе. Задача следующая: по 5 секундам истории движения агентов (людей, авто) предсказать их траекторию на 5 секунд в будущее. Так как будущее недетерминировано, то просят предсказать до пяти наиболее вероятных траекторий. Тренировка идет на данных из Москвы, а тест на данных из других городов, что сильно усложняет задачу и повышает интерес! Просто заучить данные нейронкой уже не выйдет как на соревновании от Lyft.
На воркшопе в в рамках NeurIPS 2021 победители будут рассказывать о своих решениях. Призы по трем трекам (предсказание погоды, поведения участников дорожного движения, машинный перевод текстов) поскромнее, чем бывают на Kaggle, но все же приятно: 5k$ / 3k$ / 1k$ за 1/2/3 места соответственно. Подробности про соревнование тут.
👍1
На гитхабе появилась клевая прога DeepFaceLive, которая заменяет ваше лицо на чужое в риалтайме. Например, во время игровых стримов или видеозвонков. Судя по описанию, пользоваться ей довольно просто. По сложности аналогично тому как в Zoom можно поменять бэкграунд во время видеозвонка (ну, может, капельку сложнее).
От того же самого автора есть очень популярная софтина DeepFaceLab (27k звезд на GitHub), с помощью которой, я думаю, сделана половина дипфейков ютуба. Также про DeepFaceLab есть тех-репорт, его можно почитать на архиве.
От того же самого автора есть очень популярная софтина DeepFaceLab (27k звезд на GitHub), с помощью которой, я думаю, сделана половина дипфейков ютуба. Также про DeepFaceLab есть тех-репорт, его можно почитать на архиве.
This media is not supported in your browser
VIEW IN TELEGRAM
Ребята из NVIDIA (в частности Tero Karras) в очередной раз зарешали генерацию изображений. На этот раз ученые смогли убрать алиасинг в генераторе. Если на пальцах, то причина артефактов крылась в том, что из-за неверной дискретизации в CNN сигнал не мог быть точно восстановлен, что приводило к неестественным "рывкам", заметным на видео. Авторы модифицировали генератор таким образом, чтобы предотвратить эти негативные эффекты дискретизации.
Подробнее про Alias-Free GAN тут.
Подробнее про Alias-Free GAN тут.