Google Research забабахал сетку, которая буквально парсит музыку. На вход подается запись виртуозной игры на фортепиано, и сетка выдает MIDI-последовательность, которая кодирует все ноты в данной композиции.
Цимес в том, что представленная сеть имеет очень простую архитектуру, в отличии предыдущих архитектур для этой задачи. В будущем возможно дальнейшее развитие представленной модели для других видов музыки и инструментов. И было бы здорово научить сетку декодировать абсолютно любую музыку. Больше не придется жадно подбирать аккорды под любимые хиты Моргенштерна или Филиппа Киркорова!
Код обещают скоро выложить.
Подробности в статье.
Цимес в том, что представленная сеть имеет очень простую архитектуру, в отличии предыдущих архитектур для этой задачи. В будущем возможно дальнейшее развитие представленной модели для других видов музыки и инструментов. И было бы здорово научить сетку декодировать абсолютно любую музыку. Больше не придется жадно подбирать аккорды под любимые хиты Моргенштерна или Филиппа Киркорова!
Код обещают скоро выложить.
Подробности в статье.
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Как и обещал, делюсь колабом:
Вводите свой текст, и нажимаете Play слева подряд у пунктов.
В этот раз попробовал сделать "Полет сквозь Юпитер", это короткое видео генерировалось почти 1 час 30 минут.
Have fun:
https://colab.research.google.com/drive/13AuPTY-CSoZdCxWPZeNtV3iRHXs_9ZcB
P.S. Если вы программист, было бы клево получить больше разных эффектов при convert в zoom.sh, а не только повороты или зум
Вводите свой текст, и нажимаете Play слева подряд у пунктов.
В этот раз попробовал сделать "Полет сквозь Юпитер", это короткое видео генерировалось почти 1 час 30 минут.
Have fun:
https://colab.research.google.com/drive/13AuPTY-CSoZdCxWPZeNtV3iRHXs_9ZcB
P.S. Если вы программист, было бы клево получить больше разных эффектов при convert в zoom.sh, а не только повороты или зум
Яндекс устраивает свое соревнование по предсказанию будущих траекторий движения агентов на дороге.
Помните, я писал про соревнование от Google Waymo по предсказанию будущего движения машин, где наша команда заняла 3-е место? За полгода до этого было еще соревнование от Lyft, где мы тоже заняли 3-е место. Теперь все больше и больше исследователей интересуются этой задачей, все потому, что точное ее решение ускорит попадание машин без водителей на улицы наших городов. Конечно, и Яндекс не остался в стороне.
Разница в том, что у Яндекса на соревновании используются данные их беспилотников в разных локациях (Москва, Сколково, Модиин-Илит, Иннополис, Анн-Арбор, Тель-Авив), в отличие от Waymo и Lyft, у которых все данные были сняты в одном городе. Задача следующая: по 5 секундам истории движения агентов (людей, авто) предсказать их траекторию на 5 секунд в будущее. Так как будущее недетерминировано, то просят предсказать до пяти наиболее вероятных траекторий. Тренировка идет на данных из Москвы, а тест на данных из других городов, что сильно усложняет задачу и повышает интерес! Просто заучить данные нейронкой уже не выйдет как на соревновании от Lyft.
На воркшопе в в рамках NeurIPS 2021 победители будут рассказывать о своих решениях. Призы по трем трекам (предсказание погоды, поведения участников дорожного движения, машинный перевод текстов) поскромнее, чем бывают на Kaggle, но все же приятно: 5k$ / 3k$ / 1k$ за 1/2/3 места соответственно. Подробности про соревнование тут.
Помните, я писал про соревнование от Google Waymo по предсказанию будущего движения машин, где наша команда заняла 3-е место? За полгода до этого было еще соревнование от Lyft, где мы тоже заняли 3-е место. Теперь все больше и больше исследователей интересуются этой задачей, все потому, что точное ее решение ускорит попадание машин без водителей на улицы наших городов. Конечно, и Яндекс не остался в стороне.
Разница в том, что у Яндекса на соревновании используются данные их беспилотников в разных локациях (Москва, Сколково, Модиин-Илит, Иннополис, Анн-Арбор, Тель-Авив), в отличие от Waymo и Lyft, у которых все данные были сняты в одном городе. Задача следующая: по 5 секундам истории движения агентов (людей, авто) предсказать их траекторию на 5 секунд в будущее. Так как будущее недетерминировано, то просят предсказать до пяти наиболее вероятных траекторий. Тренировка идет на данных из Москвы, а тест на данных из других городов, что сильно усложняет задачу и повышает интерес! Просто заучить данные нейронкой уже не выйдет как на соревновании от Lyft.
На воркшопе в в рамках NeurIPS 2021 победители будут рассказывать о своих решениях. Призы по трем трекам (предсказание погоды, поведения участников дорожного движения, машинный перевод текстов) поскромнее, чем бывают на Kaggle, но все же приятно: 5k$ / 3k$ / 1k$ за 1/2/3 места соответственно. Подробности про соревнование тут.
На гитхабе появилась клевая прога DeepFaceLive, которая заменяет ваше лицо на чужое в риалтайме. Например, во время игровых стримов или видеозвонков. Судя по описанию, пользоваться ей довольно просто. По сложности аналогично тому как в Zoom можно поменять бэкграунд во время видеозвонка (ну, может, капельку сложнее).
От того же самого автора есть очень популярная софтина DeepFaceLab (27k звезд на GitHub), с помощью которой, я думаю, сделана половина дипфейков ютуба. Также про DeepFaceLab есть тех-репорт, его можно почитать на архиве.
От того же самого автора есть очень популярная софтина DeepFaceLab (27k звезд на GitHub), с помощью которой, я думаю, сделана половина дипфейков ютуба. Также про DeepFaceLab есть тех-репорт, его можно почитать на архиве.
This media is not supported in your browser
VIEW IN TELEGRAM
Ребята из NVIDIA (в частности Tero Karras) в очередной раз зарешали генерацию изображений. На этот раз ученые смогли убрать алиасинг в генераторе. Если на пальцах, то причина артефактов крылась в том, что из-за неверной дискретизации в CNN сигнал не мог быть точно восстановлен, что приводило к неестественным "рывкам", заметным на видео. Авторы модифицировали генератор таким образом, чтобы предотвратить эти негативные эффекты дискретизации.
Подробнее про Alias-Free GAN тут.
Подробнее про Alias-Free GAN тут.
Media is too big
VIEW IN TELEGRAM
А вот еще один пример безбожно гладкой генерации с помощью Alias-Free GAN, но уже для портретов.
Кода и моделей пока нет, но, я уверен, они скоро появятся на GitHub. Обещают в сентябре.
Кода и моделей пока нет, но, я уверен, они скоро появятся на GitHub. Обещают в сентябре.
Попробуем новую рубрику постов. #ликбез (#fundamentals) по не очень новым, но важным алгоритмам.
Сегодня поговорим про body keypoint detection. Задача состоит в том, чтобы по фотографии найти координаты ключевых точек тела человека (зачастую это голова, глаза, нос, центр груди, и все крупные суставы, такие как колени, локти, и т.д.).
Есть две основные группы подходов:
- Top-down. Это когда сначала каждый отдельный человек на фотографии детектируется специально обученной нейронной стекой, затем кропается, ресайзится и подается в финальную сеть, которая детектирует ключевые точки тела. Как можно заметить, это двухэтапный сценарий, он требует нескольких нейронных сетей и не очень хорошо работает на сценах, где толпятся много людей. Все потому что люди пересекаются, перекрывают друг друга, и не получается аккуратно выделить каждого человека отдельно, не обрезав часть другого. Пример одной из SOTA (ну или почти) моделей такого типа — HRNet.
- Bottom-up. В этом случае на вход сети подается фотография целиком со множеством людей, и не используется детектор для обнаружения отдельных персон. Далее сеть детектирует все возможные ключевые точки всех людей на фотографии, не зависимо от того какой персоне точка принадлежит. По сути получаем множество точек, но не различаем между людьми. Затем найденные ключевые точки кластеризуются, используя либо расстояния между ними либо более изощренные фичи. В результате мы получаем отдельные группы ключевых точек, где каждая из групп отвечает отдельному человеку. Поэтому такой метод и называется bottom-up — мы начинаем работать с более мелкими структурами, такими как ключевые точки, а замет группируем их, чтобы получить отдельные экземпляры людей. В top-down подходах все наоборот: сначала находятся отдельные люди, а затем ключевые точки каждого из них.
Bottom-up работает лучше на сценах с большим скопление людей, но часто страдает в случаях, когда на фото видны люди в разных масштабах (несколько крупных фигур на переднем плане, и много маленьких на фоне), так как в этом случае от нейронной сети требуется так трудно достижимая инвариантность по масштабу. Примеры SOTA bottom-up моделей, которые стараются бороться с проблемой масштаба, — это HigherHRNet и DEKR (Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression).
Сегодня поговорим про body keypoint detection. Задача состоит в том, чтобы по фотографии найти координаты ключевых точек тела человека (зачастую это голова, глаза, нос, центр груди, и все крупные суставы, такие как колени, локти, и т.д.).
Есть две основные группы подходов:
- Top-down. Это когда сначала каждый отдельный человек на фотографии детектируется специально обученной нейронной стекой, затем кропается, ресайзится и подается в финальную сеть, которая детектирует ключевые точки тела. Как можно заметить, это двухэтапный сценарий, он требует нескольких нейронных сетей и не очень хорошо работает на сценах, где толпятся много людей. Все потому что люди пересекаются, перекрывают друг друга, и не получается аккуратно выделить каждого человека отдельно, не обрезав часть другого. Пример одной из SOTA (ну или почти) моделей такого типа — HRNet.
- Bottom-up. В этом случае на вход сети подается фотография целиком со множеством людей, и не используется детектор для обнаружения отдельных персон. Далее сеть детектирует все возможные ключевые точки всех людей на фотографии, не зависимо от того какой персоне точка принадлежит. По сути получаем множество точек, но не различаем между людьми. Затем найденные ключевые точки кластеризуются, используя либо расстояния между ними либо более изощренные фичи. В результате мы получаем отдельные группы ключевых точек, где каждая из групп отвечает отдельному человеку. Поэтому такой метод и называется bottom-up — мы начинаем работать с более мелкими структурами, такими как ключевые точки, а замет группируем их, чтобы получить отдельные экземпляры людей. В top-down подходах все наоборот: сначала находятся отдельные люди, а затем ключевые точки каждого из них.
Bottom-up работает лучше на сценах с большим скопление людей, но часто страдает в случаях, когда на фото видны люди в разных масштабах (несколько крупных фигур на переднем плане, и много маленьких на фоне), так как в этом случае от нейронной сети требуется так трудно достижимая инвариантность по масштабу. Примеры SOTA bottom-up моделей, которые стараются бороться с проблемой масштаба, — это HigherHRNet и DEKR (Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression).
GitHub
GitHub - HRNet/DEKR: This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled…
This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression" (https://arxiv.org/abs/2104.02300) - HRNet/DEKR
Писать ещё посты из серии #fundamentals?
Anonymous Poll
78%
Да, очень интересно.
8%
Да, но только не часто.
2%
Нет, скучно. Хотим только новьё.
5%
Я ничего не понял.
7%
Посмотреть результаты.
Forwarded from Denis Sexy IT 🤖
Кибер церкви, наконец-то:
Недавно операционный директор Facebook провела саммит для религиозных лидеров, где пыталась убедить религиозные группы сотрудничать с ними, пишет The New York Times.
Пара цитат представительницы ФБ:
«Религиозные организации и социальные сети идеально подходят друг другу, потому что в основе обоих лежит связь». «Мы надеемся, что однажды люди будут проводить религиозные службы в пространствах виртуальной реальности или использовать дополненную реальность в качестве образовательного инструмента, чтобы научить своих детей истории своей веры».
Как раз недавно Цукерберг сказал, что хочет, чтобы Facebook стал «компанией метавселенной», потребитель будет взаимодействовть с ним в 3D, а не через экран смартфона – то есть можно будет сходить в церковь в VR-шлеме?
На саммите обсуждали в том числе и два новых инструмента, которые помогут церкви заработать деньги. Первый позволяет прихожанам делать пожертвования во время просмотра служб в прямом эфире (донатить то есть), второй – услуга подписки на эксклюзивный контент, включая сообщения от епископа, стоимость 10$ (что-то напоминает 🥲). Так же отмечается, что была и третья фишка – реклама во время стрима, но лидеры церкви от нее отказались.
Пастор церкви Хиллсонг Сэм Коллиер вспоминал в интервью, что у Facebook было предложение: использовать церковь в качестве примера для изучения того, как церкви могут продвигаться на Facebook. В течение нескольких месяцев перед открытием церкви разработчики Facebook ежедневно вели диалоги с её представителями, чтобы изучить как она будет выглядеть на платформе социальной сети, какие приложение они могут создать для донатов, видео или лайв-стримов. Пастор не мог поделиться подробностями, так как подписал соглашение о неразглашении, но всё же отметил «Они учат нас, мы учим их, вместе мы узнаем, каким может быть будущее церкви на Facebook”»
Любопытно наблюдать, как Facebook пытается влезть вообще во все сферы жизни и это логично – церкви по сути это сообщества, а люди (точнее их профили) самое главное для фб.
Но с покупкой через инаппы штук в церкви они уже не первые 🌚
Недавно операционный директор Facebook провела саммит для религиозных лидеров, где пыталась убедить религиозные группы сотрудничать с ними, пишет The New York Times.
Пара цитат представительницы ФБ:
«Религиозные организации и социальные сети идеально подходят друг другу, потому что в основе обоих лежит связь». «Мы надеемся, что однажды люди будут проводить религиозные службы в пространствах виртуальной реальности или использовать дополненную реальность в качестве образовательного инструмента, чтобы научить своих детей истории своей веры».
Как раз недавно Цукерберг сказал, что хочет, чтобы Facebook стал «компанией метавселенной», потребитель будет взаимодействовть с ним в 3D, а не через экран смартфона – то есть можно будет сходить в церковь в VR-шлеме?
На саммите обсуждали в том числе и два новых инструмента, которые помогут церкви заработать деньги. Первый позволяет прихожанам делать пожертвования во время просмотра служб в прямом эфире (донатить то есть), второй – услуга подписки на эксклюзивный контент, включая сообщения от епископа, стоимость 10$ (что-то напоминает 🥲). Так же отмечается, что была и третья фишка – реклама во время стрима, но лидеры церкви от нее отказались.
Пастор церкви Хиллсонг Сэм Коллиер вспоминал в интервью, что у Facebook было предложение: использовать церковь в качестве примера для изучения того, как церкви могут продвигаться на Facebook. В течение нескольких месяцев перед открытием церкви разработчики Facebook ежедневно вели диалоги с её представителями, чтобы изучить как она будет выглядеть на платформе социальной сети, какие приложение они могут создать для донатов, видео или лайв-стримов. Пастор не мог поделиться подробностями, так как подписал соглашение о неразглашении, но всё же отметил «Они учат нас, мы учим их, вместе мы узнаем, каким может быть будущее церкви на Facebook”»
Любопытно наблюдать, как Facebook пытается влезть вообще во все сферы жизни и это логично – церкви по сути это сообщества, а люди (точнее их профили) самое главное для фб.
Но с покупкой через инаппы штук в церкви они уже не первые 🌚
NY Times
Facebook’s Next Target: The Religious Experience
The company is intensifying formal partnerships with faith groups across the United States and shaping the future of religious experience.
Forwarded from DL in NLP (nlpcontroller_bot)
OpenAI Triton — новый язык программирования (ну почти), заточенный под нейросетки.
Основная мотивация: если ваш кастомный слой в нейросетке очень кастомный, вам сейчас приходится либо страдать от его низкой скорости, либо писать на CUDA (и страдать от CUDA). Причём вариант с кудой не очень классный, потому что если потом захотите портировать на iphone/android/edge/... , то будете страдать снова.
Triton это такой "Си с тайлами". Сверху языка С добавлена абстракция Tile, которая по факту — тензор. Под капотом много оптимизаций для того, чтобы всё это эффективно считалось на GPU.
Из документации видно, что сейчас язык больше продвигают как альтернативу TorchScript. То есть, вы пишете на питоне, добавляете несколько декораторов к вашим функциям и 🧙 делает ваш говнокод не лучше, но быстрее.
Проект ещё в очень ранней фазе и исходники выглядят не шибко приятно, но если он уменьшит число CUDA kernels в этом мире, я буду рад.
Основная мотивация: если ваш кастомный слой в нейросетке очень кастомный, вам сейчас приходится либо страдать от его низкой скорости, либо писать на CUDA (и страдать от CUDA). Причём вариант с кудой не очень классный, потому что если потом захотите портировать на iphone/android/edge/... , то будете страдать снова.
Triton это такой "Си с тайлами". Сверху языка С добавлена абстракция Tile, которая по факту — тензор. Под капотом много оптимизаций для того, чтобы всё это эффективно считалось на GPU.
Из документации видно, что сейчас язык больше продвигают как альтернативу TorchScript. То есть, вы пишете на питоне, добавляете несколько декораторов к вашим функциям и 🧙 делает ваш говнокод не лучше, но быстрее.
Проект ещё в очень ранней фазе и исходники выглядят не шибко приятно, но если он уменьшит число CUDA kernels в этом мире, я буду рад.
GitHub
GitHub - triton-lang/triton: Development repository for the Triton language and compiler
Development repository for the Triton language and compiler - triton-lang/triton
А вот так выглядит реализация Softmax на Triton. Довольно страшно. К слову, имплементация Softmax на CUDA в репе пайторча занимает пару сотен строк и выглядит еще ужаснее.
Картинку спёр у @dlinnlp
Картинку спёр у @dlinnlp
Очень любопытная работа от UC Berkeley + FB + Google.
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.
После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.
Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.
После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.
Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!
This media is not supported in your browser
VIEW IN TELEGRAM
Снэп релизнул сегментацию верхней одежды человека. Например, можно делать анимированный орнамент поверх своей футболки. Выглядит довольно прикольно, но сетка не понимает складки и их глубину. Есть куда расти.
Туториал по созданию своих фильтров тут. А если у вас есть Snapchat (привет, зумеры), то можно примерить на себя готовые линзы.
Туториал по созданию своих фильтров тут. А если у вас есть Snapchat (привет, зумеры), то можно примерить на себя готовые линзы.
This media is not supported in your browser
VIEW IN TELEGRAM
Офигенная анимация с помощью VQGAN + CLIP по запросу "turtles surfing on the Great Wave off Kanagawa painting | realistic renderings of fantastic scenes". Теперь японские черепашки сёрфят на волнах!
Forwarded from Denis Sexy IT 🤖
Продолжаю думать, что настоящее будущее редактирование фото или видео просто за текстовыми интерфейсами с автосаджетами – хороший пример в новом проекте построенным поверх StyleGAN и CLIP архитектуры:
Вы вводите что-то в стиле: «Собака с лицом Николаса Кейджа», или «3D рендер у стиле в стиле мультиков Pixar» и ваше загруженное фото меняет свой стиль на тот который вы описали.
Самое удивительное, нейронку не нужно обучать на новых данных чтобы сделать, скажем, фото в стиле зомби или Кремль белым – там все под капотом само обучится за пару минут:
https://stylegan-nada.github.io/
(Код доступен, колаб)
Магия ✨
Вы вводите что-то в стиле: «Собака с лицом Николаса Кейджа», или «3D рендер у стиле в стиле мультиков Pixar» и ваше загруженное фото меняет свой стиль на тот который вы описали.
Самое удивительное, нейронку не нужно обучать на новых данных чтобы сделать, скажем, фото в стиле зомби или Кремль белым – там все под капотом само обучится за пару минут:
https://stylegan-nada.github.io/
(Код доступен, колаб)
Магия ✨
This media is not supported in your browser
VIEW IN TELEGRAM
Очки нннннада? Facebook Reality Labs показал прототип очков виртуальной реальности, на которых часть лица пользователя, закрываемого очками, рендерится на внешних дисплеях.
Это делается для того, чтобы человек мог быть одновременно и в виртуальном мире и в реальном, и чтобы люди без очков могли нормально с таким задротом коммуницировать. Дисплеи на очках не обычные, они показывают разную картинку в зависимости от угла обзора, то есть достигается больший реализм, как будто вы смотрите сквозь очки на лицо человека. На видео в середине — это существующее решение с обычными дисплеями, а справа — то, что предлагает FRL.
Это делается для того, чтобы человек мог быть одновременно и в виртуальном мире и в реальном, и чтобы люди без очков могли нормально с таким задротом коммуницировать. Дисплеи на очках не обычные, они показывают разную картинку в зависимости от угла обзора, то есть достигается больший реализм, как будто вы смотрите сквозь очки на лицо человека. На видео в середине — это существующее решение с обычными дисплеями, а справа — то, что предлагает FRL.