Исследователи из University of California и Honda Research Institute обучили робота складывать ткань. Алгоритм основывается на фреймворке для обучения визуальной динамики объектов на основе RGB изображений, — Visual Foresight. Такие роботы могут быть полезны в текстильной промышленности и хирургии.
#CV #RL #AppliedDS
#CV #RL #AppliedDS
PF-AFN — это нейросеть, которая генерирует изображения с примеркой одежды. Модель принимает на вход изображение человека и изображение предмета одежды. На выходе модель отдает изображение, на котором на целевую персону надет предмет одежды. Нейросеть обходит предыдущие подходы, которые основываются на модели сегментации частей человека.
#CV #Arxiv
#CV #Arxiv
Модель Vision Transformer без слоёв внимания показала высокие результаты на ImageNet. Это показывает, что механизм внимания не является основной причиной эффективности архитектуры Vision Transformer, вопреки мнению сообщества.
#stateoftheart #CV
#stateoftheart #CV