Технозаметки Малышева

MVoT - Multimodal Visualization-of-Thought: Новый подход к рассуждениям ИИ-систем

Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.

В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.

Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.

Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.

Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.

Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.

Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.

#MVoT #Chameleon #MicrosoftResearch
———
@tsingular

👍5❤2✍2❤‍🔥1👨‍💻1

1K views19:01

About

Blog

Apps

Platform