MVoT - Multimodal Visualization-of-Thought: Новый подход к рассуждениям ИИ-систем
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
👍5❤2✍2❤🔥1👨💻1