Технозаметки Малышева
5.55K subscribers
2.79K photos
928 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
MVoT - Multimodal Visualization-of-Thought: Новый подход к рассуждениям ИИ-систем

Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.

В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.

Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.

Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.

Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.

Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.

Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.

#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
👍522❤‍🔥1👨‍💻1