#unrealneural #пытаюсьпонять
Почему мультимодальные LLM модели испытывают трудности с пространственным пониманием?
Это исследование показывает, что проблемы с пространственным восприятием у MLLM связаны не с дефицитом данных, а с архитектурой. Пространственная способность зависит от позиционных сигналов, получаемых от визуального кодировщика, поэтому необходим редизайн, например, внедрение функции точного таргетинга.
https://www.alphaxiv.org/abs/2509.02359v1
Почему мультимодальные LLM модели испытывают трудности с пространственным пониманием?
Это исследование показывает, что проблемы с пространственным восприятием у MLLM связаны не с дефицитом данных, а с архитектурой. Пространственная способность зависит от позиционных сигналов, получаемых от визуального кодировщика, поэтому необходим редизайн, например, внедрение функции точного таргетинга.
https://www.alphaxiv.org/abs/2509.02359v1
🤔4👍1