!!! Qwen2-VL: обновление мультимодальных моделей
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
🍾1