Технозаметки Малышева

!!! Qwen2-VL: обновление мультимодальных моделей

Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:

• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный

Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.

По описанию, - очень круто! Надо пробовать.

DEMO

HuggingFace

#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular

🍾1

2.79K viewsedited 17:43

About

Blog

Apps

Platform