Анализ данных (Data analysis)
46.2K subscribers
2.27K photos
263 videos
1 file
2.03K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 LongVA: VLM для больших видео на основе Qwen-2-7B

LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.

В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.

Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.

👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G


⚖️ Лицензирование кода: Apache-2.0 license

⚖️ Лицензирование моделей: Qwen2 license


🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]


@ai_machinelearning_big_data

#ML #VLM #VQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2