Forwarded from Machinelearning
Describe Anything Model (DAM) - архитектура, разработанная Nvidia, для генерации точных и детальных описаний для конкретных областей на изображениях и видео. Традиционные VLM-модели как отдельная сущность или в связке с SAM-помощниками часто теряют ньюансы, особенно при наличии мелких объектов или динамичных сцен на целевом источнике.
DAM справляется с этим за счет 2 инноваций в своей архитектуре:
Модель принимает изображение или видео и бинарную маску целевой области интереса. Глобальный энкодер извлекает общие признаки, региональный — фокусируется на деталях выбранной зоны. Через адаптеры с кросс-вниманием признаки объединяются, после чего LLM генерирует описание. Для видео маски применяются к каждому кадру, а признаки агрегируются во времени.
# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything
# Create a conda env
conda create -n describe-anything
conda activate describe-anything
# Install dependencies
pip install -v
# Gradio Demo for Image Descriptions
python demo_simple.py
# Gradio Demo for Video Descriptions
python demo_video.py
@ai_machinelearning_big_data
#AI #ML #DAM #NVIDIA #Annotation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM