Machinelearning

🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢

openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢

openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢

openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢

openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation