LLaVA-CoT – модель VLM, разработанная на базе Llama-3.2-11B-Vision-Instruct и обученная для автономного многоступенчатого процесса рассуждения. В отличие от классического метода CoT, LLaVA-CoT независимо выполняет последовательные этапы: обобщение, визуальная интерпретация, логическое рассуждение и формирование вывода. Эта структура позволяет LLaVA-CoT значительно повысить точность при решении визуальных задач, требующих интенсивных рассуждений.
LLaVA-CoT обучалась на кастомном наборе данных LLaVA-CoT-100k, который объединил примеры из различных источников VQA и аннотации структурированных рассуждений.
Используя всего 100 тыс. обучающих примеров и простой метод масштабирования во время инференса, LLaVA-CoT не только превосходит свою базовую модель на 8,9% на наборе тестов мультимодальных рассуждений, но и Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.
@ai_machinelearning_big_data
#AI #ML #VLM #LlaVACoT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍9❤4