Тюнинг моделей на основе больших языковых моделей (LLM) с помощью машинно сгенерированных данных
- Эксперименты на основе датасета COCO проводились с использованием GPT-4, что позволило собрать 158 тысяч уникальных образцов с тестами на уровне языка и изображений.
- Данные включали в себя более 58 тысяч разговоров, 23 тысячи подробных описаний и 77 тысяч отдельных образцов сложного мышления.
- LLaVa использует интеграцию CLIP ViT-L/14 и модели Vicuna для обучения.
- Эксперименты показали, что LLaVa достигает 85,1% относительного балла в сравнении с GPT-4.
- Новый подход может значительно повысить возможности применения машинного обучения в мультимодальных настройках.
Разработка такого подхода позволит увеличить эффективность работы с большими языковыми моделями и обучением на разнообразных типах данных.
#LLaVa #GPT4 #CLIPViT-L
- Эксперименты на основе датасета COCO проводились с использованием GPT-4, что позволило собрать 158 тысяч уникальных образцов с тестами на уровне языка и изображений.
- Данные включали в себя более 58 тысяч разговоров, 23 тысячи подробных описаний и 77 тысяч отдельных образцов сложного мышления.
- LLaVa использует интеграцию CLIP ViT-L/14 и модели Vicuna для обучения.
- Эксперименты показали, что LLaVa достигает 85,1% относительного балла в сравнении с GPT-4.
- Новый подход может значительно повысить возможности применения машинного обучения в мультимодальных настройках.
Разработка такого подхода позволит увеличить эффективность работы с большими языковыми моделями и обучением на разнообразных типах данных.
#LLaVa #GPT4 #CLIPViT-L
LLaVA-o1: Новая открытая визуальная нейронка с пошаговыми рассуждениями
Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода.
Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.
https://huggingface.co/Xkev/Llama-3.2V-11B-cot
А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.
Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1
#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода.
Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.
https://huggingface.co/Xkev/Llama-3.2V-11B-cot
А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.
Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1
#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
✍2👍2⚡1