🌟 LLaMA-O1: модели ризонинга на базе Llama-3.1-8B-Instruct.
Набор моделей ризонинга от
SimpleBerry Research Lab на Hugging face, полученные с использованием методик:
🟢LlaMA-Berry - попарная оптимизация для решения математических задач олимпиадного уровня с помощью поиска Монте-Карло;
🟢Critic-V - методика подключения внешней модели-критика;
🟢MCTSr - метод интеграции LLM с алгоритмом поиска по дереву Монте-Карло для повышения точности решения математических задач.
▶️ LLaMA-O1-Base-1127 - базовая модель ризонинга, файнтюн Llama-3.1-8B-Instruct на датасете longcot_pt. Квантованные версии в формате
GGUF.
▶️ LLaMA-O1-Supervised-1129 - файнтюн базовой модели LLaMA-O1-Base-1127 на датасете
OpenLongCoT-SFT с использованием комбинаций методов Critic-V и MCTSr. Квантованные версии в формате
GGUF.
⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать
в этом HF Space 🟡Набор моделей и датасетов🟡Demo 🖥GitHub @ai_machinelearning_big_data#AI #ML #LLM #Resoning #LlaMA_O1