Machinelearning

🌟 LLaMA-O1: модели ризонинга на базе Llama-3.1-8B-Instruct.

Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик:

🟢

LlaMA-Berry - попарная оптимизация для решения математических задач олимпиадного уровня с помощью поиска Монте-Карло;

🟢

Critic-V - методика подключения внешней модели-критика;

🟢

MCTSr - метод интеграции LLM с алгоритмом поиска по дереву Монте-Карло для повышения точности решения математических задач.

▶️

LLaMA-O1-Base-1127 - базовая модель ризонинга, файнтюн Llama-3.1-8B-Instruct на датасете longcot_pt. Квантованные версии в формате GGUF.

▶️ LLaMA-O1-Supervised-1129 - файнтюн базовой модели LLaMA-O1-Base-1127 на датасете OpenLongCoT-SFT с использованием комбинаций методов Critic-V и MCTSr. Квантованные версии в формате GGUF.

⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space

🟡

Набор моделей и датасетов

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Resoning #LlaMA_O1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤11🔥4🐳2

12.2K views13:01

About

Blog

Apps

Platform