Machinelearning

Lite-Oute-1: семейство компактных base и instruct моделей

Oute AI представила в открытом доступе модели на 300М, 150M и 65М параметров в base и instruct вариантах и в GGUF-формате. Список релиза:

🟠Lite-Oute-1-300M Base
🟠Lite-Oute-1-300M-Instruct
🟠Lite-Oute-1-300M Base GGUF
🟠Lite-Oute-1-300M-Instruct GGUF
🟠Lite-Mistral-150M-v2-Instruct
🟠Lite-Mistral-150M-v2-Instruct GGUF
🟠Lite-Oute-1-65M Base
🟠Lite-Oute-1-65M-Instruct
🟠Lite-Oute-1-65M Base GGUF
🟠Lite-Oute-1-65M-Instruct GGUF

Lite-Oute-1-300M: "старшая" модель семейства на архитектуре Mistral с 300М параметров и контекстом в 4096 токенов. Эта модель специально разработана в качестве отправной точки для тонкой настройки при выполнении различных задач. Она обеспечивает баланс между компактными размерами и возможностями.
Некоторые оценки 0-shot: MMLU - 24.87, Winogrande- 53.35, OpenBookQA - 30.80

Lite-Oute-1-300M Base GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K (176 MB), всего 15 вариаций.

Lite-Oute-1-300M-Instruct: instruct-версия 300М Base с теми же параметрами. Модель использует шаблон ChatML.
Некоторые оценки 0-shot: MMLU - 24.00, Winogrande- 53.75, OpenBookQA - 32.20

Lite-Oute-1-300M-Instruct GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K(176 MB), всего 15 вариаций.
Модель использует шаблон ChatML

Lite-Mistral-150M-v2-Instruct: модель на основе архитектуры Mistral, включающая около 157М параметров. Основной целью создания этой модели была разработка компактной и эффективной модели, способной работать на широком спектре устройств, сохраняя при этом разумный уровень функциональности и согласованности для своего небольшого размера. Модель была обучена на ~ 8 миллиардах токенов.
Некоторые оценки 0-shot: MMLU - 25.28, Winogrande- 51.78, OpenBookQA - 28.40
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Mistral-150M-v2-Instruct GGUF: диапазон квантования от FP16 (314 МВ) до Q2_K (68.5 MB), всего 15 вариаций.
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Oute-1-65M Base: экспериментальная ультракомпактная базовая модель, построенная на архитектуре LLaMA и содержащая около 65М параметров.
Эта модель предназначена в качестве отправной точки для тонкой настройки под узкоспециальные задачи. Из-за своего чрезвычайно малого размера эта модель имеет базовые возможности генерации текста, но испытывает трудности с инструкциями или поддержанием связности тем.
Некоторые оценки 0-shot: MMLU - 23.05, Winogrande- 51.70, OpenBookQA - 27.60

Lite-Oute-1-65M Base GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K (31.5 MB), всего 15 вариаций.

Lite-Oute-1-65M-Instruct: instruct-версия 65М Base с теми же параметрами.
Некоторые оценки 0-shot: MMLU - 23.45, Winogrande- 50.04, OpenBookQA - 28.60.
Модель использует шаблон ChatML.

Lite-Oute-1-65M-Instruct GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K(31.5 MB), всего 15 вариаций.
Модель использует шаблон ChatML

🟡

Страница проекта

🟡

Все модели на HF

@ai_machinelearning_big_data

#AI #TinyLM #ML #OuteAI #GGUF

Please open Telegram to view this post