Machinelearning

⚡️ Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.

Arcee представила Arcee-SuperNova-70B и Arcee-SuperNova-Lite (8B), разработанные для альтернативной замены крупным проприетарным моделям, ориентированные на следование инструкциям и согласованию с человеческими предпочтениями.

Создание Arcee-SuperNova включало в себя несколько этапов, начиная с дистилляции Llama-3.1-405B-Instruct в Llama-3.1-70B-Instruct. Для этого был создан датасет из 500 млн. токенов, включающий примеры кода и математических задач и извлеченные logits модели Llama-3.1-405B.

Обучение Llama-3.1-70B-Instruct проводилось в течение пяти дней на 32 GPU H100 с использованием FSDP (Fully Sharded Data Parallel) для обеспечения возможности распределенного обучения.

Параллельно с этим была обучена отдельная версия Llama-3.1-70B с использованием Spectrum, настроенного на на 35% слоев с наивысшим соотношением SNR при длине последовательности 8192. Эта модель была обучена на наборе данных, созданном с помощью конвейера EvolKit - фреймворка повышения сложности инструкций при файнтюне LLM.

Финальная версия Arcee-SuperNova была создана путем слияния чекпойнтов из EvolKit и DPO, которые затем были объединены с дистиллированной Llama-3.1-70B-Instruct.

Проведенные тесты готовой модели в бенчмарке IF-Eval, показали, что Arcee-SuperNova превосходит не только Llama-3.1-70B-Instruct, но и проприетарные модели от OpenAI и Anthropic, а также Llama-405B-Instruct.

🟠Arcee-SuperNova-70B доступна только через API-сервис Arcee, а попробовать ее можно в playground web-интерфейса бесплатно;

🟢

Arcee-SuperNova-Lite (8B), созданная по тому же принципу, что и 70B, доступна на Huggingface;

🟢Неофициальные GGUF версии Arcee-SuperNova-Lite (8B) от bartowski разрядностью от 2-bit (2.95Gb) до 16-bit (16 Gb) для использования с llama.cpp и LM Studio.

📌Лицензирование : Llama3

🟡

Страница проекта

🟡

Набор GGUF

🟡

Модель Arcee-SuperNova-Lite

🟡

Demo 70B

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #Supernova

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍13🔥7

9.61K views16:33

Machinelearning

🌟 Arcee-SuperNova-Medius: модель с 14 млрд. параметрами на архитектуре Qwen2.5.

Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct.

Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели.

На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки.

В процессе обучения использовался набор данных EvolKit.

Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента.

Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH).

▶️ Официальные квантованные версии Arcee-SuperNova-Medius в формате GGUF в разрядностях от 2-bit (5 Gb) до 16-bit (29.5 Gb)

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Набор GGUF

🟡

Модель

@ai_machinelearning_big_data

#AI #ML #LLM #ArceeAI #SuperNova

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰15👍12❤5🔥5🌚1

8.84K views17:00

About

Blog

Apps

Platform