227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Arcee-SuperNova-Medius: модель с 14 млрд. параметрами на архитектуре Qwen2.5.

Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct.

Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели.

На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки.

В процессе обучения использовался набор данных EvolKit.

Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента.

Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH).

▶️ Официальные квантованные версии Arcee-SuperNova-Medius в формате GGUF в разрядностях от 2-bit (5 Gb) до 16-bit (29.5 Gb)


📌Лицензирование : Apache 2.0 License.


🟡Страница проекта
🟡Набор GGUF
🟡Модель


@ai_machinelearning_big_data

#AI #ML #LLM #ArceeAI #SuperNova
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰15👍125🔥5🌚1