Machinelearning

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:

🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;
🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.

Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.

В репозитории выложены Instruct FP8 версии моделей:

🟢Llama-3 (8B,70B);
🟢Mixtral (7B, 22B);
🟢Qwen2 (1,5B, 7b, 72B);
🟢Mistral 7B
🟢Llama-2 7B
🟢Phi-3 (mini-128K, medium-128K)
🟢Gemma-2 9b-it

⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:

🟢

nm-vllm: форк vLLM от сервиса Neuralmagic.com;

🟢

DeepSparse: среда выполнения для CPU-only систем;

🟢

SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат.

vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта

🟡

Страница проекта Neuralmagic

🟡

Модели на HF

🟡

Arxiv Page Attention

🖥

GitHub vLLm

🖥

GitHub nm-vllm

@ai_machinelearning_big_data

#FP8 #LLM #vLLM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23👍14❤10⚡1

12.1K views11:00

Machinelearning

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Yi-Coder: Семейство специализированных моделей для программирования.

Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.

Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:

🟢

Yi-Coder-9B;

🟢

Yi-Coder-9B-Chat;

🟠

Yi-Coder-1.5B;

🟠

Yi-Coder-1.5B-Chat.

Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.

В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.

Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.

Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.

▶️Установка:

# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder

# Install requirements
pip install -r requirements.txt

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Набор моделей

🟡

Сообщество в Discord

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #YiCoder

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥13❤11

10.3K views09:04

About

Blog

Apps

Platform