FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:
Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.
В репозитории выложены Instruct FP8 версии моделей:
⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:
vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта
@ai_machinelearning_big_data
#FP8 #LLM #vLLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍14❤10⚡1
Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.
Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:
Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.
В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.
Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.
Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.
# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder
# Install requirements
pip install -r requirements.txt
@ai_machinelearning_big_data
#AI #ML #LLM #YiCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥13❤11