Mistral.rs: Универсальная платформа для быстрого инференса LLM
Eric L Buehler представил Mistral.rs - сверхбыструю платформу для запуска LLM.
Ключевые особенности:
• Широкая совместимость: поддержка GPU, CPU, Apple Metal.
• Автоматическая оптимизация: квантизация, PagedAttention, непрерывная пакетная обработка.
• Гибкость: HTTP-сервер (OpenAI API), Python-биндинги, Rust API.
• Расширенные возможности: X-LoRA, LoRA адаптеры, мультимодальность.
• Удобство: автозагрузка с Hugging Face Hub, интерактивный режим.
Платформа поддерживает множество моделей и форматов, включая GGUF и GGML.
-Швейцарский- Французский нож в мире локального инференса.
Для любителей, - обязательно к ознакомлению. 🚀🧠
#Mistral.rs #LLM #Inference
-------
@tsingular
Eric L Buehler представил Mistral.rs - сверхбыструю платформу для запуска LLM.
Ключевые особенности:
• Широкая совместимость: поддержка GPU, CPU, Apple Metal.
• Автоматическая оптимизация: квантизация, PagedAttention, непрерывная пакетная обработка.
• Гибкость: HTTP-сервер (OpenAI API), Python-биндинги, Rust API.
• Расширенные возможности: X-LoRA, LoRA адаптеры, мультимодальность.
• Удобство: автозагрузка с Hugging Face Hub, интерактивный режим.
Платформа поддерживает множество моделей и форматов, включая GGUF и GGML.
Для любителей, - обязательно к ознакомлению. 🚀🧠
#Mistral.rs #LLM #Inference
-------
@tsingular
🔥4👍1
LLMflation: цены на LLM-инференс стремительно падают
Стоимость обработки текста в языковых моделях демонстрирует беспрецедентное снижение - в 10 раз ежегодно.
За последние три года цена упала с $60 до $0.06 за миллион токенов, что в 1000 раз дешевле.
Ключевые факторы: улучшенная архитектура, оптимизация ПО, квантизация и специализированное оборудование.
Практические примеры: обработка 10-часового разговора уже стоит $2, анализ всего ядра Linux - менее $1.
Провайдеры LLM-сервисов фокусируются на премиум-сегменте, уступая нижний новым игрокам.
Похоже, скоро AI-помощник будет дешевле чашки кофе ☕️
#LLMflation #inference #optimization
-------
@tsingular
Стоимость обработки текста в языковых моделях демонстрирует беспрецедентное снижение - в 10 раз ежегодно.
За последние три года цена упала с $60 до $0.06 за миллион токенов, что в 1000 раз дешевле.
Ключевые факторы: улучшенная архитектура, оптимизация ПО, квантизация и специализированное оборудование.
Практические примеры: обработка 10-часового разговора уже стоит $2, анализ всего ядра Linux - менее $1.
Провайдеры LLM-сервисов фокусируются на премиум-сегменте, уступая нижний новым игрокам.
Похоже, скоро AI-помощник будет дешевле чашки кофе ☕️
#LLMflation #inference #optimization
-------
@tsingular
✍4🔥1
HuggingFace объединяет ведущих провайдеров облачного инференса
Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.
Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎
#HuggingFace #gate #inference
-------
@tsingular
Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.
Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎
#HuggingFace #gate #inference
-------
@tsingular
👍6🔥2🤯2
Media is too big
VIEW IN TELEGRAM
Для всех, кто страдает от того, что DeepSeek API штормит, запилил короткое видео как создать ключ под Inference Providers в Hugging Face и начать использовать DS.
Делов на пару минут и тысячи моделей HF будут вам доступны по API.
(для самых внимательных: ключ из видео уже удалён :) )
p.s. Видео из серии как вскипятить воду, но точно знаю некоторых, кому это будет полезно, поэтому вот :)
#HuggingFace #Inference #demo
———
@tsingular
Делов на пару минут и тысячи моделей HF будут вам доступны по API.
(для самых внимательных: ключ из видео уже удалён :) )
p.s. Видео из серии как вскипятить воду, но точно знаю некоторых, кому это будет полезно, поэтому вот :)
#HuggingFace #Inference #demo
———
@tsingular
👍10✍1
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
✍3