Технозаметки Малышева

Mistral.rs: Универсальная платформа для быстрого инференса LLM

Eric L Buehler представил Mistral.rs - сверхбыструю платформу для запуска LLM.
Ключевые особенности:
• Широкая совместимость: поддержка GPU, CPU, Apple Metal.
• Автоматическая оптимизация: квантизация, PagedAttention, непрерывная пакетная обработка.
• Гибкость: HTTP-сервер (OpenAI API), Python-биндинги, Rust API.
• Расширенные возможности: X-LoRA, LoRA адаптеры, мультимодальность.
• Удобство: автозагрузка с Hugging Face Hub, интерактивный режим.
Платформа поддерживает множество моделей и форматов, включая GGUF и GGML.

~~-Швейцарский-~~ Французский нож в мире локального инференса.
Для любителей, - обязательно к ознакомлению. 🚀🧠

#Mistral.rs #LLM #Inference
-------
@tsingular

🔥4👍1

2.51K viewsedited 17:55

LLMflation: цены на LLM-инференс стремительно падают

Стоимость обработки текста в языковых моделях демонстрирует беспрецедентное снижение - в 10 раз ежегодно.
За последние три года цена упала с $60 до $0.06 за миллион токенов, что в 1000 раз дешевле.
Ключевые факторы: улучшенная архитектура, оптимизация ПО, квантизация и специализированное оборудование.
Практические примеры: обработка 10-часового разговора уже стоит $2, анализ всего ядра Linux - менее $1.
Провайдеры LLM-сервисов фокусируются на премиум-сегменте, уступая нижний новым игрокам.

Похоже, скоро AI-помощник будет дешевле чашки кофе ☕️

#LLMflation #inference #optimization
-------
@tsingular

✍4🔥1

744 viewsedited 05:33

Технозаметки Малышева

HuggingFace объединяет ведущих провайдеров облачного инференса

Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.

Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎

#HuggingFace #gate #inference
-------
@tsingular

👍6🔥2🤯2

1.1K viewsedited 06:14

Технозаметки Малышева

1:10

Media is too big

VIEW IN TELEGRAM

Для всех, кто страдает от того, что DeepSeek API штормит, запилил короткое видео как создать ключ под Inference Providers в Hugging Face и начать использовать DS.

Делов на пару минут и тысячи моделей HF будут вам доступны по API.

(для самых внимательных: ключ из видео уже удалён :) )

p.s. Видео из серии как вскипятить воду, но точно знаю некоторых, кому это будет полезно, поэтому вот :)

#HuggingFace #Inference #demo
———
@tsingular

👍10✍1

983 viewsedited 15:38

Технозаметки Малышева

А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular

✍3

1.14K viewsedited 07:36

About

Blog

Apps

Platform