Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Mistral.rs: Универсальная платформа для быстрого инференса LLM

Eric L Buehler представил Mistral.rs - сверхбыструю платформу для запуска LLM.
Ключевые особенности:
Широкая совместимость: поддержка GPU, CPU, Apple Metal.
Автоматическая оптимизация: квантизация, PagedAttention, непрерывная пакетная обработка.
Гибкость: HTTP-сервер (OpenAI API), Python-биндинги, Rust API.
Расширенные возможности: X-LoRA, LoRA адаптеры, мультимодальность.
Удобство: автозагрузка с Hugging Face Hub, интерактивный режим.
Платформа поддерживает множество моделей и форматов, включая GGUF и GGML.

-Швейцарский- Французский нож в мире локального инференса.
Для любителей, - обязательно к ознакомлению. 🚀🧠

#Mistral.rs #LLM #Inference
-------
@tsingular
🔥4👍1
LLMflation: цены на LLM-инференс стремительно падают

Стоимость обработки текста в языковых моделях демонстрирует беспрецедентное снижение - в 10 раз ежегодно.
За последние три года цена упала с $60 до $0.06 за миллион токенов, что в 1000 раз дешевле.
Ключевые факторы: улучшенная архитектура, оптимизация ПО, квантизация и специализированное оборудование.
Практические примеры: обработка 10-часового разговора уже стоит $2, анализ всего ядра Linux - менее $1.
Провайдеры LLM-сервисов фокусируются на премиум-сегменте, уступая нижний новым игрокам.

Похоже, скоро AI-помощник будет дешевле чашки кофе ☕️

#LLMflation #inference #optimization
-------
@tsingular
4🔥1
HuggingFace объединяет ведущих провайдеров облачного инференса

Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.

Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎

#HuggingFace #gate #inference
-------
@tsingular
👍6🔥2🤯2
Media is too big
VIEW IN TELEGRAM
Для всех, кто страдает от того, что DeepSeek API штормит, запилил короткое видео как создать ключ под Inference Providers в Hugging Face и начать использовать DS.

Делов на пару минут и тысячи моделей HF будут вам доступны по API.

(для самых внимательных: ключ из видео уже удалён :) )

p.s. Видео из серии как вскипятить воду, но точно знаю некоторых, кому это будет полезно, поэтому вот :)

#HuggingFace #Inference #demo
———
@tsingular
👍101
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular
3