🚀 Трансформеры + vLLM: вместе вкуснее
vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.
Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.
Достаточно просто указать:
И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.
Бизнес-кейсы:
1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.
2. OpenAI-совместимый API:
запускаем
вызываем по url
или в коде
3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.
Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.
#Transformers #vLLM #инференс #HuggingFace
———
@tsingular
vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.
Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.
Достаточно просто указать:
from transformers import pipeline
pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
result = pipe("The future of AI is")
print(result[0]["generated_text"])
И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.
Бизнес-кейсы:
1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.
2. OpenAI-совместимый API:
запускаем
vllm serve meta-llama/Llama-3.2-1B
вызываем по url
curl https://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "meta-llama/Llama-3.2-1B", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0}'
или в коде
from openai import OpenAI
client = OpenAI(api_key="EMPTY", base_url="https://localhost:8000/v1")
completion = client.completions.create(
model="meta-llama/Llama-3.2-1B",
prompt="San Francisco is a",
max_tokens=7,
temperature=0
)
print("Completion result:", completion.choices[0].text)
3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.
Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.
#Transformers #vLLM #инференс #HuggingFace
———
@tsingular
👍5🔥2❤1