Технозаметки Малышева

🚀 Трансформеры + vLLM: вместе вкуснее

vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.

Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.

Достаточно просто указать:

from transformers import pipeline

pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
result = pipe("The future of AI is")

print(result[0]["generated_text"])

И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.

Бизнес-кейсы:

1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.

2. OpenAI-совместимый API:

запускаем

vllm serve meta-llama/Llama-3.2-1B

вызываем по url

curl https://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "meta-llama/Llama-3.2-1B", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0}'

или в коде

from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="https://localhost:8000/v1")
completion = client.completions.create(
    model="meta-llama/Llama-3.2-1B",
    prompt="San Francisco is a",
    max_tokens=7,
    temperature=0
)
print("Completion result:", completion.choices[0].text)

3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.

Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.

#Transformers #vLLM #инференс #HuggingFace
———
@tsingular

👍5🔥2❤1

1.01K views04:55

About

Blog

Apps

Platform