Neural Deep
Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!
gpt-oss запуск на 4090/3090
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
Сервер стартует, но падает при инференсе
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
vllm/vllm-openai:gptoss
. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3
.Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
Сервер стартует, но падает при инференсе
torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
👍14😁10❤7 4
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард
Ссылочка на чатик нас уже 500 человек!
https://t.iss.one/neuraldeepchat
Ссылочка на чатик нас уже 500 человек!
https://t.iss.one/neuraldeepchat
😁9👍5🔥3