Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
🔥16😁3🤣1
Neural Deep
Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!
gpt-oss запуск на 4090/3090
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
Сервер стартует, но падает при инференсе
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
vllm/vllm-openai:gptoss
. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3
.Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
Сервер стартует, но падает при инференсе
torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
👍20😁10❤9 4
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард
Ссылочка на чатик нас уже 500 человек!
https://t.iss.one/neuraldeepchat
Ссылочка на чатик нас уже 500 человек!
https://t.iss.one/neuraldeepchat
😁10👍6🔥4
Neural Deep
gpt-oss запуск на 4090/3090 TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100 Временно используйте llama.cpp…
gpt-oss-120b запуск на 4090/3090 часть 2
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Брал я эти веса
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
Заняло все это чудо в 120b
Так же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)
Вопросы включают в себя работу с контекстом от 3-16к токенов
Промпты заточены под 7b модельку (извлечение данных + следование инструкции)
Валидация по методу llm as judge gpt-4o
Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Брал я эти веса
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
| Фаза | Токен | Скорость |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |
Заняло все это чудо в 120b
73GB
на 32768
токенов контекстаТак же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)
Вопросы включают в себя работу с контекстом от 3-16к токенов
Промпты заточены под 7b модельку (извлечение данных + следование инструкции)
Валидация по методу llm as judge gpt-4o
Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
🔥31❤11👍9
🤣71
Forwarded from Dealer.AI
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣24👍13😁6 2