Neural Deep
7.65K subscribers
308 photos
44 videos
3 files
199 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.

Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.

Ссылки:
https://openai.com/open-models/
https://openai.com/index/gpt-oss-model-card/
https://cookbook.openai.com/articles/openai-harmony
https://gpt-oss.com/ - тут можно поиграть с моделью

Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.

И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.

Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
🔥16😁3🤣1
Согласен со всеми кто репостит, метрики сказка

Я же буду пробовать запустить на своем кластере 4090(48гб)

Пойду расчехлять терминал!
26👍12🔥54
Neural Deep
Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!
gpt-oss запуск на 4090/3090

TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100

Временно используйте llama.cpp с весами от unsloth

Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ vllm/vllm-openai:gptoss. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3.

Проблема системная:

Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом

Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1  


Сервер стартует, но падает при инференсе

torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device



Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.

Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам

Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention

Что делать сейчас?

Пока что единственный способ запустить gpt-oss на RTX 4090:

1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм



Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.

Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.

Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄

Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
👍20😁1094
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард


Ссылочка на чатик нас уже 500 человек!

https://t.iss.one/neuraldeepchat
😁10👍6🔥4
Neural Deep
gpt-oss запуск на 4090/3090 TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100 Временно используйте llama.cpp…
gpt-oss-120b запуск на 4090/3090 часть 2

И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем

Брал я эти веса

Далее тесты и что мы имеем

На простые запросы не более 1к токенов 101-122 t/s
| Фаза   | Токен | Скорость  |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |


Заняло все это чудо в 120b 73GB на 32768 токенов контекста

Так же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)

Вопросы включают в себя работу с контекстом от 3-16к токенов

Промпты заточены под 7b модельку (извлечение данных + следование инструкции)

Валидация по методу llm as judge gpt-4o

Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
🔥3111👍9
gpt-5 и метрики

Миша(@mixaill76)расчехлил эксель судя по всему презу делала gpt-6
🤣71
Forwarded from Dealer.AI
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣24👍13😁62