Технозаметки Малышева

🚀 Google запустили услугу аренды GPU мощностей с посекундной тарификацией

Google Cloud официально запустил GPU-поддержку для Cloud Run.

Технические детали:
- Scale-to-zero для GPU — платите только за использованные секунды, никаких расходов при простое
- Холодный старт за 5 секунд — от нуля до готового GPU-инстанса с драйверами
- Time-to-First-Token ~19 секунд для gemma3:4b (включая загрузку модели)
- Потоковая передача через HTTP/WebSocket из коробки
- Без квот на NVIDIA L4 — просто добавляете --gpu 1 в команду

Доступно в 5 регионах (США, Европа, Азия) с возможностью деплоя одной командой:

gcloud run deploy my-global-service \
  --image ollama/ollama --port 11434 \
  --gpu 1 \
  --regions us-central1,europe-west1,asia-southeast1

Практические кейсы:
Стартапам: AI-инференс без DevOps-команды и управления инфраструктурой
Enterprise: batch-обработка (fine-tuning, медиа-транскодирование) через Cloud Run Jobs
Продактам: глобальное масштабирование LLM-сервисов с автоматической балансировкой нагрузки

Best Practices для оптимизации:
- Используйте 4-bit квантизованные модели
- Храните модели в контейнерах (оптимизация streaming) или Cloud Storage с Direct VPC
- Настраивайте конкурентный запуск по формуле: (модели × параллельные запросы) + (модели × batch size)
- Генерируйте LLM-кеши на этапе сборки образа

Демо масштабирования 0→100 GPU за 4 минуты показывает, что serverless GPU — вполне рабочая технология.

Cloud Run GPU превращает AI-инференс из "инфраструктурного ада" в "запустил и забыл".

Ждем на Cloud.ru и immers.cloud :)

#CloudRun #GPU #Serverless #Google
———
@tsingular

✍4🔥2🤯2❤1👍1

1.4K views17:53

About

Blog

Apps

Platform