🚀 Google запустили услугу аренды GPU мощностей с посекундной тарификацией
Google Cloud официально запустил GPU-поддержку для Cloud Run.
Технические детали:
- Scale-to-zero для GPU — платите только за использованные секунды, никаких расходов при простое
- Холодный старт за 5 секунд — от нуля до готового GPU-инстанса с драйверами
- Time-to-First-Token ~19 секунд для gemma3:4b (включая загрузку модели)
- Потоковая передача через HTTP/WebSocket из коробки
- Без квот на NVIDIA L4 — просто добавляете --gpu 1 в команду
Доступно в 5 регионах (США, Европа, Азия) с возможностью деплоя одной командой:
Практические кейсы:
Стартапам: AI-инференс без DevOps-команды и управления инфраструктурой
Enterprise: batch-обработка (fine-tuning, медиа-транскодирование) через Cloud Run Jobs
Продактам: глобальное масштабирование LLM-сервисов с автоматической балансировкой нагрузки
Best Practices для оптимизации:
- Используйте 4-bit квантизованные модели
- Храните модели в контейнерах (оптимизация streaming) или Cloud Storage с Direct VPC
- Настраивайте конкурентный запуск по формуле: (модели × параллельные запросы) + (модели × batch size)
- Генерируйте LLM-кеши на этапе сборки образа
Демо масштабирования 0→100 GPU за 4 минуты показывает, что serverless GPU — вполне рабочая технология.
Cloud Run GPU превращает AI-инференс из "инфраструктурного ада" в "запустил и забыл".
Ждем на Cloud.ru и immers.cloud :)
#CloudRun #GPU #Serverless #Google
———
@tsingular
Google Cloud официально запустил GPU-поддержку для Cloud Run.
Технические детали:
- Scale-to-zero для GPU — платите только за использованные секунды, никаких расходов при простое
- Холодный старт за 5 секунд — от нуля до готового GPU-инстанса с драйверами
- Time-to-First-Token ~19 секунд для gemma3:4b (включая загрузку модели)
- Потоковая передача через HTTP/WebSocket из коробки
- Без квот на NVIDIA L4 — просто добавляете --gpu 1 в команду
Доступно в 5 регионах (США, Европа, Азия) с возможностью деплоя одной командой:
gcloud run deploy my-global-service \
--image ollama/ollama --port 11434 \
--gpu 1 \
--regions us-central1,europe-west1,asia-southeast1
Практические кейсы:
Стартапам: AI-инференс без DevOps-команды и управления инфраструктурой
Enterprise: batch-обработка (fine-tuning, медиа-транскодирование) через Cloud Run Jobs
Продактам: глобальное масштабирование LLM-сервисов с автоматической балансировкой нагрузки
Best Practices для оптимизации:
- Используйте 4-bit квантизованные модели
- Храните модели в контейнерах (оптимизация streaming) или Cloud Storage с Direct VPC
- Настраивайте конкурентный запуск по формуле: (модели × параллельные запросы) + (модели × batch size)
- Генерируйте LLM-кеши на этапе сборки образа
Демо масштабирования 0→100 GPU за 4 минуты показывает, что serverless GPU — вполне рабочая технология.
Cloud Run GPU превращает AI-инференс из "инфраструктурного ада" в "запустил и забыл".
Ждем на Cloud.ru и immers.cloud :)
#CloudRun #GPU #Serverless #Google
———
@tsingular
✍4🔥2🤯2❤1👍1