Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🚀 Google запустили услугу аренды GPU мощностей с посекундной тарификацией

Google Cloud официально запустил GPU-поддержку для Cloud Run.

Технические детали:
- Scale-to-zero для GPU — платите только за использованные секунды, никаких расходов при простое
- Холодный старт за 5 секунд — от нуля до готового GPU-инстанса с драйверами
- Time-to-First-Token ~19 секунд для gemma3:4b (включая загрузку модели)
- Потоковая передача через HTTP/WebSocket из коробки
- Без квот на NVIDIA L4 — просто добавляете --gpu 1 в команду

Доступно в 5 регионах (США, Европа, Азия) с возможностью деплоя одной командой:
gcloud run deploy my-global-service \
--image ollama/ollama --port 11434 \
--gpu 1 \
--regions us-central1,europe-west1,asia-southeast1


Практические кейсы:
Стартапам:
AI-инференс без DevOps-команды и управления инфраструктурой
Enterprise: batch-обработка (fine-tuning, медиа-транскодирование) через Cloud Run Jobs
Продактам: глобальное масштабирование LLM-сервисов с автоматической балансировкой нагрузки

Best Practices для оптимизации:
- Используйте 4-bit квантизованные модели
- Храните модели в контейнерах (оптимизация streaming) или Cloud Storage с Direct VPC
- Настраивайте конкурентный запуск по формуле: (модели × параллельные запросы) + (модели × batch size)
- Генерируйте LLM-кеши на этапе сборки образа

Демо масштабирования 0→100 GPU за 4 минуты показывает, что serverless GPU — вполне рабочая технология.

Cloud Run GPU превращает AI-инференс из "инфраструктурного ада" в "запустил и забыл".

Ждем на Cloud.ru и immers.cloud :)

#CloudRun #GPU #Serverless #Google
———
@tsingular
4🔥2🤯21👍1