DevOps&SRE Library
18.4K subscribers
461 photos
4 videos
2 files
4.97K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
headlamp

Headlamp is an easy-to-use and extensible Kubernetes web UI.

Headlamp was created to blend the traditional feature set of other web UIs/dashboards (i.e., to list and view resources) with added functionality.


https://github.com/kubernetes-sigs/headlamp
InfraDev Community приглашает на Cloud Fail ((Over)): специальный новогодний выпуск InfraDev Meetup.
Без фейлов не обходится ни один крутой продукт, ну а истории успеха — «за ширмой» оказываются историями поисков и ошибок с удачным концом.
Поговорим про то, какие проблемы возникают под капотом инфраструктурных продуктов, как они решаются и какие уроки из этого получаются.

Спикеры:
☁️Василий Степанов, руководитель направления инфраструктурных сервисов, VK Cloud, VK Tech.
☁️Константин Крамлих, руководитель поднаправления сетевых продуктов, Yandex.Cloud.
☁️Секретный доклад: подробности добавим позднее.
Подробнее о докладах читайте на странице мероприятия.

Когда: 18 декабря, с 18:00 до 23:59
Где: Москва, Ленинградский пр., 70, офис VK Tech, БЦ «Алкон» (количество мест ограничено).

Приходите на встречу или участвуйте онлайн.

Зарегистрироваться.
seaweedfs-operator

This Kubernetes Operator is made to easily deploy SeaweedFS onto your Kubernetes cluster.

The operator manages the complete SeaweedFS infrastructure on Kubernetes, including Master servers, Volume servers, Filer services, and IAM (Identity and Access Management) services. This provides a scalable, resilient distributed file system with S3-compatible API and built-in authentication.


https://github.com/seaweedfs/seaweedfs-operator
Kubernetes CPU Limits: Scylla and Charybdis

Kubernetes limits — especially CPU limits — are often a source of confusion. Some argue you should always use them, while others insist you should never use them. In this post, I’ll explain why the reality is simply a tradeoff between resource utilization and performance predictability.


https://medium.com/@vladimir.prus/kubernetes-cpu-limits-scylla-and-charybdis-6a9aa3a8c6ca
API для ML-моделей: как перевести эксперименты в продакшн

Вы создали отличную модель — точность впечатляет, метрики в норме, но она так и живёт в ноутбуке. На открытом уроке вы узнаете, как интегрировать ML-модели в рабочий стек и превратить прототип в часть системы. Мы разберём, как на практике обернуть модель в API, провести валидацию входных параметров и настроить безопасность. Покажем, как автоматизировать документацию и упростить поддержку решений.

Вы научитесь строить API, которые выдерживают реальные нагрузки, защищены от атак и готовы к CI/CD пайплайнам.

➡️ Присоединяйтесь к открытому уроку в преддверии старта курса “MLOps”. Пора сделать ваши модели частью инфраструктуры, а не просто красивыми графиками: https://vk.cc/cRWh9X

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqx9kuuj
Kubernetes v1.34: Finer-Grained Control Over Container Restarts

With the release of Kubernetes 1.34, a new alpha feature is introduced that gives you more granular control over container restarts within a Pod. This feature, named Container Restart Policy and Rules, allows you to specify a restart policy for each container individually, overriding the Pod's global restart policy. In addition, it also allows you to conditionally restart individual containers based on their exit codes. This feature is available behind the alpha feature gate ContainerRestartRules.

This has been a long-requested feature. Let's dive into how it works and how you can use it.


https://kubernetes.io/blog/2025/08/29/kubernetes-v1-34-per-container-restart-policy/
Understanding the True Cost of a Kubernetes Workload

Trace individual microservice costs by combining Kubernetes metrics, APM, and CUR for granular spending insights


https://medium.com/life-at-telkomsel/understanding-the-true-cost-of-a-kubernetes-workload-3a81e2b9529b
Self-Hosted vs Managed PostgreSQL

Облачный провайдер Cloud.ru приглашает на вебинар 9 декабря в 11:00 по мск, где честно сравнят два подхода в управлении базами данных и разберут, с какими сложностями можно столкнуться при переходе на Managed PostgreSQL и как их избежать.

В программе:
😶🌫 в чем ключевые отличия в эксплуатации Self-Hosted и Managed PostgreSQL

😶🌫 какие задачи полностью автоматизирует облачный провайдер, а что остается под вашим контролем даже в managed-сервисе

😶🌫 как быстро развернуть отказоустойчивый кластер Managed PostgreSQL в Cloud․ru и подключить к нему тестовое приложение


А в практической части будут создавать кластер с нуля с демонстрацией всех этапов настройки и подключения.

Зарегистрироваться
Battle for Resources or the SSA Path to Kubernetes Diplomacy

https://hackernoon.com/battle-for-resources-or-the-ssa-path-to-kubernetes-diplomacy
Monitoring Kubernetes Cluster with Prometheus and Grafana using ArgoCD

https://jackjapar.com/monitoring-kubernetes-cluster-with-prometheus-and-grafana-using-argocd
Cluster API + Talos + Proxmox = ❤️

https://a-cup-of.coffee/blog/talos-capi-proxmox
webdav

A simple and standalone WebDAV server.


https://github.com/hacdias/webdav
Высокая нагрузка перестаёт быть проблемой, когда её можно прогнозировать, контролировать и распределять.

Kubernetes создан для этого, но большинство команд используют лишь малую часть его механизмов.

📌17 декабря в 20:00 МСК на открытом уроке «Инструменты и механизмы Kubernetes для обеспечения высокой нагрузки» в рамках курса «Инфраструктурная платформа на основе Kubernetes» мы разберём:

как встроенные возможности K8s обеспечивают стабильность: autoscaling, probes, requests/limits, affinity, Service, Ingress и механизмы балансировки.
вы увидите реальные практики DevOps-команд: как Kubernetes масштабирует сервисы под пиковые запросы,
управляет ресурсами и предотвращает деградацию производительности.
урок позволит понять, какие настройки делают систему эластичной и прогнозируемой.

Зарегистрируйтесь на открытый урок и получите скидку на актуальное обучение: https://vk.cc/cS1wHt

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxeqmVb
Please open Telegram to view this post
VIEW IN TELEGRAM
Failure is inevitable: Learning from a large outage, and building for reliability in depth at Datadog

https://www.datadoghq.com/blog/engineering/rethinking-reliability
Why we're leaving serverless

Every millisecond matters when you're in the critical path of API authentication. After two years of fighting serverless limitations, we rebuilt our entire API stack and slashed the end-to-end latency.


https://www.unkey.com/blog/serverless-exit
Наконец-то ребята из контейнерной платформы “Штурвал” прислушались к сообществу и сделали альтернативу бесячей форме на сайте для получения community-лицензии. Теперь ее можно получить через бота в телеге: @l4_helper_bot.
Может ещё и Open-Source-версию сделают?
Advancing Our Chef Infrastructure: Safety Without Disruption

Building a safer, more reliable path forward for Chef at Slack


https://slack.engineering/advancing-our-chef-infrastructure-safety-without-disruption
🔥 Открытый урок «Terraform: как работать с ним через GitLab».

🗓 11 декабря в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «CI/CD на основе GitLab».

На вебинаре разберем:
Как использовать Terraform для управления инфраструктурой как кодом (IaC).
Настройку CI/CD-процессов в GitLab для работы с Terraform.
Лучшие практики разграничения окружения и управления конфигурацией.

Кому будет полезно:
- DevOps-лидам, управляющим инфраструктурой и CI/CD.
- Архитекторам, разрабатывающим стратегии инфраструктурной автоматизации.
- Инженерам, внедряющим Terraform в рабочие процессы.

Что вы получите:
- Понимание, Terraform-модули для работы через GitLab.
- Понимание, настройка и оптимизация пайплайнов CI/CD .
- Практические советы по безопасному и эффективному управлению инфраструктурой .

🔗 Ссылка на регистрацию: https://vk.cc/cS7o1o

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqw3RDeh
Please open Telegram to view this post
VIEW IN TELEGRAM
Container CPU Requests & Limits Explained with GOMAXPROCS Tuning

In this article, we’re going to cover a few things that might’ve puzzled you if you’ve been running your applications, especially Go applications, in Kubernetes:

- How Kubernetes and the Linux kernel handle CPU stuff for containers
- What the Go runtime does with CPU, and whether you should bother setting GOMAXPROCS
- Which metrics are actually worth paying attention to

Maybe you’ve seen some of these metrics before while keeping an eye on your applications, but didn’t fully know what to make of them. This should help clear that up.


https://victoriametrics.com/blog/kubernetes-cpu-go-gomaxprocs
4