DevOps&SRE Library
18.3K subscribers
457 photos
4 videos
2 files
4.94K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
From Signals to Reliability: SLOs, Runbooks and Post-Mortems

https://fatihkoc.net/posts/sre-observability-slo-runbooks
SRE math every engineer should know: a practical guide

https://one2n.io/blog/sre-math-every-engineer-should-know-a-practical-guide
VK Cloud проведет вебинар по новым продуктам в маркетплейсе

26 ноября в 11:00 эксперты обсудят особенности работы с РЕД База Данных. Какие преимущества есть у СУБД, как правильно выполнить настройки, и какие особенности развертывания есть при работе с маркетплейсом. Поговорим про работу поддержки и гарантии в рамках SLA.

Ключевые темы обсуждений

Разработка с помощью ИИ. Генерация приложения маркетплейса на Go с использованием СУБД РЕД База Данных.
Интеграция с прикладными системами. Как легко и быстро подключить РЕД Базу Данных к вашим приложениям, работающим в VK Cloud.
Кейсы и выгоды. Примеры из практики, демонстрирующие повышение производительности и снижение TCO (совокупной стоимости владения).

Вебинар посвящен практической стороне использования СУБД. После демонстрации планируется блок ответов на вопросы.

Спикеры

🔷 Станислав Погоржельский, технологический евангелист VK Cloud

🔷 Алексей Бехтин, аналитик отдела разработки СУБД, РЕД Софт

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Trixter: A Chaos Proxy for Simulating Network Faults

Trixter is a high-performance chaos proxy designed for injecting network faults at the TCP layer. In essence, it’s a TCP proxy that sits between a client and server, forwarding traffic but intentionally sabotaging it according to your specifications.


https://biriukov.dev/posts/trixter-chaos-proxy

https://github.com/brk0v/trixter
Your Brain on Incidents

My on-call experience started by accident in the mid-2000s. It was 5pm on the Friday at the end of my first week of employment as a software engineer at a financial services company in London. I was in the process of closing down my IDE for the weekend when my boss sauntered up to my desk, grinning awkwardly. He was carrying an IBM Thinkpad, a Blackberry, and the unmistakable burden of a man who needed to call in a favour.


https://uptimelabs.io/your-brain-on-incidents
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 В микросервисной архитектуре всё держится на надёжных очередях задач. Без них — потери данных, дублирование событий и неожиданные сбои. А значит, пора разобраться, как это устроено в реальных продакшн-системах.

💎 На открытом уроке вы увидите, как с помощью Apache Kafka построить устойчивую систему обмена задачами между микросервисами. Развернём Kafka в Docker, создадим продюсера и консюмера, добавим сбой и проверим, как система гарантированно восстанавливает доставку.

📚 Вы поймёте, чем Kafka превосходит классические очереди (RabbitMQ, ActiveMQ), научитесь подключать её к микросервисам и отлаживать обмен задачами без потерь. После вебинара вы сможете применять эти знания в проектах любого масштаба.

Урок пройдёт 20 ноября в 18:00 (МСК) в преддверие старта курса «Apache Kafka». Зарегистрируйтесь и прокачайте архитектурное мышление! 🔗 https://vk.cc/cRs7A3

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2Vtzqv6bu8u
Kubernetes Networking Tutorial: A Guide for Developers

https://www.freecodecamp.org/news/kubernetes-networking-tutorial-for-developers
KubeElasti

Kubernetes-native scale-to-zero with zero traffic loss, no code changes, and direct integration with kubernetes resources


https://github.com/truefoundry/KubeElasti
opentelemetry-operator

The OpenTelemetry Operator is an implementation of a Kubernetes Operator.


https://github.com/open-telemetry/opentelemetry-operator
zarf

Zarf eliminates the complexity of airgap software delivery for Kubernetes clusters and cloud-native workloads using a declarative packaging strategy to support DevSecOps in offline and semi-connected environments.


https://github.com/zarf-dev/zarf
sriov-network-device-plugin

The SR-IOV Network Device Plugin is Kubernetes device plugin for discovering and advertising networking resources in the form of:

- SR-IOV virtual functions (VFs)
- PCI physical functions (PFs)
- Auxiliary network devices, in particular Subfunctions (SFs)

which are available on a Kubernetes host


https://github.com/k8snetworkplumbingwg/sriov-network-device-plugin
Upgrading PostgreSQL with no data loss and minimal downtime

https://palark.com/blog/postgresql-upgrade-no-data-loss-downtime
push-from-k8s-back-to-docker-registry

"Oops, I accidentally deleted my Docker registry. Can I get my images back?" YES. This tool does exactly that.


https://github.com/tazhate/push-from-k8s-back-to-docker-registry
The $1,000 AWS mistake

A cautionary tale about AWS VPC networking, NAT Gateways, and how a missing VPC Endpoint turned our S3 data transfers into an expensive lesson.


https://www.geocod.io/code-and-coordinates/2025-11-18-the-1000-aws-mistake
5 шагов, как выдержать нагрузку в пиковый сезон и не переплатить за инфраструктуру

1️⃣Определите, какую максимальную нагрузку может выдержать ваша инфраструктура и какой рост трафика ожидается во время распродажи.

2️⃣Оптимизируйте сервис и настройте быстрое восстановление из бэкапа.

3️⃣Подготовьте инфраструктуру к масштабированию. В частности, подключите CDN для ускорения загрузки контента.

4️⃣Мониторьте ситуацию во время пиковых нагрузок и следите за корректностью работы всех узлов.

5️⃣После снижения трафика верните систему в штатный режим.

Вы великолепны! А чтобы инфраструктура была еще выгоднее, подключайте СDN от Selectel со скидкой до 50% на дополнительный трафик. Успейте зарегистрироваться и подать заявку до 31 декабря: https://slc.tl/bs9tj

Реклама. АО "Селектел". erid: 2W5zFHM31VS
Postgres Internals Hiding in Plain Sight

Postgres has an awesome amount of data collected in its own internal tables. Postgres hackers know all about this - but software developers and folks working with day to day Postgres tasks often miss out the good stuff.

The Postgres catalog is how Postgres keeps track of itself. Of course, Postgres would do this in a relational database with its own schema. Throughout the years several nice features have been added to the internal tables like psql tools and views that make navigating Postgres’ internal tables even easier.

Today I want to walk through some of the most important Postgres internal data catalog details. What they are, what is in them, and how they might help you understand more about what is happening inside your database.


https://www.crunchydata.com/blog/postgres-internals-hiding-in-plain-sight
Postgres, Kafka and event queues

After stumbling on a pair of interesting blog posts — You Don’t Need Kafka, Just Use Postgres (Considered Harmful) — somewhat in the style of good old “flame wars” (which are increasingly rare these days) in the recent Postgres Weekly, as a response to a previous article — Kafka is fast – I’ll use Postgres — on using Postgres for “Kafkaesque” business, I felt the urge to chip in a bit.

But first off — I’d like to laud the authors of both pieces. They’re well-argued reads with a crazy amount of good tidbits and food for thought. I especially liked that the original one tried to be open and repeatable and actually tested things. Gunnar’s take was maybe a bit too morbid for my taste, of course 🐘

To recap — the main question in the debate was whether Postgres is generally “good enough” to implement a low-to-medium volume event queue or even a pub-sub system. The general sentiment from Hacker News readers at least was that unless scale truly demands Kafka, Postgres is indeed good enough — and many teams plain overestimate their scaling needs and don’t actually need Kafka’s distributed complexity.

Spoiler: there’s obviously no definitive answer as to when one should use a “proper” database for something — and there sure are reasons why we have so many purpose-specific databases: relational, event logs, analytical column stores, key-value, time-series, ledger, graph, hierarchical, document, blob, text search, vector, …

Anyway, below are some thoughts that came to mind — I can’t go too deep on Kafka though, as I’m just not qualified enough.


https://kmoppel.github.io/2025-11-13-postgres-kafka-and-event-queues
🔥 От инженера до эксперта в Observability — начните с вступительного теста! 🚀

Современные системы невозможно контролировать «на ощупь». Хотите понимать, что происходит с инфраструктурой в реальном времени?
Пройдите вступительное тестирование, проверьте уровень и получите скидку на курс «Observability: мониторинг, логирование, трейсинг» от OTUS.

Вы научитесь:
- Строить комплексные системы мониторинга на базе Prometheus, Grafana, ELK и OpenTelemetry
- Настраивать сбор метрик, логов и трейсов в распределённых системах
- Анализировать производительность и быстро находить причины инцидентов
- Проектировать отказоустойчивую observability-инфраструктуру для продакшн-систем

🗓 Старт курса Observability: мониторинг, логирование, трейсинг

Ближайший запуск — 29 декабря, набор в группу завершается.
Формат: онлайн-занятия, работа с реальными кейсами, проект с защитой и персональный фидбек от экспертов.

Чтобы попасть в поток со спецценой, успейте пройти вступительное тестирование до старта. Подробности по скидке уточняйте у менеджера

📌 Сделайте первый шаг сейчас: проверьте свои знания, убедитесь в готовности к обучению и зафиксируйте спеццену на курс.

👉 Пройти вступительное тестирование https://vk.cc/cREJv1

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqvtgcLy