DevOps&SRE Library
17.9K subscribers
469 photos
4 videos
2 files
4.8K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
smsc-balance-exporter

Prometheus exporter для баланса СМС-центра - https://smsc.ru

Отличная штука, ставьте лайки на гитхабе - автору будет приятно и он будет еще писать полезные экспортеры :)

https://github.com/xxxcoltxxx/smsc-balance-exporter
First look at DigitalOcean's Kubernetes Engine

Обзор managed kubernetes от DO.

https://blog.alexellis.io/digitalocean-kubernetes-engine
История про сдачу экзамена на сертификат AWS Certified Solution Architect

https://robertleggett.wordpress.com/2018/12/02/how-i-passed-the-aws-certified-solution-architect-associate-exam
The path to production: how and where to segregate test environments

Отличный пост в блоге CircleCI про то, как можно разделять свои тестовые среды

https://circleci.com/blog/path-to-production-how-and-where-to-segregate-test-environments
Chick-Fil-A: Milking the Most out of 1000's of K8s Clusters

Интересная презентация от Chick-Fill-A - это те самые ребята, которые в каждый свой фастфуд ресторан (специализируются на сендвичах с курицей) запихали небольшой Kubernetes кластер на Intel NUC.

https://youtu.be/8edDcy3oeUo

Еще по теме:
https://medium.com/@cfatechblog/edge-computing-at-chick-fil-a-7d67242675e2
https://medium.com/@cfatechblog/bare-metal-k8s-clustering-at-chick-fil-a-scale-7b0607bd3541
Краткое описание как работает RabbitMQ и его ключевые метрики, которые стоит замониторить.

Part 1: Key metrics for RabbitMQ monitoring
https://www.datadoghq.com/blog/rabbitmq-monitoring

Part 2: Collecting metrics with RabbitMQ monitoring tools
https://www.datadoghq.com/blog/rabbitmq-monitoring-tools

Part 3: Monitoring RabbitMQ performance with Datadog
https://www.datadoghq.com/blog/monitoring-rabbitmq-performance-with-datadog
15 Useful Helm Charts Tools

15 полезных утилит для работы с Helm.

https://caylent.com/15-useful-helm-charts-tools
Terraform CLI Cheat Sheet

Шпаргалка по работе с cli терраформа

https://dzone.com/articles/terraform-cli-cheat-sheet
Linux ip Command Examples

Полезные примеры использования команды ip

https://www.cyberciti.biz/faq/linux-ip-command-examples-usage-syntax
Интересная альтернатива всем известного gitflow - trunk based development.

Сайт по теме:
https://trunkbaseddevelopment.com

Краткое описание:
https://www.toptal.com/software/trunk-based-development-git-flow
Why SRE Documents Matter

Отличная статья про документы, которые необходимы для работы SRE команды.

https://cacm.acm.org/magazines/2018/12/232897-why-sre-documents-matter/fulltext
Неплохая коллекция постмортемов

https://github.com/danluu/post-mortems
Site Reliability Engineering: Measuring and Managing Reliability

Интересный курс на курсере про основы SRE

https://www.coursera.org/learn/site-reliability-engineering-slos
Courier: Dropbox migration to gRPC

Как Dropbox применяет gRPC

https://blogs.dropbox.com/tech/2019/01/courier-dropbox-migration-to-grpc
SQL is No Excuse to Avoid DevOps

Звучит дико, но некоторые команды до сих пор не используют миграции схемы бд из кода. Отличная статья на эту тему от Томаса Лимочелли.

https://queue.acm.org/detail.cfm?id=3300018
Stack Overflow: How We Do Monitoring - 2018 Edition

Как устроен мониторинг в StackOverflow.

https://nickcraver.com/blog/2018/11/29/stack-overflow-how-we-do-monitoring
Designing resilient systems: Circuit Breakers or Retries?

Серия из 2х постов про важные концепции для построения распределенных отказоустойчивых систем - circuit breakers и retries.

https://engineering.grab.com/designing-resilient-systems-part-1
https://engineering.grab.com/designing-resilient-systems-part-2
Какие метрики и как стоит замониторить в Redis.

How to monitor Redis performance metrics:
https://www.datadoghq.com/blog/how-to-monitor-redis-performance-metrics

How to collect Redis metrics:
https://www.datadoghq.com/blog/how-to-collect-redis-metrics

Monitor Redis using Datadog:
https://www.datadoghq.com/blog/monitor-redis-using-datadog
Какие метрики и как стоит замониторить в Nginx.

How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx

How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics

How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
Automating Datacenter Operations at Dropbox

Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.

https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
PagerDuty Incident Response

PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.

https://response.pagerduty.com