DevOps&SRE Library
17.9K subscribers
469 photos
4 videos
2 files
4.8K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
15 Useful Helm Charts Tools

15 полезных утилит для работы с Helm.

https://caylent.com/15-useful-helm-charts-tools
Terraform CLI Cheat Sheet

Шпаргалка по работе с cli терраформа

https://dzone.com/articles/terraform-cli-cheat-sheet
Linux ip Command Examples

Полезные примеры использования команды ip

https://www.cyberciti.biz/faq/linux-ip-command-examples-usage-syntax
Интересная альтернатива всем известного gitflow - trunk based development.

Сайт по теме:
https://trunkbaseddevelopment.com

Краткое описание:
https://www.toptal.com/software/trunk-based-development-git-flow
Why SRE Documents Matter

Отличная статья про документы, которые необходимы для работы SRE команды.

https://cacm.acm.org/magazines/2018/12/232897-why-sre-documents-matter/fulltext
Неплохая коллекция постмортемов

https://github.com/danluu/post-mortems
Site Reliability Engineering: Measuring and Managing Reliability

Интересный курс на курсере про основы SRE

https://www.coursera.org/learn/site-reliability-engineering-slos
Courier: Dropbox migration to gRPC

Как Dropbox применяет gRPC

https://blogs.dropbox.com/tech/2019/01/courier-dropbox-migration-to-grpc
SQL is No Excuse to Avoid DevOps

Звучит дико, но некоторые команды до сих пор не используют миграции схемы бд из кода. Отличная статья на эту тему от Томаса Лимочелли.

https://queue.acm.org/detail.cfm?id=3300018
Stack Overflow: How We Do Monitoring - 2018 Edition

Как устроен мониторинг в StackOverflow.

https://nickcraver.com/blog/2018/11/29/stack-overflow-how-we-do-monitoring
Designing resilient systems: Circuit Breakers or Retries?

Серия из 2х постов про важные концепции для построения распределенных отказоустойчивых систем - circuit breakers и retries.

https://engineering.grab.com/designing-resilient-systems-part-1
https://engineering.grab.com/designing-resilient-systems-part-2
Какие метрики и как стоит замониторить в Redis.

How to monitor Redis performance metrics:
https://www.datadoghq.com/blog/how-to-monitor-redis-performance-metrics

How to collect Redis metrics:
https://www.datadoghq.com/blog/how-to-collect-redis-metrics

Monitor Redis using Datadog:
https://www.datadoghq.com/blog/monitor-redis-using-datadog
Какие метрики и как стоит замониторить в Nginx.

How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx

How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics

How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
Automating Datacenter Operations at Dropbox

Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.

https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
PagerDuty Incident Response

PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.

https://response.pagerduty.com
nginx mirroring tips and tricks

Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module

https://alex.dzyoba.com/blog/nginx-mirror
Попытался немного консолидировать список полезных материалов для подготовки к интервью на позицию SRE. Список сделал на основе своего небольшого опыта прохождения интервью на такую позицию в разные компании (GitLab, Google, Revolut, etc).

Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.

https://github.com/mxssl/sre-interview-prep-guide
Grokking the System Design Interview

Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.

Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579

Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580

Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581

Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583

Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
Serverless Failure Stories

Коллекция историй про фейлы связанные с serverless инфраструктурой

https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified

Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.


https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1