DevOps&SRE Library
17.9K subscribers
469 photos
4 videos
2 files
4.8K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
SQL is No Excuse to Avoid DevOps

Звучит дико, но некоторые команды до сих пор не используют миграции схемы бд из кода. Отличная статья на эту тему от Томаса Лимочелли.

https://queue.acm.org/detail.cfm?id=3300018
Stack Overflow: How We Do Monitoring - 2018 Edition

Как устроен мониторинг в StackOverflow.

https://nickcraver.com/blog/2018/11/29/stack-overflow-how-we-do-monitoring
Designing resilient systems: Circuit Breakers or Retries?

Серия из 2х постов про важные концепции для построения распределенных отказоустойчивых систем - circuit breakers и retries.

https://engineering.grab.com/designing-resilient-systems-part-1
https://engineering.grab.com/designing-resilient-systems-part-2
Какие метрики и как стоит замониторить в Redis.

How to monitor Redis performance metrics:
https://www.datadoghq.com/blog/how-to-monitor-redis-performance-metrics

How to collect Redis metrics:
https://www.datadoghq.com/blog/how-to-collect-redis-metrics

Monitor Redis using Datadog:
https://www.datadoghq.com/blog/monitor-redis-using-datadog
Какие метрики и как стоит замониторить в Nginx.

How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx

How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics

How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
Automating Datacenter Operations at Dropbox

Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.

https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
PagerDuty Incident Response

PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.

https://response.pagerduty.com
nginx mirroring tips and tricks

Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module

https://alex.dzyoba.com/blog/nginx-mirror
Попытался немного консолидировать список полезных материалов для подготовки к интервью на позицию SRE. Список сделал на основе своего небольшого опыта прохождения интервью на такую позицию в разные компании (GitLab, Google, Revolut, etc).

Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.

https://github.com/mxssl/sre-interview-prep-guide
Grokking the System Design Interview

Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.

Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579

Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580

Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581

Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583

Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
Serverless Failure Stories

Коллекция историй про фейлы связанные с serverless инфраструктурой

https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified

Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.


https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Какая по вашему мнению самая лучшая CI/CD платформа?
Anonymous Poll
2%
2%
50%
33%
2%
2%
DevOps&SRE Library pinned «Какая по вашему мнению самая лучшая CI/CD платформа?»
Architecting for Reliability

Серия постов про то, какими способами можно улучшить надежность работы приложений.

Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089

Part 2  -  Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2

Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Dapp / Werf

Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.

https://github.com/flant/werf
Awesome Prometheus alerts

Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.

https://awesome-prometheus-alerts.grep.to
Site Reliability Engineering | Технострим

Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE

https://youtu.be/4VW4FGYHMPs
Prometheus Alert Testing utility

PAT позволяет писать юнит тесты для алертов prometheus.

Этот подход описан в SRE workbook:
At Google, we test our monitoring and alerting using a domain-specific language that allows us to create synthetic time series. We then write assertions based upon the values in a derived time series, or the firing status and label presence of specific alerts.

https://github.com/kevinjqiu/pat
Коллеги подсказывают, что в нативный promtool от разрабов прометеуса тоже возможность писать юнит тесты для алертов завезли:

https://www.robustperception.io/unit-testing-rules-with-prometheus