Какие метрики и как стоит замониторить в Nginx.
How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx
How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics
How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
  How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx
How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics
How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
Automating Datacenter Operations at Dropbox
Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.
https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
  Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.
https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
PagerDuty Incident Response
PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.
https://response.pagerduty.com
  PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.
https://response.pagerduty.com
nginx mirroring tips and tricks
Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module
https://alex.dzyoba.com/blog/nginx-mirror
  Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module
https://alex.dzyoba.com/blog/nginx-mirror
  DevOps&SRE Library
Go это отличный язык для автоматизации, на который следует обратить внимание DevOps специалистам и SRE.  Since February 2015, the SRE (site reliability engineering) team at Stack Overflow has switched from a mixture of Python and Bash to Go. Even though Go…
В продолжении темы Go для DevOps/SRE специалистов 2 интересных поста в блоге GopherSRE про свитчинг с питона на голанг.
Why I moved from Python to Go (Part I):
https://www.gophersre.com/2017/08/05/why-i-moved-from-python-to-go-part-i
Why I moved from Python to Go(Part II):
https://www.gophersre.com/2017/08/10/why-i-moved-from-python-to-go-part-ii
  Why I moved from Python to Go (Part I):
https://www.gophersre.com/2017/08/05/why-i-moved-from-python-to-go-part-i
Why I moved from Python to Go(Part II):
https://www.gophersre.com/2017/08/10/why-i-moved-from-python-to-go-part-ii
Попытался немного консолидировать список полезных материалов для подготовки к интервью на позицию SRE. Список сделал на основе своего небольшого опыта прохождения интервью на такую позицию в разные компании (GitLab, Google, Revolut, etc).
Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.
https://github.com/mxssl/sre-interview-prep-guide
  Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.
https://github.com/mxssl/sre-interview-prep-guide
Grokking the System Design Interview
Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.
Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579
Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580
Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581
Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583
Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
  Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.
Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579
Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580
Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581
Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583
Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
Serverless Failure Stories
Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
  Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified
Провокационный пост:
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
  Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Какая по вашему мнению самая лучшая CI/CD платформа?
  Anonymous Poll
    2%
    GoCD - https://www.gocd.org
      
    2%
    Drone - https://drone.io
      
    2%
    Concourse CI - https://concourse-ci.org
      
    50%
    GitLab CI - https://about.gitlab.com
      
    33%
    Jenkins - https://jenkins.io
      
    6%
    TeamCity - https://www.jetbrains.com/teamcity
      
    2%
    CircleCI - https://circleci.com
      
    2%
    Travis CI - https://travis-ci.org
      
    1%
    
  Architecting for Reliability
Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
  Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Dapp / Werf
Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf
  Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf
Awesome Prometheus alerts
Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.
https://awesome-prometheus-alerts.grep.to
  Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.
https://awesome-prometheus-alerts.grep.to
Site Reliability Engineering | Технострим
Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE
https://youtu.be/4VW4FGYHMPs
  Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE
https://youtu.be/4VW4FGYHMPs
Prometheus Alert Testing utility
PAT позволяет писать юнит тесты для алертов prometheus.
Этот подход описан в SRE workbook:
https://github.com/kevinjqiu/pat
  PAT позволяет писать юнит тесты для алертов prometheus.
Этот подход описан в SRE workbook:
At Google, we test our monitoring and alerting using a domain-specific language that allows us to create synthetic time series. We then write assertions based upon the values in a derived time series, or the firing status and label presence of specific alerts.https://github.com/kevinjqiu/pat
Коллеги подсказывают, что в нативный promtool от разрабов прометеуса тоже возможность писать юнит тесты для алертов завезли:
https://www.robustperception.io/unit-testing-rules-with-prometheus
  https://www.robustperception.io/unit-testing-rules-with-prometheus
Software Networking and Interfaces on Linux
2 отличных видео на тему базового нетворкинга в Linux
Part 1:
https://youtu.be/EnAZB8GI97c
Part 2:
https://youtu.be/5WNEpE1vLvc
  2 отличных видео на тему базового нетворкинга в Linux
Part 1:
https://youtu.be/EnAZB8GI97c
Part 2:
https://youtu.be/5WNEpE1vLvc
Terraform Provider for Yandex Cloud
Яндекс запилил терраформ провайдера для своего облака.
https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart
  Яндекс запилил терраформ провайдера для своего облака.
https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart
Why are we getting Streams in Redis?
Пост про основы работы pub/sub и streams в Redis.
https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5
  Пост про основы работы pub/sub и streams в Redis.
https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5