Why SRE Documents Matter
Отличная статья про документы, которые необходимы для работы SRE команды.
https://cacm.acm.org/magazines/2018/12/232897-why-sre-documents-matter/fulltext
Отличная статья про документы, которые необходимы для работы SRE команды.
https://cacm.acm.org/magazines/2018/12/232897-why-sre-documents-matter/fulltext
Site Reliability Engineering: Measuring and Managing Reliability
Интересный курс на курсере про основы SRE
https://www.coursera.org/learn/site-reliability-engineering-slos
Интересный курс на курсере про основы SRE
https://www.coursera.org/learn/site-reliability-engineering-slos
Courier: Dropbox migration to gRPC
Как Dropbox применяет gRPC
https://blogs.dropbox.com/tech/2019/01/courier-dropbox-migration-to-grpc
Как Dropbox применяет gRPC
https://blogs.dropbox.com/tech/2019/01/courier-dropbox-migration-to-grpc
SQL is No Excuse to Avoid DevOps
Звучит дико, но некоторые команды до сих пор не используют миграции схемы бд из кода. Отличная статья на эту тему от Томаса Лимочелли.
https://queue.acm.org/detail.cfm?id=3300018
Звучит дико, но некоторые команды до сих пор не используют миграции схемы бд из кода. Отличная статья на эту тему от Томаса Лимочелли.
https://queue.acm.org/detail.cfm?id=3300018
Stack Overflow: How We Do Monitoring - 2018 Edition
Как устроен мониторинг в StackOverflow.
https://nickcraver.com/blog/2018/11/29/stack-overflow-how-we-do-monitoring
Как устроен мониторинг в StackOverflow.
https://nickcraver.com/blog/2018/11/29/stack-overflow-how-we-do-monitoring
Designing resilient systems: Circuit Breakers or Retries?
Серия из 2х постов про важные концепции для построения распределенных отказоустойчивых систем - circuit breakers и retries.
https://engineering.grab.com/designing-resilient-systems-part-1
https://engineering.grab.com/designing-resilient-systems-part-2
Серия из 2х постов про важные концепции для построения распределенных отказоустойчивых систем - circuit breakers и retries.
https://engineering.grab.com/designing-resilient-systems-part-1
https://engineering.grab.com/designing-resilient-systems-part-2
Какие метрики и как стоит замониторить в Redis.
How to monitor Redis performance metrics:
https://www.datadoghq.com/blog/how-to-monitor-redis-performance-metrics
How to collect Redis metrics:
https://www.datadoghq.com/blog/how-to-collect-redis-metrics
Monitor Redis using Datadog:
https://www.datadoghq.com/blog/monitor-redis-using-datadog
How to monitor Redis performance metrics:
https://www.datadoghq.com/blog/how-to-monitor-redis-performance-metrics
How to collect Redis metrics:
https://www.datadoghq.com/blog/how-to-collect-redis-metrics
Monitor Redis using Datadog:
https://www.datadoghq.com/blog/monitor-redis-using-datadog
Какие метрики и как стоит замониторить в Nginx.
How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx
How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics
How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
How to monitor NGINX:
https://www.datadoghq.com/blog/how-to-monitor-nginx
How to collect NGINX metrics:
https://www.datadoghq.com/blog/how-to-collect-nginx-metrics
How to monitor NGINX with Datadog:
https://www.datadoghq.com/blog/how-to-monitor-nginx-with-datadog
Automating Datacenter Operations at Dropbox
Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.
https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
Отличный пост в техническом блоге Dropbox про то, как они делают провижен свичей и серверов в своих ДЦ.
https://blogs.dropbox.com/tech/2019/01/automating-datacenter-operations-at-dropbox
PagerDuty Incident Response
PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.
https://response.pagerduty.com
PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами.
https://response.pagerduty.com
nginx mirroring tips and tricks
Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module
https://alex.dzyoba.com/blog/nginx-mirror
Пост в блоге Александра Дзьоба про новую фичу в nginx - mirror module
https://alex.dzyoba.com/blog/nginx-mirror
DevOps&SRE Library
Go это отличный язык для автоматизации, на который следует обратить внимание DevOps специалистам и SRE. Since February 2015, the SRE (site reliability engineering) team at Stack Overflow has switched from a mixture of Python and Bash to Go. Even though Go…
В продолжении темы Go для DevOps/SRE специалистов 2 интересных поста в блоге GopherSRE про свитчинг с питона на голанг.
Why I moved from Python to Go (Part I):
https://www.gophersre.com/2017/08/05/why-i-moved-from-python-to-go-part-i
Why I moved from Python to Go(Part II):
https://www.gophersre.com/2017/08/10/why-i-moved-from-python-to-go-part-ii
Why I moved from Python to Go (Part I):
https://www.gophersre.com/2017/08/05/why-i-moved-from-python-to-go-part-i
Why I moved from Python to Go(Part II):
https://www.gophersre.com/2017/08/10/why-i-moved-from-python-to-go-part-ii
Попытался немного консолидировать список полезных материалов для подготовки к интервью на позицию SRE. Список сделал на основе своего небольшого опыта прохождения интервью на такую позицию в разные компании (GitLab, Google, Revolut, etc).
Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.
https://github.com/mxssl/sre-interview-prep-guide
Очень приветствуется обратная связь. Пишите в личку свои замечания и предложения - @mxssl, ставьте звездочки на гитхабе если список показался вам полезным.
https://github.com/mxssl/sre-interview-prep-guide
Grokking the System Design Interview
Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.
Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579
Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580
Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581
Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583
Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
Самый крутой курс для подготовки к System Design Interview. Очень кратко и емко рассмотрены основные кейсы, термины и понятия, которые необходимо знать для проектирования систем.
Part 1:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-1/579
Part 2:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-2/580
Part 3:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-3/581
Part 4:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-4/583
Part 5:
https://coursehunter-club.net/t/educative-io-design-gurus-grokking-the-system-design-interview-part-5/584
Serverless Failure Stories
Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified
Провокационный пост:
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Какая по вашему мнению самая лучшая CI/CD платформа?
Anonymous Poll
2%
GoCD - https://www.gocd.org
2%
Drone - https://drone.io
2%
Concourse CI - https://concourse-ci.org
50%
GitLab CI - https://about.gitlab.com
33%
Jenkins - https://jenkins.io
6%
TeamCity - https://www.jetbrains.com/teamcity
2%
CircleCI - https://circleci.com
2%
Travis CI - https://travis-ci.org
1%
Architecting for Reliability
Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Dapp / Werf
Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf
Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf