Serverless Failure Stories
Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
Коллекция историй про фейлы связанные с serverless инфраструктурой
https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified
Провокационный пост:
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.
https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Какая по вашему мнению самая лучшая CI/CD платформа?
Anonymous Poll
2%
GoCD - https://www.gocd.org
2%
Drone - https://drone.io
2%
Concourse CI - https://concourse-ci.org
50%
GitLab CI - https://about.gitlab.com
33%
Jenkins - https://jenkins.io
6%
TeamCity - https://www.jetbrains.com/teamcity
2%
CircleCI - https://circleci.com
2%
Travis CI - https://travis-ci.org
1%
Architecting for Reliability
Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Серия постов про то, какими способами можно улучшить надежность работы приложений.
Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089
Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2
Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Dapp / Werf
Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf
Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.
https://github.com/flant/werf
Awesome Prometheus alerts
Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.
https://awesome-prometheus-alerts.grep.to
Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.
https://awesome-prometheus-alerts.grep.to
Site Reliability Engineering | Технострим
Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE
https://youtu.be/4VW4FGYHMPs
Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE
https://youtu.be/4VW4FGYHMPs
Prometheus Alert Testing utility
PAT позволяет писать юнит тесты для алертов prometheus.
Этот подход описан в SRE workbook:
https://github.com/kevinjqiu/pat
PAT позволяет писать юнит тесты для алертов prometheus.
Этот подход описан в SRE workbook:
At Google, we test our monitoring and alerting using a domain-specific language that allows us to create synthetic time series. We then write assertions based upon the values in a derived time series, or the firing status and label presence of specific alerts.
https://github.com/kevinjqiu/pat
Коллеги подсказывают, что в нативный promtool от разрабов прометеуса тоже возможность писать юнит тесты для алертов завезли:
https://www.robustperception.io/unit-testing-rules-with-prometheus
https://www.robustperception.io/unit-testing-rules-with-prometheus
Software Networking and Interfaces on Linux
2 отличных видео на тему базового нетворкинга в Linux
Part 1:
https://youtu.be/EnAZB8GI97c
Part 2:
https://youtu.be/5WNEpE1vLvc
2 отличных видео на тему базового нетворкинга в Linux
Part 1:
https://youtu.be/EnAZB8GI97c
Part 2:
https://youtu.be/5WNEpE1vLvc
Terraform Provider for Yandex Cloud
Яндекс запилил терраформ провайдера для своего облака.
https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart
Яндекс запилил терраформ провайдера для своего облака.
https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart
Why are we getting Streams in Redis?
Пост про основы работы pub/sub и streams в Redis.
https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5
Пост про основы работы pub/sub и streams в Redis.
https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5
Nginx tuning tips: TLS/SSL HTTPS – Improved TTFB/latency
Отличные советы по тюнингу работы tls в nginx.
https://haydenjames.io/nginx-tuning-tips-tls-ssl-https-ttfb-latency
Отличные советы по тюнингу работы tls в nginx.
https://haydenjames.io/nginx-tuning-tips-tls-ssl-https-ttfb-latency
What Does a Site Reliability Engineer Do?
Краткий пост про то, что же на самом деле всетаки делают SRE.
https://blog.scalyr.com/2019/01/site-reliability-engineer
Краткий пост про то, что же на самом деле всетаки делают SRE.
https://blog.scalyr.com/2019/01/site-reliability-engineer
Backblaze Hard Drive Stats for 2018
Статистика по надежности HDD
https://www.backblaze.com/blog/hard-drive-stats-for-2018
Статистика по надежности HDD
https://www.backblaze.com/blog/hard-drive-stats-for-2018
Full-system dynamic tracing on Linux using eBPF and bpftrace
Как можно потрейсить систему с помощью bpftrace.
https://www.joyfulbikeshedding.com/blog/2019-01-31-full-system-dynamic-tracing-on-linux-using-ebpf-and-bpftrace.html
Как можно потрейсить систему с помощью bpftrace.
https://www.joyfulbikeshedding.com/blog/2019-01-31-full-system-dynamic-tracing-on-linux-using-ebpf-and-bpftrace.html
DevOps&SRE Library
PagerDuty Incident Response PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами. https://response.pagerduty.com
Postmortems
PagerDuty продолжают выкладывать внутреннюю доку, на этот раз про постмортемы.
https://postmortems.pagerduty.com
PagerDuty продолжают выкладывать внутреннюю доку, на этот раз про постмортемы.
https://postmortems.pagerduty.com
How many AWS accounts do I need?
Сколько нужно аккаунтов для безопасной работы с AWS.
https://nodramadevops.com/2019/01/how-many-aws-accounts-do-i-need/
Сколько нужно аккаунтов для безопасной работы с AWS.
https://nodramadevops.com/2019/01/how-many-aws-accounts-do-i-need/