DevOps&SRE Library

Serverless Failure Stories

Коллекция историй про фейлы связанные с serverless инфраструктурой

https://github.com/cristim/serverless-failure-stories

2.39K viewsedited 23:16

DevOps&SRE Library

The cloud skills shortage and the unemployed army of the certified

Провокационный пост:

Why it’s so hard to find roles in cloud technology, while jobs go unfilled.

https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1

2.92K viewsedited 00:06

DevOps&SRE Library

Какая по вашему мнению самая лучшая CI/CD платформа?

Anonymous Poll

GoCD - https://www.gocd.org

Drone - https://drone.io

Concourse CI - https://concourse-ci.org

50%

GitLab CI - https://about.gitlab.com

33%

Jenkins - https://jenkins.io

TeamCity - https://www.jetbrains.com/teamcity

CircleCI - https://circleci.com

Travis CI - https://travis-ci.org

Bamboo - https://www.atlassian.com/software/bamboo

VSTS - https://visualstudio.microsoft.com/team-services

1.26K voters3.88K views15:52

DevOps&SRE Library

DevOps&SRE Library pinned «Какая по вашему мнению самая лучшая CI/CD платформа?»

15:53

DevOps&SRE Library

Architecting for Reliability

Серия постов про то, какими способами можно улучшить надежность работы приложений.

Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089

Part 2 - Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2

Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e

4.96K views17:54

DevOps&SRE Library

Dapp / Werf

Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.

https://github.com/flant/werf

3.73K views01:11

DevOps&SRE Library

Awesome Prometheus alerts

Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.

https://awesome-prometheus-alerts.grep.to

3.01K views15:52

DevOps&SRE Library

Site Reliability Engineering | Технострим

Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE

https://youtu.be/4VW4FGYHMPs

4.2K views03:46

DevOps&SRE Library

Prometheus Alert Testing utility

PAT позволяет писать юнит тесты для алертов prometheus.

Этот подход описан в SRE workbook:

At Google, we test our monitoring and alerting using a domain-specific language that allows us to create synthetic time series. We then write assertions based upon the values in a derived time series, or the firing status and label presence of specific alerts.

https://github.com/kevinjqiu/pat

4.13K viewsedited 08:08

DevOps&SRE Library

Коллеги подсказывают, что в нативный promtool от разрабов прометеуса тоже возможность писать юнит тесты для алертов завезли:

https://www.robustperception.io/unit-testing-rules-with-prometheus

3.83K views10:56

DevOps&SRE Library

Software Networking and Interfaces on Linux

2 отличных видео на тему базового нетворкинга в Linux

Part 1:
https://youtu.be/EnAZB8GI97c

Part 2:
https://youtu.be/5WNEpE1vLvc

3.53K views13:32

DevOps&SRE Library

Terraform Provider for Yandex Cloud

Яндекс запилил терраформ провайдера для своего облака.

https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart

2.98K views19:28

DevOps&SRE Library

NGINX Configuration Generator Tool

Генератор конфига для nginx.

https://nginxconfig.io

2.55K views12:10

DevOps&SRE Library

Why are we getting Streams in Redis?

Пост про основы работы pub/sub и streams в Redis.

https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5

2.72K viewsedited 12:15

DevOps&SRE Library

Nginx tuning tips: TLS/SSL HTTPS – Improved TTFB/latency

Отличные советы по тюнингу работы tls в nginx.

https://haydenjames.io/nginx-tuning-tips-tls-ssl-https-ttfb-latency

2.62K views12:18

DevOps&SRE Library

What Does a Site Reliability Engineer Do?

Краткий пост про то, что же на самом деле всетаки делают SRE.

https://blog.scalyr.com/2019/01/site-reliability-engineer

3.45K views12:19

DevOps&SRE Library

Backblaze Hard Drive Stats for 2018

Статистика по надежности HDD

https://www.backblaze.com/blog/hard-drive-stats-for-2018

3.29K views12:43

DevOps&SRE Library

Full-system dynamic tracing on Linux using eBPF and bpftrace

Как можно потрейсить систему с помощью bpftrace.

https://www.joyfulbikeshedding.com/blog/2019-01-31-full-system-dynamic-tracing-on-linux-using-ebpf-and-bpftrace.html

3.42K viewsedited 13:09

DevOps&SRE Library

PagerDuty Incident Response PagerDuty выложили в открытый доступ свою внутреннюю документацию по работе с инцидентами. https://response.pagerduty.com

Postmortems

PagerDuty продолжают выкладывать внутреннюю доку, на этот раз про постмортемы.

https://postmortems.pagerduty.com

5.61K views16:31

DevOps&SRE Library

How many AWS accounts do I need?

Сколько нужно аккаунтов для безопасной работы с AWS.

https://nodramadevops.com/2019/01/how-many-aws-accounts-do-i-need/

2.54K views16:32

About

Blog

Apps

Platform