DevOps&SRE Library
17.9K subscribers
468 photos
4 videos
2 files
4.8K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
Serverless Failure Stories

Коллекция историй про фейлы связанные с serverless инфраструктурой

https://github.com/cristim/serverless-failure-stories
The cloud skills shortage and the unemployed army of the certified

Провокационный пост:
Why it’s so hard to find roles in cloud technology, while jobs go unfilled.


https://itnext.io/the-cloud-skills-shortage-and-the-unemployed-army-of-the-certified-bd405784cef1
Какая по вашему мнению самая лучшая CI/CD платформа?
Anonymous Poll
2%
2%
50%
33%
2%
2%
DevOps&SRE Library pinned «Какая по вашему мнению самая лучшая CI/CD платформа?»
Architecting for Reliability

Серия постов про то, какими способами можно улучшить надежность работы приложений.

Part 1 - Concepts:
https://medium.com/becloudy/architecting-for-reliability-part-1-concepts-17028343089

Part 2  -  Resiliency and Availability Design Patterns for the Cloud:
https://medium.com/becloudy/architecting-for-reliability-part-2-resiliency-and-availability-design-patterns-for-the-cloud-cf7aaaed0df2

Part 3 - High Availability Architectures:
https://medium.com/becloudy/architecting-for-reliability-part-3-high-availability-architectures-8dfd0f87d25e
Dapp / Werf

Ребята из Flant переписали Dapp c Ruby на Go и назвали его странным словом Werf. Определенно стоит обратить внимание - ребята настроены серьезно и проделали большую работу.

https://github.com/flant/werf
Awesome Prometheus alerts

Список готовых алертов для прометеуса. Он достаточно неплохой, но многие значения имеет смысл подгонять под свою инфру и свои нужды.

https://awesome-prometheus-alerts.grep.to
Site Reliability Engineering | Технострим

Неплохая лекция из курса «Проектирование высоконагруженных систем» от Mail.ru Group про SRE

https://youtu.be/4VW4FGYHMPs
Prometheus Alert Testing utility

PAT позволяет писать юнит тесты для алертов prometheus.

Этот подход описан в SRE workbook:
At Google, we test our monitoring and alerting using a domain-specific language that allows us to create synthetic time series. We then write assertions based upon the values in a derived time series, or the firing status and label presence of specific alerts.

https://github.com/kevinjqiu/pat
Коллеги подсказывают, что в нативный promtool от разрабов прометеуса тоже возможность писать юнит тесты для алертов завезли:

https://www.robustperception.io/unit-testing-rules-with-prometheus
Software Networking and Interfaces on Linux

2 отличных видео на тему базового нетворкинга в Linux

Part 1:
https://youtu.be/EnAZB8GI97c

Part 2:
https://youtu.be/5WNEpE1vLvc
Terraform Provider for Yandex Cloud

Яндекс запилил терраформ провайдера для своего облака.

https://cloud.yandex.ru/docs/solutions/infrastructure-management/terraform-quickstart
NGINX Configuration Generator Tool

Генератор конфига для nginx.

https://nginxconfig.io
Why are we getting Streams in Redis?

Пост про основы работы pub/sub и streams в Redis.

https://blog.logrocket.com/why-are-we-getting-streams-in-redis-8c36498aaac5
Nginx tuning tips: TLS/SSL HTTPS – Improved TTFB/latency

Отличные советы по тюнингу работы tls в nginx.

https://haydenjames.io/nginx-tuning-tips-tls-ssl-https-ttfb-latency
What Does a Site Reliability Engineer Do?

Краткий пост про то, что же на самом деле всетаки делают SRE.

https://blog.scalyr.com/2019/01/site-reliability-engineer
Backblaze Hard Drive Stats for 2018

Статистика по надежности HDD

https://www.backblaze.com/blog/hard-drive-stats-for-2018
Full-system dynamic tracing on Linux using eBPF and bpftrace

Как можно потрейсить систему с помощью bpftrace.

https://www.joyfulbikeshedding.com/blog/2019-01-31-full-system-dynamic-tracing-on-linux-using-ebpf-and-bpftrace.html
How many AWS accounts do I need?

Сколько нужно аккаунтов для безопасной работы с AWS.

https://nodramadevops.com/2019/01/how-many-aws-accounts-do-i-need/