Performance matters!

Memory Soft limits

Опубликовал в блоге заметку-исследование механизма cgroup Memory Soft Limits, он же memory.soft_limit_in_bytes.

Позапускал контейнеры в разных вариациях и наблюдал как настройка влияет на распределение памяти при нехватки оной на машине.

Выглядит как CPU throttling, но конечно есть нюансы.

alebsys.github.io

Memory Soft limits

Изучая возможности контрольных групп в linux наткнулся на параметр memory.soft_limit_in_bytes:
When the system detects memory contention or low memory, control groups are pushed back to their soft limits. If the soft limit of each control group is very high…

👍5

563 views11:40

Performance matters!

About Pool Sizing

Заметка из wiki HikariCP про установку "правильного" размера пула коннектов к базам данных.

Основные мысли

1. Последовательное исполнение на одном CPU двух тредов всегда быстрее "параллельного" (потери на context-swithing и cache miss).

2. БОльшее кол-во тредов нежели доступных CPU ведет к замедлению системы (при идеальной CPU-bound модели использования);

3. Как только в уравнение добавляются IO-операции (диск, сеть, memory), правило меняется - чем дольше треды способны находиться в заблокированном состоянии (IO-wait), тем бОльший пул коннектов следует выставлять;

Сообщество PostgreSQL ввело в оборот формулу:

connections = ((core_count * 2) + effective_spindle_count)

* core_count должен учитывать только физически ядра (никакого вам HT);
* effective_spindle_count равен 0 если вся БД способна поместиться в кеш и приближается к фактическому кол-ву дисков по мере снижения cache hit rate.

Axiom: You want a small pool, saturated with threads waiting for connections.

P.S. думаю, что подход выше будет справедлив для всех типов коммунальных ресурсов.

tags: #performance #reliability

GitHub

About Pool Sizing

光 HikariCP・A solid, high-performance, JDBC connection pool at last. - brettwooldridge/HikariCP

👍4

674 viewsedited 19:55

Performance matters!

Channel name was changed to «Performance matters!»

19:56

Performance matters!

Написал в блог заметку о методологии "Thread State Analysis" (TSA).

Это когда о поведении системы судят по тому, в каком состоянии (state) пребывают её потоки: running, sleep, stopped и т.д.

TSA, как и другие высокоуровневые методологии (USE, RED), может помочь сориентироваться, определить направления для дальнейшего анализа и сократить общее время устранения проблем.

tags: #methodology #linux #troubleshooting

www.alebedev.tech

Thread State Analysis

Сессия траблшутинга - это не только конечный результат, но и процесс, протекающий с различной степенью эффективности. Одного умения пользоваться инструментами, знать флаги и уверенно работать в консоли недостаточно. Необходима систематизация.

👍1🔥1

591 viewsedited 06:08

Performance matters!

An introduction to benchmarks

Ликбез от Matt Fleming по бенчаркингу. В краткой форме освещается:

* зачем нужен бенчмаркинг;
* какие типы бывают;
* и когда их стоит использовать в разработке ПО.

Nyrkiö

An introduction to benchmarks

This introductory article explains what benchmarks are, the different types, and when to use them.

623 views11:07

Performance matters!

Есть такой ресурс sadservers.com, позиционирует себя как «leetcode для linux”.

На нём собраны задачки разной степени сложности из разряда «процесс PostgreSQL перестал работать, найди причину и устрани».

Подобное может встречаться на секциях технических собесов, что добавляет полезности, да и просто интересно проверить свои навыки.

В качестве пробы пера записал видео с прохождением первой задачи с небольшими теоретическими отступлениями.

YouTube

SadServers #1 | Saint John

#sadservers #linux #devops #kubernetes #sre

Решаем первую задачу на sadservers.com - "Saint John", в которой:
- разберем как печатать содержимое файла в реальном времени;
- найдем процесс по открытому им файлу;
- посмотрим как под капотом устроена утилита…

👍12

849 views06:54

Performance matters!

TCP Congestion Control в разных окружениях

Написал заметку как влияет потеря сетевых пакетов на пропускную способность TCP соединения.

p.s. катастрофически.

tags: #linux #tcp #performance

www.alebedev.tech

TCP Congestion Control in Action

Протестировал работу TCP Congestion Control в Linux в различных по качеству окружениях, поделюсь результатами.

👍6

713 viewsedited 15:51

Performance matters!

SadServers №15 | Middle-level | Tokyo

Траблшутинг в ленту!

Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец приведем в чувства webserver.

#sadservers #linux #devops #troubleshooting #sre #tcpdump

YouTube

SadServers №15 | Middle-level | Tokyo

#sadservers #linux #devops #troubleshooting #sre #tcpdump

Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец…

👍9❤1

694 views19:32

Performance matters!

What every SRE should know about GNU/Linux resolvers and Dual-Stack applications

С Viacheslav Biriukov познакомился по лекциям на Яндекс КИТ, когда еще только начинал узнавать, что такое Linux.

Тогда еще подумал "вау, вот это уровень, хочу так же!" :)

В последствии Вячеслав завел блог https://biriukov.dev/, где опубликовал мини книгу про Linux Page Cache (куча практических знаний как работает виртуальная память и чем на нее можно повлиять), а так же начал серию серий постов с говорящим названием "What every SRE should know about ...":

- первый заход был про файловые дескриторы, пайпы, терминалы, процессы и тд;
- а теперь подъехала и совсем свежая What every SRE should know about GNU/Linux resolvers and Dual-Stack applications про процесс резолвинга.

Must read, как говорится!

Viacheslav Biriukov

What every SRE should know about GNU/Linux resolvers and Dual-Stack applications

What every SRE should know about GNU/Linux resolvers and Dual-Stack applications # In this series of posts, I’d like to make a deep dive into the GNU/Linux local facilities used to convert a domain name or hostname into IP addresses, specifically in the context…

👍7

802 viewsedited 09:47

Performance matters!

Новая статья в блог bash: curl: command not found" или как траблшутить контейнеры когда нечем.

Несколько способов запуска команд в контейнерах, когда утилиты не установлены.

www.alebedev.tech

"bash: curl: command not found"

Или как траблшутить контейнеры когда нечем.

👍6🔥1

2.36K views05:26

Performance matters!

All you need to know about timeouts

Собирал информацию по лучшим практикам вокруг выставления таймаутов и наткнулся на любопытную заметку от Zalando, где обсуждается:

* как подобрать оптимальные значения таймаутов;
* взаимосвязь таймаутов и ретраев;
* как не похоронить свои системы под лавиной ретраев.

Краткая выжимка:

* set timeout explicitly on any remote calls
* set connection timeout = expected RTT * 3
* set request timeout based on collected metrics and SLA
* fail-fast or return a fallback value
* consider wrapping chained calls into time limiter
* retry on 5xx error and do not retry on 4xx
* think about implementing a circuit breaker when retrying
* be polite and ask the API owner for permission to enable retries
* support Idempotency-Key header in your API

——
Для тех, кто захочет чуть углубиться в тематику еще немного ссылок:

1. Xороший ретрай, плохой ретрай, или История одного падения - лонг рид от Яндекс про ретраи, очень подробно и с картинками;
2. Understanding Fail-Safe and Fail-Fast Strategies - сравнение стратегий и как их использовать в реальных системах;
3. What is Backoff For? - про бекофы и когда они могут помочь, а когда нет (кстати отличный блог!).

Zalando Engineering Blog

Zalando Engineering Blog - All you need to know about timeouts

How to set a reasonable timeout for your microservices to achieve maximum performance and resilience.

🔥6

818 views18:25

Performance matters!

performance_tuning_tutorial with perf

Часто использую perf, чтобы понять, на что уходит CPU time через perf top или для генерации FlameGraph, когда установка eBPF утилит затруднена.

Инструмент — настоящий швейцарский нож для исследования производительности Linux-систем.

Так что, туториал, кстати.

GitHub

GitHub - NAThompson/performance_tuning_tutorial: Performance Tuning Tutorial given at Oak Ridge National Laboratory

Performance Tuning Tutorial given at Oak Ridge National Laboratory - NAThompson/performance_tuning_tutorial

👍8

829 views07:27

Performance matters!

В свое время читал статью Why does one NGINX worker take all the load? от Cloudflare, где обсуждалась проблема неравномерной балансировки трафика по воркерам nginx.

Типичная картина может выглядеть так:

# ps -eo comm,%cpu --sort=-%cpu | grep nginx
nginx           54.8
nginx           40.6
nginx           24.6
nginx           10.7
nginx            2.9
nginx            0.4
nginx            0.0

Как решение предлагалось использовать опцию TCP сокета SO_REUSEPORT, что позволяет выровнять нагрузку путем совместного шаринга одного порта несколькими воркерами.

В nginx директива зовется reuseport (см. документацию), выключенная по умолчанию.

А вот в Nginx Ingress Controller или в Haproxy наоборот - опция идет "из коробки".

В последнем даже есть интереcный комментарий:

Since HAProxy uses SO_REUSEPORT and supports having multiple independent
processes bound to the same IP:port, during troubleshooting it can happen that
an old process was not stopped before a new one was started. This provides
absurd test results which tend to indicate that any change to the configuration
is ignored. The reason is that in fact even the new process is restarted with a
new configuration, the old one also gets some incoming connections and
processes them, returning unexpected results...

Вот на такую штуку мы и наткнулись - старый Haproxy по ошибке не был выведен из строя, рядом подняли новый и в моменте два независимых вебсервера параллельно обрабатывали запросы с одного порта. А мы гадали какого черта ответы от одной и той же машины такие разные.

Надо быть аккуратнее ;)

P.S. кстати отключить в Haproxy эту дивную оптимизацию можно через noreuseport.

tags: #haproxy #troubleshooting #кейс

👍8✍2😁1

782 viewsedited 11:32

Performance matters!

💥 Выступил на perfconf#10 с неделю назад💥

C докладом:

"Когда код идеален, но система тормозит. Скрытые враги производительности"

(немного пафосно звучит, но что поделать😉)

Рассказывал почтенной публике о влиянии TCP Retransmits и CPU Throttling на производительность приложений — как, зачем и что с этим делать.

Такой ликбез с небольшим deep dive в нюансы.

По ощущениям получилось вполне неплохо, и думаю, стоит повторять такие упражнения в будущем😊

По традиции — спасибо всем причастным! 🙌

P.S. Несколько фото и презентация прилагаются 📸💻

tags: #tcp #cpu

🔥24👍1

935 views15:26

Performance matters!

💥 Выступил на perfconf#10 с неделю назад💥 C докладом: "Когда код идеален, но система тормозит. Скрытые враги производительности" (немного пафосно звучит, но что поделать😉) Рассказывал почтенной публике о влиянии TCP Retransmits и CPU Throttling на производительность…

Когда_код_идеален,_но_система_тормозит.pdf

5.1 MB

🔥6

829 views15:26

About

Blog

Apps

Platform