It was DNS.
Официальный постмортем падения AWS
https://aws.amazon.com/message/101925/
1. С чего началось?
В результате Race condition (когда несколько процессов обновляют одну и ту же конфигурацию) при обновлении Route53 эндпоинт
Всё, нет такого домена, до свидания, DynamoDB.
Никаких DDoS, сетевых перенагрузок - тупо ошибка автоматизации (гусары девопсы, молчать!).
2. It is always DNS.
И это был DNS.
3. Падаем громко.
EC2 не стартуют, равно как Lambda, SQS, ECS/EKS, Redshift и другие критически важные сервисы.
4. Первый фикс.
DNS для DynamoDB руками починили за 2–3 часа, но сервисы восстанавливались медленно — пока у всех не заэкспарился кеш DNS.
5. Partial monitoring blind.
Некоторое время никто не знает, что реально происходит, т.к. и CloudWatch, и внутренний мониторинг работают с перебоями.
6. Почему упал не только один регион N.Virginia
Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности (пока) не оправдалось.
Принято решение:
- написать ещё тесты (но они ведь были, да?)
- переписать throttle и velocity control (условно rate limit на массовые рестарты или скелинг)
- добавить защиту для DNS Planner (система создания плана с айпишниками сервиса) и Enactor (система, которая пушит этот план в Route53)
- уволить оставшихся девопсов
7. Как развивалось дальше?
Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов столь длительное время ранее не тестировалось.
8. Когда решили проблему и началась стабилизация?
15 часов.1 38 регионов. Ужас какой.
Итого.
Всё равно жду появления в бэклоге AWS своего IAM для каждого региона.
Вряд ли дождусь, но жду.
Официальный постмортем падения AWS
20 октября 2025 года.https://aws.amazon.com/message/101925/
1. С чего началось?
В результате Race condition (когда несколько процессов обновляют одну и ту же конфигурацию) при обновлении Route53 эндпоинт
dynamodb.us-east-1.amazonaws.com удаляется.Всё, нет такого домена, до свидания, DynamoDB.
race condition resulted in an incorrect empty DNS record for ... endpoint... the system was left in an inconsistent state... manual operator intervention to correct.
Никаких DDoS, сетевых перенагрузок - тупо ошибка автоматизации (
2. It is always DNS.
И это был DNS.
endpoint resolution failures for DynamoDB ...
... triggered by a latent defect within the service’s automated DNS management system ...
3. Падаем громко.
EC2 не стартуют, равно как Lambda, SQS, ECS/EKS, Redshift и другие критически важные сервисы.
During this period, customers and other AWS services with dependencies on DynamoDB were unable to establish new connections...
4. Первый фикс.
DNS для DynamoDB руками починили за 2–3 часа, но сервисы восстанавливались медленно — пока у всех не заэкспарился кеш DNS.
As cached DNS records expired ... completed recovery from the primary service disruption event.
... manual operator intervention to correct.
5. Partial monitoring blind.
Некоторое время никто не знает, что реально происходит, т.к. и CloudWatch, и внутренний мониторинг работают с перебоями.
The alternating health check results increased the load on the health check subsystem, causing it to degrade...
6. Почему упал не только один регион N.Virginia
us-east-1?Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в
us-east-1. Поэтому проблема с ними = проблемы у всех регионов.Customers with IAM Identity Center configured in N. Virginia (us-east-1) Region were also unable to sign in...
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности (пока) не оправдалось.
Принято решение:
- написать ещё тесты (но они ведь были, да?)
- переписать throttle и velocity control (условно rate limit на массовые рестарты или скелинг)
- добавить защиту для DNS Planner (система создания плана с айпишниками сервиса) и Enactor (система, которая пушит этот план в Route53)
- уволить оставшихся девопсов
We are building an additional test suite ... improve the throttling mechanism ... add additional protections to prevent the application of incorrect DNS plans.
7. Как развивалось дальше?
Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов столь длительное время ранее не тестировалось.
8. Когда решили проблему и началась стабилизация?
15 часов.
Итого.
Всё равно жду появления в бэклоге AWS своего IAM для каждого региона.
Вряд ли дождусь, но жду.
1👏17😁6
Надёжность AWS
У нас часто сбитый фокус — мы обращаем внимание, когда происходит что-то чрезвычайное и не замечаем, когда что-то монотонно успешно работает годами.
Упавший
На фоне чего оценить предыдущие годы исключительно надёжной работы оценить сложно.
А кто-то даже, поддавшись эмоциям, без знания реального расклада, спешит "переехать и побыстрей".
А ведь лишь старожилы припомнят такие же падения. Предыдущее, примерно такое же по длительности, с Kinesis, было в 2020-м году. В то время как более длительное было лишь в волосатом 2011-м.
В результате, если посчитать надёжность со скользящим окном в год и пять лет, то увидим, что "обычная" надёжность AWS "обычно" между тремя девятками (как у самого первого сервиса SQS) и четырьмя девятками, как у EC2).
Причём обычно таки ближе к четырём девяткам. На текущую дату (
Последнее значение 99.95% равняется SLA у Lambda или EKS. Что, мягко говоря, очень круто.
Итого. Выводы из падений делать нужно. Однако также нужно знать историю и реальные цифры. Ведь каждая девятка — это гигантские проблемы, расходы и боль во всех смыслах.
У нас часто сбитый фокус — мы обращаем внимание, когда происходит что-то чрезвычайное и не замечаем, когда что-то монотонно успешно работает годами.
Упавший
20-10-2025 на 15 часов AWS оставляет легко объяснимые впечатления.На фоне чего оценить предыдущие годы исключительно надёжной работы оценить сложно.
А кто-то даже, поддавшись эмоциям, без знания реального расклада, спешит "переехать и побыстрей".
А ведь лишь старожилы припомнят такие же падения. Предыдущее, примерно такое же по длительности, с Kinesis, было в 2020-м году. В то время как более длительное было лишь в волосатом 2011-м.
В результате, если посчитать надёжность со скользящим окном в год и пять лет, то увидим, что "обычная" надёжность AWS "обычно" между тремя девятками (как у самого первого сервиса SQS) и четырьмя девятками, как у EC2).
Причём обычно таки ближе к четырём девяткам. На текущую дату (
25-10-2025) это 99.84% и 99.95%.Последнее значение 99.95% равняется SLA у Lambda или EKS. Что, мягко говоря, очень круто.
Итого. Выводы из падений делать нужно. Однако также нужно знать историю и реальные цифры. Ведь каждая девятка — это гигантские проблемы, расходы и боль во всех смыслах.
👍42💯9👎2❤1
Обычно проблемы перед реинвентом в ноябре. И обычно у AWS.
Нонче по-другому. DNS пальцем не заткнёшь.
Azure Portal Access Issues (болеем за соседей):
https://azure.status.microsoft/en-us/status
Update:
Update2:
Нонче по-другому. DNS пальцем не заткнёшь.
Azure Portal Access Issues (болеем за соседей):
https://azure.status.microsoft/en-us/status
Starting at approximately 16:00 UTC, we began experiencing DNS issues resulting in availability degradation of some services. Customers may experience issues accessing the Azure Portal. We have taken action that is expected to address the portal access issues here shortly. We are actively investigating the underlying issue and additional mitigation actions.
Update:
We have initiated the deployment of our 'last known good' configuration. This is expected to be fully deployed in about 30 minutes from which point customers will start to see initial signs of recovery. Once this is completed, the next stage is to start to recover nodes while we route traffic through these healthy nodes.
Update2:
At this stage, we anticipate full mitigation within the next four hours as we continue to recover nodes. This means we expect recovery to happen by 23:20 UTC on 29 October 2025. We will provide another update on our progress within two hours, or sooner if warranted.
😁22🫡3
ECS + canary deployments 🎉
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/canary-deployment.html
ECS + linear deployments 🎉
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/deployment-type-linear.html
ECS + blue/green deployments
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/deployment-type-blue-green.html
Вы всё ещё кипятите? Тогда мы идём к вам!
#ECS
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/canary-deployment.html
ECS + linear deployments 🎉
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/deployment-type-linear.html
ECS + blue/green deployments
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/deployment-type-blue-green.html
Вы всё ещё кипятите? Тогда мы идём к вам!
#ECS
😁15❤9🔥5👍2
Forwarded from AWS User Group Armenia
AWS Project Rainier: One of the world’s largest AI compute clusters is now fully operational. 🚀
Anthropic is actively using Project Rainier to build and deploy its industry-leading AI model, Claude, which AWS expects to be on more than 1 million Trainium2 chips by the end of 2025.
📹 Watch: Inside Amazon's new AI supercomputer
Anthropic is actively using Project Rainier to build and deploy its industry-leading AI model, Claude, which AWS expects to be on more than 1 million Trainium2 chips by the end of 2025.
📹 Watch: Inside Amazon's new AI supercomputer
🔥14😱10👀2
Forwarded from AWS User Group Armenia
𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 𝗼𝗳 𝗰𝗹𝗼𝘂𝗱 — 𝗮𝗻𝗱 𝗰𝗼𝘂𝗻𝘁𝗶𝗻𝗴...
Did you know AWS operates its own global network spanning over 𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 - 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘁𝗿𝗮𝘃𝗲𝗹 𝗳𝗿𝗼𝗺 𝗘𝗮𝗿𝘁𝗵 𝘁𝗼 𝘁𝗵𝗲 𝗠𝗼𝗼𝗻 𝗮𝗻𝗱 𝗯𝗮𝗰𝗸 𝗺𝗼𝗿𝗲 𝘁𝗵𝗮𝗻 𝟭𝟭 𝘁𝗶𝗺𝗲𝘀?
Recently, AWS added a new transatlantic subsea cable connecting the U.S. and Europe, capable of delivering 320+ terabits per second — 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘀𝘁𝗿𝗲𝗮𝗺 𝟭𝟮.𝟱 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗛𝗗 𝗺𝗼𝘃𝗶𝗲𝘀 𝗮𝘁 𝗼𝗻𝗰𝗲! All to make the cloud faster, safer, and more resilient. ☁️🚀
Did you know AWS operates its own global network spanning over 𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 - 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘁𝗿𝗮𝘃𝗲𝗹 𝗳𝗿𝗼𝗺 𝗘𝗮𝗿𝘁𝗵 𝘁𝗼 𝘁𝗵𝗲 𝗠𝗼𝗼𝗻 𝗮𝗻𝗱 𝗯𝗮𝗰𝗸 𝗺𝗼𝗿𝗲 𝘁𝗵𝗮𝗻 𝟭𝟭 𝘁𝗶𝗺𝗲𝘀?
Recently, AWS added a new transatlantic subsea cable connecting the U.S. and Europe, capable of delivering 320+ terabits per second — 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘀𝘁𝗿𝗲𝗮𝗺 𝟭𝟮.𝟱 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗛𝗗 𝗺𝗼𝘃𝗶𝗲𝘀 𝗮𝘁 𝗼𝗻𝗰𝗲! All to make the cloud faster, safer, and more resilient. ☁️🚀
👍8🤡2
CloudFront + cross-account VPC origins 🎉
https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-cross-account-support-for-amazon-cloudfront-virtual-private-cloud-vpc-origins/
Теперь можно использовать один CloudFront для доступа в приватные ресурсы в разных аккаунтах. Заметное упрощение многих конфигураций, можно использовать один CloudFront для dev-stage-prod, например, расположив его в Shared аккаунте. Отличная фича.
#CloudFront #RAM
https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-cross-account-support-for-amazon-cloudfront-virtual-private-cloud-vpc-origins/
Теперь можно использовать один CloudFront для доступа в приватные ресурсы в разных аккаунтах. Заметное упрощение многих конфигураций, можно использовать один CloudFront для dev-stage-prod, например, расположив его в Shared аккаунте. Отличная фича.
#CloudFront #RAM
1😍9👍5
Не было и не будет
Инструментов для проверки доступных AWS сервисов в разных регионах много разных и разной степени неудобности. Однако с их помощью можно посмотреть ситуацию лишь на сейчас (или в прошлом, если они не обновляются). Ничего не зная, когда планируется добавление нужного сервиса.
И вот теперь можно проверить, какие AWS сервисы точно никогда не появятся (
https://builder.aws.com/build/capabilities/explore?tab=service-feature
И какие лишь в бэклоге (
Инструментов для проверки доступных AWS сервисов в разных регионах много разных и разной степени неудобности. Однако с их помощью можно посмотреть ситуацию лишь на сейчас (или в прошлом, если они не обновляются). Ничего не зная, когда планируется добавление нужного сервиса.
И вот теперь можно проверить, какие AWS сервисы точно никогда не появятся (
Not Expanding) в нужном тебе регионе:https://builder.aws.com/build/capabilities/explore?tab=service-feature
И какие лишь в бэклоге (
Planning) либо уже разрабатываются и имеют сроки выхода (2026 Q3).1👍17❤1
Forwarded from Nikolay
— Какая надёжность у вашего сервиса?
— Пять девяток!
— Но он же лежит постоянно!
— 9.9999%
— Пять девяток!
— Но он же лежит постоянно!
— 9.9999%
🤣71🔥5❤2👍2😁1💯1
Строго секретно — новый секретный AWS регион: AWS Secret-West Region 🎉
(ссылку не даю, т.к. секретно)
Итого на сейчасфлеш-рояль каждого по два:
🔸 AWS GovCloud US-East (2018)
🔸 AWS GovCloud US-West (2011)
🔹 AWS Secret-East (2017)
🔹 AWS Secret-West (2025)
▫️ AWS Top Secret-East (2014)
▫️ AWS Top Secret-West (2021)
Секретные регионы отделены от "основного" AWS и интернета вообще — у них полностью своя сеть.
Чем более секретный, тем больше требований и тем меньше AWS сервисов доступно. На текущий момент в AWS Secret-East доступно лишь 79 сервисов.
#AWS_Regions
(ссылку не даю, т.к. секретно)
Итого на сейчас
🔸 AWS GovCloud US-East (2018)
🔸 AWS GovCloud US-West (2011)
🔹 AWS Secret-East (2017)
🔹 AWS Secret-West (2025)
▫️ AWS Top Secret-East (2014)
▫️ AWS Top Secret-West (2021)
Секретные регионы отделены от "основного" AWS и интернета вообще — у них полностью своя сеть.
Чем более секретный, тем больше требований и тем меньше AWS сервисов доступно. На текущий момент в AWS Secret-East доступно лишь 79 сервисов.
#AWS_Regions
😁13👍4
AWS Backup + EKS 🎉
https://aws.amazon.com/blogs/aws/secure-eks-clusters-with-the-new-support-for-amazon-eks-in-aws-backup/
✅ Agent-free, native AWS integration (no custom scripts or third-party tools needed)
✅ Cross-Region and cross-account copies
✅ Automated scheduling and retention management
✅ Immutable backup vaults
Restore options:
🔸 Full EKS cluster
🔸 Specific namespaces
🔸 Individual persistent volumes
#Backup #EKS
https://aws.amazon.com/blogs/aws/secure-eks-clusters-with-the-new-support-for-amazon-eks-in-aws-backup/
✅ Agent-free, native AWS integration (no custom scripts or third-party tools needed)
✅ Cross-Region and cross-account copies
✅ Automated scheduling and retention management
✅ Immutable backup vaults
Restore options:
🔸 Full EKS cluster
🔸 Specific namespaces
🔸 Individual persistent volumes
#Backup #EKS
🔥18👍8❤1
Forwarded from Kristine
Good morning, people jan ~ ☺️
🔥FREE AWS SkillBuilder subscription-based exam prep materials until December 31, 2025.
This is a limited-time offer, especially valuable if cost was stopping you from starting.
Find all the details in my post and start your journey. 🤓
🔥FREE AWS SkillBuilder subscription-based exam prep materials until December 31, 2025.
This is a limited-time offer, especially valuable if cost was stopping you from starting.
Find all the details in my post and start your journey. 🤓
Linkedin
#aws #awscertified #cloudpractitioner #aipractitioner #awstraining #education #amazon #awshero #awsheroes #awsugarm #awsusergroups…
FREE AWS SkillBuilder subscription-based exam prep materials until December 31, 2025.
This is a limited-time offer, especially valuable if cost was stopping you from starting.
🔗 Link in the comments. Save, Share and Go, Build 🙌
👩🏻💻 Follow me (Kristine…
This is a limited-time offer, especially valuable if cost was stopping you from starting.
🔗 Link in the comments. Save, Share and Go, Build 🙌
👩🏻💻 Follow me (Kristine…
❤7👍3🔥3
Forwarded from tutunak
Ingress Nginx всё 🪦
https://kubernetes.io/blog/2025/11/11/ingress-nginx-retirement/
https://kubernetes.io/blog/2025/11/11/ingress-nginx-retirement/
Kubernetes
Ingress NGINX Retirement: What You Need to Know
To prioritize the safety and security of the ecosystem, Kubernetes SIG Network and the Security Response Committee are announcing the upcoming retirement of Ingress NGINX. Best-effort maintenance will continue until March 2026. Afterward, there will be no…
😱31🫡18👀3👍2
ALB + JWT verification 💪
https://docs.aws.amazon.com/elasticloadbalancing/latest/application/listener-verify-jwt.html
#ALB
https://docs.aws.amazon.com/elasticloadbalancing/latest/application/listener-verify-jwt.html
ALB will validate the token signature and requires two mandatory claims: 'iss' (issuer) and 'exp' (expiration). Additionally, if present in the token, ALB will also validate 'nbf' (not before) and 'iat' (issued at time) claims. You can configure up to 10 additional claims for validation.
These claims support three formats:
🔹 Single-string: A single text value
🔹 Space-separated values: Multiple values separated by spaces (maximum 10 values)
🔹 String-array: An array of text values (maximum 10 values)
If the token is valid, the load balancer forwards the request with token as is to the target. Otherwise, it rejects the request.
#ALB
🔥16👍4
Forwarded from AWS User Group Armenia
Good evening, people jan! 🤗
Before we all head into “weekdays closing Friday ceremony :D))” mode, quick heads up on a pretty cool update:
AWS Application Load Balancer now supports JWT verification - which basically means :
🫴 Your ALB can now verify JSON Web Tokens in request headers automatically
🫴 Handles token signatures, expiration times, and claims - zero code changes
🫴 ALB does all that OAuth 2.0 token validation for you now
🫴 Works with Client Credentials Flow and other OAuth 2.0 flows
So just simplify your life - no more writing token validation logic in every service. 😎
Already available in all AWS Regions where ALB runs.
🔗 Full details here , if you want to dig in over the weekend (or you know, maybe just enjoy your weekend instead 😉)
Have a great weekend, everyone! 💙
Before we all head into “weekdays closing Friday ceremony :D))” mode, quick heads up on a pretty cool update:
AWS Application Load Balancer now supports JWT verification - which basically means :
🫴 Your ALB can now verify JSON Web Tokens in request headers automatically
🫴 Handles token signatures, expiration times, and claims - zero code changes
🫴 ALB does all that OAuth 2.0 token validation for you now
🫴 Works with Client Credentials Flow and other OAuth 2.0 flows
So just simplify your life - no more writing token validation logic in every service. 😎
Already available in all AWS Regions where ALB runs.
🔗 Full details here , if you want to dig in over the weekend (or you know, maybe just enjoy your weekend instead 😉)
Have a great weekend, everyone! 💙
👍7❤1