🚀 Обзор статьи «Meta’s Hyperscale Infrastructure: Overview and Insights»
Ну что, поехали. Meta (запрещенная в РФ экстремистская организация) раскрыла, как у них устроена инфраструктура уровня «мы обслуживаем планету», и текст получился настолько жирным.
Вот такие ключевые мысли и концепции у меня в голове
1. Уберите сложность у инженеров.
Сложность должна быть внутри платформы, а не на боевых командах.
2. Автоматизируйте до боли.
97% автоматизированных деплоев - это не мечта, это дисциплина.
3. Стройте «единую платформу», а не десятки сервисов.
Проекты → продукты → экосистема → единый компьютер.
⚙️ 1. Культура Meta - боль большинства компаний
Move fast - основа.
У большинства принцип - «давайте согласуем», у них «вкатили за три часа в прод 10 000 функций».
97% сервисов деплоятся без участия человека.
55% всех изменений - “инстант деплой”: прошёл тесты → сразу в прод.
Что забрать себе:
если ты хочешь, чтобы команда работала быстро — сначала строй инфраструктуру, где «ничего не ломается, когда всё постоянно меняется». А не наоборот. Вывод, вроде логичный, но мы обычно ищем 1000 причин, почему так не получится.
🧠 2. Monorepo без владельцев - а работает!
В Meta любой инженер может внести изменение почти куда угодно.
Нет «вот это мы - владельцы, а туда не трогайте».
Почему это работает?
• единые стандарты,
• общая инфраструктура,
• отсутствие «дублирующих велосипедов»,
• cross-team contributions.
В большинстве компаний это ломает людям головы:
как жить без сотни командных границ?
Ребята из Мета говорят: делайте инструменты так, чтобы не было страшно менять чужой код. А это в свою очередь возможно делать благодаря пункту (1)
🔌 3. Serverless - главный язык разработки в Meta
Половина инженеров пишет не сервисы, а функции.
Без YAML-ов, без поднятия инфраструктуры, без “а как это деплоить”.
Две платформы:
• FrontFaaS - то, что обслуживает запросы пользователей (PHP);
• XFaaS - все асинхронные процессы.
Особенность:
они запускают десятки функций в одном процессе.
Никто так не делает в облаках - а Meta делает, потому что FaaS у них для внутренних разработчиков, а не для внешних клиентов.
Тут я выводы не придумал, у меня как-то в голове это некая база, но либо я глубины не уловил, либо еще что-то.
🌍 4. Global-DaaC - дата-центры как один компьютер
Вот это реально, блин, красиво.
Обычные компании создают сервисы в стиле:
«выбери регион, выбери количество реплик, выбери тип железа…». Уж поверьте, я знаю, что так и создают 🙂
В Meta:
«я хочу сервис», а дальше система сама решает:
• куда ставить,
• сколько реплик,
• как мигрировать,
• как балансировать нагрузку,
• как реагировать на изменение мировых условий.
Это делает три вещи:
4. Снимает ответственность с команд.
5. Использует мировые мощности как единую кластерную машину.
Пока у многих максимум «один регион как один кластер».
А тут: «весь мир - один кластер». Я даже вижу в голове, что бы кто-то от разработки платформы, кто придумал эту штуку в виде лозунга, всех убелил, а потом еще и затащил эту штуку.
🧱 5. Дёшево ≠ плохо: железо Meta
У Meta нет двойных блоков питания.
Нет двойных ToR.
SSD - чаще локальные (удобно? нет. дёшево? да).
HDD - иногда по 216 штук на сервер.
Они берут дешёвое железо →
и закрывают его слабости умным софтом:
• распределением контейнеров по MSB (fault domains),
• миграциями,
• деградацией функций при авариях (“Defcon”),
• sharding & balancing.
Тут на масштабе реализованный принцип, к которому давно пытаются прийти многие компании: “хардкорный софт дешевле хардкорного железа”.
🚦 6. Контроллеры: почти всё централизовано
Вот это реально ломает массовые заблуждения.
В индустрии любят говорить:
«централизованное не масштабируется».
Meta:
пожалуйста, держите наш Paxos-кластер для глобального маршрутизации…
на миллионы роутеров.
Они централизуют всё, что только можно:
• WAN-роутинг,
• балансировку,
• sharding,
• key-value assignments,
• распределение ML-нагрузок,
• софт для свитчей.
Данные распределены, а контроль - централизован.
Это контринтуитивно, но это работает.
Ну что, поехали. Meta (запрещенная в РФ экстремистская организация) раскрыла, как у них устроена инфраструктура уровня «мы обслуживаем планету», и текст получился настолько жирным.
Вот такие ключевые мысли и концепции у меня в голове
1. Уберите сложность у инженеров.
Сложность должна быть внутри платформы, а не на боевых командах.
2. Автоматизируйте до боли.
97% автоматизированных деплоев - это не мечта, это дисциплина.
3. Стройте «единую платформу», а не десятки сервисов.
Проекты → продукты → экосистема → единый компьютер.
⚙️ 1. Культура Meta - боль большинства компаний
Move fast - основа.
У большинства принцип - «давайте согласуем», у них «вкатили за три часа в прод 10 000 функций».
97% сервисов деплоятся без участия человека.
55% всех изменений - “инстант деплой”: прошёл тесты → сразу в прод.
Что забрать себе:
если ты хочешь, чтобы команда работала быстро — сначала строй инфраструктуру, где «ничего не ломается, когда всё постоянно меняется». А не наоборот. Вывод, вроде логичный, но мы обычно ищем 1000 причин, почему так не получится.
🧠 2. Monorepo без владельцев - а работает!
В Meta любой инженер может внести изменение почти куда угодно.
Нет «вот это мы - владельцы, а туда не трогайте».
Почему это работает?
• единые стандарты,
• общая инфраструктура,
• отсутствие «дублирующих велосипедов»,
• cross-team contributions.
В большинстве компаний это ломает людям головы:
как жить без сотни командных границ?
Ребята из Мета говорят: делайте инструменты так, чтобы не было страшно менять чужой код. А это в свою очередь возможно делать благодаря пункту (1)
🔌 3. Serverless - главный язык разработки в Meta
Половина инженеров пишет не сервисы, а функции.
Без YAML-ов, без поднятия инфраструктуры, без “а как это деплоить”.
Две платформы:
• FrontFaaS - то, что обслуживает запросы пользователей (PHP);
• XFaaS - все асинхронные процессы.
Особенность:
они запускают десятки функций в одном процессе.
Никто так не делает в облаках - а Meta делает, потому что FaaS у них для внутренних разработчиков, а не для внешних клиентов.
Тут я выводы не придумал, у меня как-то в голове это некая база, но либо я глубины не уловил, либо еще что-то.
🌍 4. Global-DaaC - дата-центры как один компьютер
Вот это реально, блин, красиво.
Обычные компании создают сервисы в стиле:
«выбери регион, выбери количество реплик, выбери тип железа…». Уж поверьте, я знаю, что так и создают 🙂
В Meta:
«я хочу сервис», а дальше система сама решает:
• куда ставить,
• сколько реплик,
• как мигрировать,
• как балансировать нагрузку,
• как реагировать на изменение мировых условий.
Это делает три вещи:
4. Снимает ответственность с команд.
5. Использует мировые мощности как единую кластерную машину.
Пока у многих максимум «один регион как один кластер».
А тут: «весь мир - один кластер». Я даже вижу в голове, что бы кто-то от разработки платформы, кто придумал эту штуку в виде лозунга, всех убелил, а потом еще и затащил эту штуку.
🧱 5. Дёшево ≠ плохо: железо Meta
У Meta нет двойных блоков питания.
Нет двойных ToR.
SSD - чаще локальные (удобно? нет. дёшево? да).
HDD - иногда по 216 штук на сервер.
Они берут дешёвое железо →
и закрывают его слабости умным софтом:
• распределением контейнеров по MSB (fault domains),
• миграциями,
• деградацией функций при авариях (“Defcon”),
• sharding & balancing.
Тут на масштабе реализованный принцип, к которому давно пытаются прийти многие компании: “хардкорный софт дешевле хардкорного железа”.
🚦 6. Контроллеры: почти всё централизовано
Вот это реально ломает массовые заблуждения.
В индустрии любят говорить:
«централизованное не масштабируется».
Meta:
пожалуйста, держите наш Paxos-кластер для глобального маршрутизации…
на миллионы роутеров.
Они централизуют всё, что только можно:
• WAN-роутинг,
• балансировку,
• sharding,
• key-value assignments,
• распределение ML-нагрузок,
• софт для свитчей.
Данные распределены, а контроль - централизован.
Это контринтуитивно, но это работает.
1👍12❤11🔥3
К пунктам 7 и 8 в контексте Мета (запрещенная в РФ экстремистская организация) стоит относиться со скепсисом: руководство помешано на идеи AI и это могло повлиять на статью..
🤖 7. AI ломает всё, что мы знали о инфраструктуре
До конца десятилетия более 50% мощности дата-центров уйдёт на AI.
И Meta готовит под это:
• собственные AI-чипы (MTIA),
• RDMA-over-Ethernet,
• новые сети,
• новые стораджи,
• новые подходы к ML-планированию,
• новый дизайн дата-центров.
AI стал основным потребителем инфраструктуры.
Не бизнес-приложения.
Не мобильные сервисы.
AI.
🧩 8. Developer Productivity как религия
В Meta понимают:
если сделать разработчиков быстрыми → компания становится быстрой.
Они инвестируют в:
• автоматизацию всего,
• FaaS-платформы,
• мгновенные деплои,
• универсальные инструменты,
• мощные IDE для внутренних платформ.
И делают вывод:
Производительность инженеров росла медленно 20 лет.
В ближайшие 5–7 лет она ускорится радикально благодаря AI и вертикальным FaaS-парадигмам.
🤖 7. AI ломает всё, что мы знали о инфраструктуре
До конца десятилетия более 50% мощности дата-центров уйдёт на AI.
И Meta готовит под это:
• собственные AI-чипы (MTIA),
• RDMA-over-Ethernet,
• новые сети,
• новые стораджи,
• новые подходы к ML-планированию,
• новый дизайн дата-центров.
AI стал основным потребителем инфраструктуры.
Не бизнес-приложения.
Не мобильные сервисы.
AI.
🧩 8. Developer Productivity как религия
В Meta понимают:
если сделать разработчиков быстрыми → компания становится быстрой.
Они инвестируют в:
• автоматизацию всего,
• FaaS-платформы,
• мгновенные деплои,
• универсальные инструменты,
• мощные IDE для внутренних платформ.
И делают вывод:
Производительность инженеров росла медленно 20 лет.
В ближайшие 5–7 лет она ускорится радикально благодаря AI и вертикальным FaaS-парадигмам.
🔥14❤4👍4⚡1