Кое-что о сетях для нейросетей.
Чтобы внедрить LLM у себя на предприятии, недостаточно закупить GPU и воткнуть его в сервер. И обычных серверов, объединенных в сеть на основе Ethernet, недостаточно. Если вы хотите развернуть LLM локально, не прибегая к облачным услугам, необходимо построить кластер высокопроизводительных вычислений (High Performance Computing, HPC). А главное в этом кластере — наличие специализированных каналов обмена данными между процессорами.
Ключевые параметры сетевой инфраструктуры HPC:
🔸 скорость обмена — на сегодня считается нормальной от 100 гигабит в секунду и выше;
🔸 задержка (она же латентность) при передаче — чем ниже, тем лучше, желательно меньше 1 микросекунды.
Если со скоростью всё понятно, то по латентности нужны пояснения. Низкая латентность важна при передаче служебных сообщений, необходимых, чтобы узлы сети знали о состоянии друг друга. Такие сообщения, как правило, очень малы (несколько десятков байт), но их очень много в нейросети. Они используются для синхронизации вычислений, предотвращения логических гонок (race condition) и тупиков (deadlock), тормозящих работу LLM.
Для коммутации в сети HPC лучше использовать не Ethermet (где скорость обмена большими пакетами высокая, но и задержки большие), а решения типа Infiniband. Это довольно старая технология (развивается с 1990-х годов), но с началом бума ИИ она снова стала сверхвостребованной, потому что обеспечивает минимальные показатели латентности.
⚡️ Современные коммутаторы Infiniband стандарта XDR (eXtended Data Rate) дают ультравысокие скорости передачи данных (800 Гбит/с на одно соединение), а задержки при этом составляют менее 10 наносекунд (не микро, а нано, Карл!).
Также XDR отличается высокой плотностью передачи данных благодаря использованию PAM4-кодирования, меньшим энергопотреблением и масштабируемой архитектурой — можно использовать несколько каналов XDR одновременно.
Всё это особенно актуально для приложений искусственного интеллекта и машинного обучения. Не удивительно, что такие гранды, как Nvidia, AMD, IBM и другие, уже активно продвигают HPC-решения на основе Infiniband XDR.
👉 Впрочем, стандарты XDR и более ранний NDR — это хай-энд для суперкомпьютеров. Вполне возможно, что для кластера HPC на вашем предприятии будет достаточно адаптеров попроще:
▫️стандарт HDR — скорость 200 Гбит/с на порт, низкая задержка. Хорош для высокоскоростного компьютинга, систем AI/ML/DL, финансовой аналитики и любых приложений, требующих высокой скорости и пропускной способности сети;
▫️стандарт EDR — самый старый из поддерживаемых на сегодня. Дает скорость до 100 Гбит/с при задержке 0,7 микросекунды. Поддерживает технологии RDMA, GPUDirect, SR-IOV и др.
☝️ В общем, планируя развертывание LLM в вашей компании, думайте не только о количестве GPU, но и о качестве связи между ними.
#HPC #infiniband #LLM
🚀 ©ТехноТренды
Чтобы внедрить LLM у себя на предприятии, недостаточно закупить GPU и воткнуть его в сервер. И обычных серверов, объединенных в сеть на основе Ethernet, недостаточно. Если вы хотите развернуть LLM локально, не прибегая к облачным услугам, необходимо построить кластер высокопроизводительных вычислений (High Performance Computing, HPC). А главное в этом кластере — наличие специализированных каналов обмена данными между процессорами.
Ключевые параметры сетевой инфраструктуры HPC:
🔸 скорость обмена — на сегодня считается нормальной от 100 гигабит в секунду и выше;
🔸 задержка (она же латентность) при передаче — чем ниже, тем лучше, желательно меньше 1 микросекунды.
Если со скоростью всё понятно, то по латентности нужны пояснения. Низкая латентность важна при передаче служебных сообщений, необходимых, чтобы узлы сети знали о состоянии друг друга. Такие сообщения, как правило, очень малы (несколько десятков байт), но их очень много в нейросети. Они используются для синхронизации вычислений, предотвращения логических гонок (race condition) и тупиков (deadlock), тормозящих работу LLM.
Для коммутации в сети HPC лучше использовать не Ethermet (где скорость обмена большими пакетами высокая, но и задержки большие), а решения типа Infiniband. Это довольно старая технология (развивается с 1990-х годов), но с началом бума ИИ она снова стала сверхвостребованной, потому что обеспечивает минимальные показатели латентности.
⚡️ Современные коммутаторы Infiniband стандарта XDR (eXtended Data Rate) дают ультравысокие скорости передачи данных (800 Гбит/с на одно соединение), а задержки при этом составляют менее 10 наносекунд (не микро, а нано, Карл!).
Также XDR отличается высокой плотностью передачи данных благодаря использованию PAM4-кодирования, меньшим энергопотреблением и масштабируемой архитектурой — можно использовать несколько каналов XDR одновременно.
Всё это особенно актуально для приложений искусственного интеллекта и машинного обучения. Не удивительно, что такие гранды, как Nvidia, AMD, IBM и другие, уже активно продвигают HPC-решения на основе Infiniband XDR.
👉 Впрочем, стандарты XDR и более ранний NDR — это хай-энд для суперкомпьютеров. Вполне возможно, что для кластера HPC на вашем предприятии будет достаточно адаптеров попроще:
▫️стандарт HDR — скорость 200 Гбит/с на порт, низкая задержка. Хорош для высокоскоростного компьютинга, систем AI/ML/DL, финансовой аналитики и любых приложений, требующих высокой скорости и пропускной способности сети;
▫️стандарт EDR — самый старый из поддерживаемых на сегодня. Дает скорость до 100 Гбит/с при задержке 0,7 микросекунды. Поддерживает технологии RDMA, GPUDirect, SR-IOV и др.
☝️ В общем, планируя развертывание LLM в вашей компании, думайте не только о количестве GPU, но и о качестве связи между ними.
#HPC #infiniband #LLM
🚀 ©ТехноТренды
ServerFlow
Что такое Infiniband. История создания и как он работает