2026-05-27 · 网络技术
什么是 IB 网络?
IB(InfiniBand,无限带宽)是一种高吞吐、超低延迟的互连技术,最早由 Mellanox(现已被 NVIDIA 收购)主导。它的设计目标很明确:在服务器之间用最短的时间搬完最大的数据量。
对比一把:
| 指标 | 以太网(典型) | InfiniBand |
|---|---|---|
| 带宽 | 25G / 100G | 100G / 200G / 400G(NDR) |
| 端到端延迟 | ~10-50μs | ~1-2μs |
| 传输卸载 | 需要 CPU 参与 | 网卡硬件全卸载 |
| 协议 | TCP/IP 协议栈 | RDMA(远程直接内存访问) |
| 典型场景 | 通用网络 | HPC、AI 训练、分布式存储 |
核心区别就在于 RDMA:数据直接从一台机器的内存搬到另一台机器的内存,绕过 CPU、绕过内核协议栈。延迟从几十微秒降到 1 微秒级别。
什么环境下要用 IB 网络?
不是所有场景都值得上 IB,下面这些才真正需要:
1. 高性能计算(HPC)
气象模拟、流体力学计算、基因测序——这些场景中成千上万个节点同时跑 MPI,它们之间的通信对延迟极度敏感。MPI Allreduce 这类操作里,IB 比以太网快一个数量级。
2. AI 大模型训练
这是近两年 IB 最火的场景。GPT、Llama 这类大模型训练需要数百甚至数千张 GPU 协同工作。GPU 之间的梯度同步(AllReduce)如果走普通以太网,8000 张卡可能有 40% 时间在等网络。IB 可以把通信开销压到 5% 以内。
3. 分布式存储
Ceph、Lustre、WekaFS 这类并行文件系统里,存储节点之间要频繁交换数据块。用 IB + RDMA,存储集群可以在不压垮 CPU 的前提下跑满 100Gbps。
4. 金融量化交易
微秒级的延迟差就是利润差。IB 的网络延迟足够低,甚至可以用于交易系统内部的消息传递。
一句话总结:对延迟要求 > 吞吐的密集通信场景。 如果只是跑 Web 服务或普通数据库,以太网就够了。
IB 网络的组网架构
IB 采用一种被称为 Fat-Tree(胖树) 的两层或三层架构,与传统以太网的 Spine-Leaf 类似但有本质区别。
典型 Fat-Tree 拓扑
┌─────────┐ ┌─────────┐
│ Spine1 │ │ Spine2 │ ← 核心层(不接服务器)
└────┬─────┘ └────┬─────┘
│ ╲ ╱ │
│ ╲╱ │
┌────┴──────/\──────┴────┐
│ │
┌────┴────┐ ┌────┴────┐
│ Leaf1 │ │ Leaf2 │ ← 接入层(接服务器/GPU)
└────┬────┘ └────┬────┘
╱ │ ╲ ╱ │ ╲
GPU1 GPU2 GPU3 GPU4 GPU5 GPU6特点:
- 无阻塞设计:每个 Leaf 的上行带宽等于所有下行带宽之和,任意两台服务器之间都能跑满线速
- 无环路:IB 使用基于源路由的转发机制,由 Subnet Manager(SM) 统一计算全网路径,不存在 STP/环路问题
- 确定性延迟:SM 预先算好所有路径,数据包到哪走哪条线是确定的,不会产生拥塞导致的抖动
关键组件
| 组件 | 作用 |
|---|---|
| HCA(Host Channel Adapter) | 服务器上的 IB 网卡,提供 RDMA 能力 |
| IB Switch | 纯 IB 交换机,不是以太网交换机 |
| Subnet Manager(SM) | IB 网络的"大脑",管理拓扑、分配 LID、计算路由表 |
| Gateway | 连接 IB 网络和以太网的桥梁(可选) |
IB 网络没有 ARP、没有 DHCP、没有 Spanning Tree(生成树)——这些传统以太网的东西全被 SM 接管了,用一个中心化的控制器替代了去中心化的自协商。
NDR 与 IB 的发展
当前的 NDR(Next Data Rate)标准已经支持单端口 400Gbps,而下一代的 XDR 将达到 800Gbps。加上 NVIDIA 的 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术,甚至可以在交换机内部直接完成 AllReduce 计算,进一步提升效率。
小结
IB 网络不是未来,它已经是高性能数据中心的事实标准。如果你在做 AI 训练、HPC 仿真或者低延迟存储系统,IB 几乎是必选项。
| 问题 | 答案 |
|---|---|
| IB 最大优势 | RDMA,1μs 延迟,无 CPU 开销 |
| 什么时候上 IB | HPC、AI 训练、分布式存储、量化交易 |
| 典型组网 | Fat-Tree 两层/三层 |
| 谁来管拓扑 | Subnet Manager(不是 STP) |