如何设计支持人工智能的高性能数据中心网络架构？-云情报

如何设计支持人工智能的高性能数据中心网络架构？最近，工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》，旨在加快人工智能从战略到实施的发展，促进人工智能与实体经济的深度融合。在新工业革命的背景下，大数据、计算能力、算法等的快速迭代。将人工智能推向一个新阶段。2017年第三季度，全球人工智能公司融资超过77亿美元，是2012年的70多倍。有人可能会说这是一个“泡沫”，但我更愿意相信这是人工智能发展的必然结果。最近，工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》，旨在加快人工智能从战略到实施的发展，促进人工智能与实体经济的深度融合。在新工业革命的背景下，计算能力和算法的快速迭代将人工智能推向了一个新的阶段。2017年第三季度，全球人工智能公司融资超过77亿美元，是2012年的70多倍。有人可能会说这是一个泡沫，但我更愿意相信这是人工智能发展的必然结果。

如何设计支持人工智能的高性能数据中心网络架构？

在人工智能技术的应用过程中，所有企业都在寻找能够更好地支持高性能计算的基本网络解决方案。在文章“基础设施网络架构的最佳实践和未来趋势”中，我分享了如何设计稳定可靠的数据中心网络。接下来，我们将讨论如何设计一个支持人工智能应用的高性能无损网络。

前面提到的大数据、计算能力和算法的快速迭代将人工智能推向了一个新的阶段。这些技术的实施对网络的低延迟、无丢包和高性能三个方面提出了更高的要求。

▲人工智能应用技术体系及对数据中心网络的要求

更好地理解高性能和无数据包丢失，这指的是网络带宽性能的提高和没有由网络拥塞引起的数据包丢失。有许多环节会产生延迟。为了实现低端到端延迟，需要多角度分析:

其中，光电传输延迟和数据串行延迟相对较小，难以通过架构设计进行优化。我们应该关注主机处理延迟和设备转发延迟。大企业积极寻找高性能仪表

在计算方案中，基于以太网的RDMA(远程直接内存访问)以其高性能和低成本的优势逐渐取代InfiniBand成为主流技术。(RDMA结束

融合以太网)技术基于UDP协议，这对于构建支持人工智能应用的高性能无损以太网尤为重要。

结合设备转发级别的延迟优化方法，高性能无损网络的实现取决于两个要素:

无带宽融合的网络架构设计(1:1)

基于PFC(基于优先级的流量控制)和ECN(显式坦白通知)功能的优先级队列管理和拥塞管理

综上所述，人工智能集群高性能计算和网络方案的实践思路如下图所示:

▲人工智能集群高性能解决方案关键技术组合

在这里，我将以25G网络为例，结合行业主流产品形态，分享人工智能网络架构的设计和实现思路。

主要设计概念:

让核心设备全速、高性能地向前发展，无需核心之间的互连，采用光纤架构来隔离核心故障，并将核心故障的影响降至最低；

让三层路由网络，通过ECMP提高冗余度，降低故障风险；

TOR的上下收敛比率严格为1:1，通过增加核心设备的接口密度来扩大单个集群服务器的规模；

让PFC+ECN功能实现低延迟无损网络。

网络架构设计:

1.中小型(集群大小1000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个32端口100g箱式交换机和OSPF/BGP网络

适用的集群大小为1000个单位。

每个TOR连接32台服务器，IDC的内部收敛比为1:1，集群带宽为25Tbps

2.中等(群集大小2000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个64端口100G盒，OSPF/BGP网络

适用的群集大小为2000套

每个TOR连接32台服务器，IDC内部收敛比为1:1，集群带宽为50Tbps

3.大型(集群大小2000-18000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接4~8个内核(框架式)和BGP网络

适用集群规模:2000~18000套

每个TOR连接32台服务器，IDC内部汇聚比为1:1，集群带宽为50 ~ 450Tbps

4.超大型(集群规模超过20000台)

▲建筑设计

建筑特征:

单个POD集群规模为1000 ~ 2000，数据中心集群规模为20000+BGP组网

POD中的收敛比是1:1，单个POD的簇带宽是25Tbps，总的簇带宽是500tps以上

POD的收敛比和上行带宽根据集群的带宽需求灵活配置，适合与非人工智能应用混合部署

在数据中心网络中，PFC和ECN功能将部署在叶设备和脊柱设备上。功率因数校正作用于设备的互连端口，并通过背压影响上游端口队列的发送速率，而ECN作用于设备的转发过程，并最终影响数据流的发送方，从而通过降低某个数据流的发送速率来避免数据包丢失。

q8.png

PFC机制将以太网链路上的流量划分为不同的级别，并且不会根据每个流量单独发送许可证。与PAUSE帧相比，PFC可以将链路虚拟化为8个不同级别的虚拟通道。当一个频道拥塞时，它不会影响其他频道。

RoCEv2定义了Rocev2融合管理(RCM)，其中拥塞管理特征ECN(RFC 3168)是在交换机出口端口发起的拥塞控制机制。当交换机的出口缓冲区达到设定的阈值时，交换机将更改数据包报头中的ECN位，以便用ECN标签标记数据。当带有ECN标签的数据到达接收端时，接收端将生成一个会议通知包并发送给发送端。CNP包含导致拥塞的流量或QP信息。当发送端收到CNP时，将采取措施降低发送速度。

如何设计支持人工智能的高性能数据中心网络架构？

由于功率因数校正作用于整个队列，并且ECN仅用于导致拥塞的特定会话，因此在设置功率因数校正和ECN相关水线时，应在功率因数校正之前触发ECN

从外卖订单和汽车订单的智能调度，到电子商务平台的智能推荐，到人脸识别支付和即将到来的无人驾驶汽车的全自动批量生产，人工智能技术的应用已经影响到人们生活和工作的方方面面，使得每个人的生活更加方便和耗时。然而，这离不开基础设施的支持。瑞捷网络将凭借其在数据通信领域近20年的技术积累和行业经验，创新更好的产品和解决方案，帮助人工智能技术蓬勃发展。

如何设计支持人工智能的高性能数据中心网络架构？

2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。谷歌宣布了2020年的扩张计划，计划在11个州投资100多亿美元建设办公室和数据中心，包括加州、科罗拉多州和乔治亚州。

心灵鸡汤：

标题：如何设计支持人工智能的高性能数据中心网络架构？

地址：http://www.yunqingbao.cn/yqbxx/348.html

如何设计支持人工智能的高性能数据中心网络架构？

云情报推荐资讯

杨志国:金融业绿色数据中心系列规范的背景和意义

酷狗音乐这次把“音乐圈”做成了“朋友圈”，我围观了三天

下载 Zalo PC 电脑版

率先推出5G商用芯片终端。华为对5G有什么影响？

大唐电信集团计划重组:加快通信行业央企整合

光绪元宝值多少钱？揭秘天价与白菜价的秘密

“冀饭票”点亮河北数字生活新图景！

《民族圣光墨韵千年》特别推荐艺术家--李龙

云情报最新资讯

西安碑林区百脑汇哪家靠谱？益鑫安创：17年口碑领先的老牌强者

旺地集团美国 OTC 启动仪式暨项目发布会圆满举行开启全球化资本新征程

控价公司如何保障品牌方权益

淘_宝品牌控价流程解析

上汽大众ID.ERA之夜摘金扬花奖最具潜力女演员

低碳贝贝歌词下载全攻略：新手必看指南

云情报热文榜

20265月更新欧米茄（OMEGA）官方售后网点权威核验报告（真实用户评价 + 全国地

2026集成吊顶十大品牌榜单发布差异化创新引领行业升级

聚焦家庭出行需求瑶光C-DM寰球版/宋L DM-i全维度实力PK

数字经济浪潮下，河南财联以技术硬实力，赋能企业数字化新征程

低碳贝贝歌词下载全攻略：新手必看指南

想纹眉不知道选哪款？雾眉、野生眉、丝雾眉怎么选？2026最新眉形适配指南-久

深圳抵押车贷款：盘活车辆资产的便捷途径

月华凝韵芳华加冕｜夏一晴斩获全球中华小姐选美大赛华东地区总冠军

智启数字新境脑次元科技以科创赋能产业高质量发展

伴奏歌词下载陷阱多？三招教你安全获取不翻车