利用 Design Gateway 的 IP Core 加速 Xilinx VCK190 评估套件上的 AI 应用

作者：Design Gateway Co., Ltd.

2022-11-18

Xilinx 的 Versal AI Core 系列器件旨在解决有关 AI 推理的最大而独特的难题，该系列使用具有高计算效率的 ASIC 级人工智能计算引擎以及灵活的可编程结构，来构建具有加速器的 AI 应用，以使任何给定的工作负载都能够在实现低功耗、低延迟的同时达到最大效率。

Versal AI Core 系列 VCK190 评估套件采用了该系列内 AI 性能最优的 VC1902 器件。该套件旨在用于需要高吞吐量 AI 推理和信号处理计算性能的设计。VCK190 套件提供比当前服务器级 CPU 高 100 倍的计算能力并提供各种连接选项，因而是适用于从云到边缘计算等众多应用的、理想的评估和原型开发平台。

图 1：Xilinx Versal AI Core 系列 VCK190 评估套件。（图片来源：AMD, Inc）

VCK190 评估套件的主要特点

板载 Versal AI Core 系列器件
- 配备 Versal ACAP XCVC1902 生产芯片
- AI 和 DSP 引擎拥有比当今服务器级 CPU 高 100 倍的计算能力
- 预先构建的合作伙伴参考设计用于快速原型设计
用于前沿应用开发的最新连接技术
- 内置第 4 代 PCIe® 硬 IP，用于高性能设备接口，如 NVMe SSD 和主机处理器
- 内置 100G EMAC 硬 IP，用于高速 100G 网络接口
- DDR4 和 LPDDR4 存储器接口
协同优化型工具和调试方法
- Vivado® ML、Vitis™ 统一软件平台、Vitis AI、AI 引擎工具，用于 AI 推理应用的开发

利用 Xilinx 的 Versal AI Core 系列器件进行 AI 接口加速

图 2：Xilinx 的 Versal AI Core VC1902 ACAP 器件的框图（图片来源：AMD, Inc）

Versal® AI Core 自适应计算加速平台 (ACAP) 是一个高度集成的多核异构器件，可以在硬件和软件层面动态地适应各种 AI 工作负载，使其成为 AI 边缘计算应用或云加速卡的理想选择。该平台集成了用于嵌入式计算的下一代 Scalar 引擎、用于提高硬件灵活性的自适应引擎以及由 DSP 引擎和用于推理和信号处理的革命性 AI 引擎组成的智能引擎。如此集成便形成了一款自适应性强的加速器，在 AI/ML 工作负荷方面超过了传统 FPGA 和 GPU 的性能、延迟和功率效率。

Versal ACAP 平台的亮点

自适应性引擎：
- 自定义存储器层次结构优化了加速器内核的数据移动和管理
- 预处理和后处理功能包括神经网络 RT 压缩和图像缩放
AI 引擎 (DPU)
- 矢量处理器的平铺阵列，通过 XCVC1902 器件达到 133 INT8 TOPS 性能，称为深度学习处理单元或 DPU
- 非常适用于 CNN、RNN 和 MLP 等神经网络；为了适应不断发展的算法，可对硬件进行优化
标量引擎
- 四核 ARM 处理子系统，用于安全、电源和比特流管理的平台管理控制器

VCK190 AI 推理性能

相比目前的服务器级 CPU，VCK190 具有超过其 100 倍的计算性能。以下是一个基于 C32B6 DPU 内核（批处理 = 6）实现的 AI 引擎性能例子。请参考下表，了解 VCK190 上各种神经网络样品的吞吐性能（以帧/秒或 fps 为单位），DPU 工作频率 1250MHz。

否	神经网络	输入尺寸	GOPS	性能 (fps)（多线程）
1	face_landmark	96x72	0.14	24605.3
2	facerec_resnet20	112x96	3.5	5695.3
3	inception_v2	224x224	4	1845.8
4	medical_seg_cell_tf2	128x128	5.3	3036.3
5	MLPerf_resnet50_v1.5_tf	224x224	8.19	2744.2
6	RefineDet-Medical_EDD_tf	320x320	9.8	1283.6
7	tiny_yolov3_vmss	416x416	5.46	1424.4
8	yolov2_voc_pruned_0_77	448x448	7.8	1366.0

表1：VCK190 AI 推理性能示例。

更多关于 VCK190 AI 性能的详细内容，请参见《Vitis AI Library User Guide (UG1354), r2.5.0》，网址：https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board。

Design Gateway 的 IP 内核如何加速 AI 应用的性能？

Design Gateway IP 内核用来处理网络和数据存储协议，且不需要 CPU 干预。这使得该器件成为 CPU 系统完全摆脱复杂的协议处理的理想之选，使得这些系统能够将大部分计算能力用于人工智能应用，包括人工智能推理、前后数据处理、用户接口、网络通信和数据存储访问，从而获得最佳性能。

图 3：使用 Design Gateway IP Core 的 AI 应用实例框图（图片来源：Design Gateway）

Design Gateway 的 TCP 卸载引擎 IP（TOExxG-IP）性能

用传统 CPU 系统处理 10GbE 或 25GbE 的高速、高吞吐量 TCP 数据流需要占用 50% 以上的 CPU 时间，这会降低 AI 应用的整体性能。根据在 Xilinx MPSoC Linux 系统上进行的 10G TCP 性能测试，在 10GbE TCP 传输过程中 CPU 的使用率超过 50%，TCP 发送和接收数据的传输速度可以达到 10GbE 速度的 40% 到 60% 左右，即 400 MB/s 到 600 MB/s。

通过实施 Design Gateway 的 TOExxG-IP Core，在 10GbE 和 25GbE 上进行 TCP 传输的 CPU 使用率可以降低到几乎 0%，而以太网带宽的利用率可接近100%。这允许通过纯硬件逻辑直接在 TCP 网络上发送和接收数据，并以最低的 CPU 占用率和最低的延迟被送入 Versal AI 引擎。下方图 4 显示了 TOExxG-IP 和 MPSoC Linux 系统的 CPU 使用率和 TCP 传输速度对比。

MPSoC Linux 系统的 10G/25G TCP 传输性能比较 图 4：MPSoC Linux 系统和 Design Gateway 的 TOExxG-IP Core 的 10G/25G TCP 传输的性能比较。（图片来源：Design Gateway）

Design Gateway 的 TOExxG-IP 用于 Versal 器件

图 5：TOExxG-IP 系统概览。（图片来源：Design Gateway）

TOExxG-IP 内核实现了 TCP/IP 协议栈（在硬线逻辑中）并与 Xilinx 的 EMAC 硬 IP 和以太网子系统模块连接，以实现 10G/25G/100G 以太网速度的底层硬件接口。TOExxG-IP 的用户接口包括一个用于控制信号的寄存器接口和一个用于数据信号的 FIFO 接口。TOExxG-IP 专用于通过 AXI4-ST 接口与 Xilinx 的以太网子系统连接。用户接口的时钟频率取决于以太网接口的速度（例如 156.625 MHz 或 322.266 MHz）。

TOExxG-IP 的特点

完整的 TCP/IP 协议栈实施，不需要 CPU
支持与 TOExxG-IP 的一对一会话
多会话可以通过使用多个 TOExxG-IP 实例来实现
支持服务器和客户端模式（被动/主动打开和关闭）
支持 Jumbo 框架
通过标准 FIFO 接口提供简单的数据接口
通过单端口 RAM 接口进行简单的接口控制

XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 资源使用情况如下表 2 所列。

系列	器件举例	Fmax (MHz)	CLB Regs	CLB LUTs	切片	IOB	BRAMTILE¹	URAM	设计工具
Versal AI Core	XCVC1902-VSVA2197-2MP-ES	350	11340	10921	2165	-	51.5	-	Vivado2021.2

表 2：Versal 器件的实施统计示例。

有关 TOExxG-IP 的更多详情，请参阅其规格书。可从 Design Gateway 网站下载规格书：

Design Gateway 的 NVMe 主机控制器 IP 性能

具有 PCIe Gen3 x4 或 PCIe Gen4 x4 的 NVMe 存储器接口速度的数据速率分别高达 32Gbps 和 64Gbps。这比 10GbE 的以太网速度高三到六倍。CPU 处理复杂的 NVMe 存储协议以达到最高的磁盘访问速度；相比 10Gbe 以太网的 TCP 协议，这需要更多的 CPU 时间。

Design Gateway 通过开发 NVMe IP 内核解决了该问题，该 IP 内核能够作为独立的 NVMe 主机控制器运行，能够在没有 CPU 参与的情况下直接与 NVMe SSD 通信。这使得 NVMe PCIe Gen3 和 Gen4 固态硬盘的访问效率高、性能好，从而能够简化用户接口和标准功能，实现了使用简单，而不需要 NVMe 协议的知识。如图 6 所示，NVMe PCIe Gen4 固态硬盘的性能可以通过 NVMe IP 实现高达 6GB/s 的传输速度。

NVMe PCIe Gen3 和 Gen4 SSD 的性能比较图 图 6：NVMe PCIe Gen3 和 Gen4 SSD 与 Design Gateway 的 NVMe-IP Core 的性能比较。（图片来源：Design Gateway）

用于 Versal 器件的 Design Gateway NVMe-IP

图 7：NVMe-IP 系统概览图。（图片来源：Design Gateway）

NVMe-IP 的特点

能够实现应用层、事务层、数据链路层和物理层的某些部分在没有 CPU 或外部 DDR 存储器的情况下访问 NVMe SSD
与 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起使用
能够利用 BRAM 和 URAM 作为数据缓冲器，而不需要外部存储器接口
支持六条指令：识别、关断、写入、读取、SMART 和刷新（可选择支持其他命令）

XCVC1902-VSVA2197-2MP-E-S FPGA 器件的 FPGA 资源使用情况，如表 2 所示。

系列	器件举例	Fmax (MHz)	CLB Regs	CLB LUTs	切片	IOB	BRAMTILE¹	URAM	设计工具
Versal AI Core	XCVC1902-VSVA2197-2MP-ES	375	6280	3948	1050	-	4	8	Vivado2022.1

表 3：Versal 器件的实施统计示例。

有关 Versal 器件的 TOExxG-IP 的更多详情，请参阅其规格书。可从 Design Gateway 网站下其载规格书：

Gen4 Xilinx 的 NVMe IP Core 规格书

结语

TOExxG-IP 和 NVMe-IP Core 通过使 CPU 系统完全摆脱计算和内存密集型协议（如 TCP 和 NVMe 存储协议），来帮助加速人工智能应用的性能，这对实时人工智能应用至关重要。这使得 Xilinx 的 Versal AI Core 系列器件能够执行 AI 推理和高性能计算应用，而不会出现网络和数据存储协议处理的瓶颈或延误。

VCK190 评估套件和 Design Gateway 的网络和存储 IP 解决方案能够在 Xilinx 的 Versal AI Core 器件上以最低的 FPGA 资源占用率、极高的功率效率实现 AI 应用的最佳性能。

免责声明：各个作者和/或论坛参与者在本网站发表的观点、看法和意见不代表 DigiKey 的观点、看法和意见，也不代表 DigiKey 官方政策。