流量采集DIP智能加速网卡: 基于FPGA 可编程网卡的高性能采集方案

FPGA专用网络硬件加速 | Linux环境可编程 | 100G流量卸载｜OVS卸载

受益于近年可编程门阵列(FPGA)技术的发展，我们得以设计全新的软硬结合的高性能流量采集方案用于替代标准网卡的DPDK+Hyperscan方案。以占用较低的内存IO和CPU能力，线速捕获网络报文，并完成特定功能的业务卸载，用户通过API完成后续处理。采用这项技术可为网络流量分析构建在标准服务器，特别是国产化硬件平台架构上实现高密度计算的解决⽅案。有助于解决一直以来国产化平台全流量采集性能相对偏低、稳定性不足的

产品规格

关键特性	适⽤于所有帧⼤⼩的零丢包数据包捕获；所有帧⼤⼩的线速数据包传输；纳秒级精确时间戳；报⽂切⽚、去重等预处理；板载⼤内存缓冲确保在拥塞期间传输数据包；多端⼝同源同宿投递到X86多核队列。
⽹络接口	2/4 10GE/GE（SFP+）；2100GE/40GE(QSFP28/QSFP+)
主机队列	队列数16，多端⼝同源同宿负载均衡到队列
报⽂⽀持	⽀持2层VLAN、4层MPLS标签；VxLAN、GRE/GTP/L2TP/PPTP/PPPOE等隧道报⽂、IPv4、IPv6、ICMP、SCTP等
负载策略	SIP、SIP+SP、DIP、DIP+DP、SDIP、SDIP+SDP、VLAN、ROUND ROBIN、⼴播等策略
匹配条件	源IP、⽬的IP、协议类型、源端⼝、⽬的端⼝； VLAN ID；输⼊接⼝号；报⽂⻓度； MPLS标签；隧道报⽂匹配时可选择内层或者外层。
匹配动作	丢弃；转发到端⼝；转发到主机（接收队列）
⽀持系统	Linux
接⼝API	uuSDK

产品系列

芯片类型

专用网络处理芯片

FPGA芯片

型号

FW-uNIC720

FW-uNIC740

FW-uNIC920

FW-uNIC1044

FW-uNIC1020P

FW-uNIC1040

FW-uNIC1100 （开发板）

FW-uNIC690 （验证平台）

图片

网络接口

2*10GE

2/4*10GE

2*100GE

4*10GE

2*10G/2.5G POS

1*40GE

2*100GE

2*100GE，2*40GE

主机接口

PCIE3.0*8

PCIE3.0*16

PCIE3.0*8

PCIE3.0*16

PCIE3.0*8

内存

8GB DDR4

8/16/32/64GB DDR4

8GB DDR4

8GB DDR3

尺寸

68.9 mm x 111.15mm半高半长

167.65 mm x 111.15mm全高半长

全高3/4长

68.9 mm x 111.15mm半高半长

167.65 mm x 111.15mm全高半长

160MM*210MM

主芯片

CAVIUM OCTEONIII CN7360-AAP 1.5GHZ

Marvell OCTEON TX2 CN9670

Intel Arria10 FPGA

Intel Stratix10 FPGA

Xilinx 690T或者国产FPGA

散热方式

板载散热片被动散热

板载风扇主动散热

板载散热片被动散热

板载风扇主动散热

应用场景

适合高性能流量采集，转发，业务较复杂的场景。如会话管理，协议识别，URL匹配，浮动关键词，前缀五元组，TCP服务质量统计，正则表达式通配符匹配打标签等

适合高性能流量采集，转发，业务较为简单，对散热要求高的场景。如会话流表加速转发，SDH链路协议转换，高性能收发包RSS分发等

产品优势

智能加速网卡 V& DPDK+Hyperscan对比

根据真实网络环境中完成的测试表明，使用智能网卡能使整体系统性能提升2-3倍，减少服务器部署规模的同时，也大量节约了机房空间、电源、冷却和管理等运维成本(OPEX)节省系统成本，具有高性价比。
高性能转发：使用静态buff ring，减少了网卡需要进行IO读取主机desc ring来获取缓存地址的带宽，将带宽更加重复利用与采集，并且减少了对主机内存的访问，避免对上层CPU防存的干扰；集中式释放模式，避免多次少量释放ring bell的IO、CPU占用。通过一系列优化技术，保证智能网卡在线速采集转发报文的同时对主机内存I/O，CPU占用率小。
国产化支持：由于国产CPU单核处理性能受限，国产服务器一般采用NUMA多节点模式增加CPU个数来实现多核心堆叠，导致内存墙问题更加突出。使用标准网卡可能出现性能陡然下降的情况；智能网卡经过优化可以将内存访问进行流水化，从而缩小内存访问时延使采集卡DMA上传性能得到大量提升，达到与INTEL平台相同的采集性。
实现真正的零拷贝：标准⽹卡虽然使⽤DPDK技术将报⽂收到⽤户空间，由于动态内存，要频繁的缓存队列成员申请与释放，在后端业务有较长处理时间时需要将报文进行拷贝存储；使用智能网卡可以配置超大报文缓存队列，使服务器能真正实现零拷贝情况下占用pkt buffer进行一定时间的操作再释放缓存。
高精确度的硬件时间戳：使用多核网卡硬件接口PTP时间戳，比在收取报文后服务器获取时间打上的软件时间戳更加精确，更能体现网络报文的实际情况；而且能减少服务器为获取时间产生的CPU占用。
基于会话或者特定策略的快速转发：对于某些防火墙、IDS/IPS等网安应用，真正需要处理的网络流量占比非常小，常见使用DPDK方案，无法在网卡端识别哪些流量需要处理，只能把所有流量收上来，再在服务器上做筛选清洗，大部分流量再返回到原链路上，浪费了大量的CPU和IO资源。使用智能网卡在入口前端预处理，可以将大部分正常流量转发，只将少部分的关注流量上传到主机，可显著提升系统性能。
完整的RSS功能支持：标准网卡只能对普通报文做RSS分发，对于比如隧道报文无法解析，导致无法保证同一个会话送到同一个CPU队列，常见做法是服务器用专门的核心收包，然后做二次分发。智能网卡可自动解析MPLS、GRE等隧道头部，提取正确的五元组做同源同宿分发到主机多个队列，将同一个会话的报文送到同一个CPU队列处理，提高主机cache一致性。
定制化卸载：标准网卡相比，智能网卡可定制化编程，卸载服务器处理。