型号:

      1. 背景

      数字信号处理是现代通信、雷达和电子对抗设备的重要组成部分。在实际应用中,利用数字信号处理技术对接收数据进行处理,不仅可以实现高精准的目标定位和目标跟踪,还能够将目标识别、目标成像、精确制导、电子对抗等功能进行拓展,实现多种业务的一体化集成。

      在现代雷达系统中,随着有源相控阵和数字波束形成(DBF)技术的广泛应用,接收前端存在大量的数据需要并行处理,并需要保证高性能和低延迟的特点。雷达日益复杂的应用环境,让雷达系统具备自适应于探测目标和环境的能力,数字信号处理部分也需要使用多种更加复杂的算法,并且可以做到算法模块化,以及通过软件配置功能模块的参数,实现软件定义的功能。更大的数据处理带宽能够使雷达获得更高的分辨率,更高的工作频率使得雷达可以小型化,能够在更小的平台上安装,这样对于硬件平台实现也有低功耗的要求。

      在电子对抗设备中,可以在最短的时间内对多个威胁目标进行快速分析和响应,同样需要数字信号处理的相关算法具备高实时,高动态范围和自适应的特点。如何在宽频噪声的环境中寻找到目标的特征数据,如何在宽带范围内制造虚假目标实现全覆盖,数字信号的处理性能是至关重要的设计因素。

      加速云的SC-OPS和SC-VPX产品,针对5G通信和雷达的数字信号处理的要求,结合Intel最新14nm工艺的Stratix10 FPGA系列,提供了一套完整的硬件和软件相结合的解决方案。SC-OPS产品作为单独的硬件加速卡,通过PCIe插卡的方式实现与主机的通信功能,还可以通过多卡级联的方式实现数字信号的分布式处理方案。SC-VPX产品是由FPGA业务单板、主控板和机箱组成的VPX系统。借助于FPGA可编程的特性,加速云提供了高性能数学加速库FBLAS和FFT的RTL级IP,具有高性能和算法参数可配置的特点实现了多重信号分类(MUSIC)和自适应数字波束形成(ADBF)的核心算法,提高了5G通信和雷达在对抗干扰方面的性能。为了方便客户使用高层语言开发,加速云提供基于FPGA完整的OpenCL异构开发环境,快速实现用户自定义的信号处理加速方案。

雷达数字信号处理解决方案

图1. 加速云SC-OPS和SC-VPX产品

      2. 方案组成

      2.1 基于SC-OPS产品的系统架构图

雷达数字信号处理解决方案

图2. SC-OPS产品系统框图

      基于SC-OPS产品的系统分别由硬件资源层,算法实现层和应用层三部分组成。

      SC-OPS加速卡作为主要的硬件平台,采用IntelStratix10 GX2800 FPGA器件,集成2753KLE资源和9.2TFLOPS单精度浮点计算能力。单板支持2个40/100G光口或电口,支持板间通信以及设备间级联。板卡支持8个DDR4-2400MHz 72bits位宽的内存通道(ES支持2133MHz),以及PCIeGen3 16Lane的主处理器通信接口。

      通过在主机内插入一张或多张SC-OPS加速卡的形式,可以实现不同性能的硬件集成。以一机八卡服务器为例,整机具备73.6TFLOPS的单精度浮点计算能力,并具有纳秒级低延时特性,可应用于高性能的数字信号处理的解决方案。加速云在算法实现层提供了基于FPGA逻辑实现的高性能数学加速库FBLAS,FFT,MUSIC和ADBF核心算法,以上功能模块都是以IP形式提供,并提供相应的API接口函数,通过PCIe接口实现在应用层的调用,从而可以搭建软件定义雷达系统,实现超高性能高灵活的雷达仿真平台。对于更加关注于自定义算法实现的用户来说,加速云还可以支持面向OpenCL的FPGA异构平台开发环境,提供了SC-OPS板卡对应的BSP,用户只需要自行编写OpenCL Kernel和Host程序,即可以快速的实现相关算法的二次开发。

      2.2 基于SC-VPX产品的系统架构图

雷达数字信号处理解决方案

图3. SC-VPX产品系统框图

      基于SC-VPX产品的系统,与SC-OPS相比,区别在于硬件平台实现。SC-VPX系统由5块FPGA业务单板,1块X86主控板和6U标准VPX机箱组成。其中FPGA业务单板采用板载XEON-DX86主控和1~2片Stratix10 GX2800 FPGA器件的方案,集成2753K*2 LE资源和9.2 *2 TFLOPS单精度浮点计算能力。每片FPGA支持4个DDR4-2400MHz 72bits位宽的内存通道。前面板支持8个17.5Gbps光口,背板提供32个10.3125Gbps的高速接口,支持业务单板之间的全mesh高速互联网络,X86主控板与业务单板之间采用PCIe和GE的双控通信方案。

      用户可以选择加速云提供的主控板和多块FPGA业务单板,整机最高可以支持92TFLOPS单精度浮点处理能力,配合相关算法IP,实现多种数字信号处理的算法或者分布式实现大容量数据处理的算法。由于SC-VPX整套系统都是符合OpenVPX的标准,用户可以添加其他各种功能板卡,包括AD/DA板、RapidIO交换板、存储板等,结合加速云的主控板和FPGA业务单板,组建成一套完整的信号接收处理雷达系统,无论是应用于相关产品还是科研,都可以帮助用户实现系统级的解决方案。

      3. 系统优势

      3.1优异的能效比

      能效比是评估数字信号处理时一个关键的指标,即GFLOPS per Watt。表1中罗列了各类设备平台的数字信号处理能力的能效比,加速云采用IntelStratix10 FPGA的方案具备最优的能效比。

雷达数字信号处理解决方案

表1. 各平台数字信号处理能力效能比的对比

      3.2 FPGA IO灵活可编程

      FPGA最大的特点在于IO可编程,可以提供各种高速和低速IO的协议标准,匹配用户实现多样系统互联的要求。比如SC-OPS板卡的2个高速互联接口,分别可以配置为40GE,100GE或SRIO的标准。SC-VPX FPGA业务单板的背板提供32个10.3125Gbps的高速接口支持与背板间的全mesh网络接口,分别可以配置为10GE,40GE或SRIO的标准。

      3.3高性能的算法IP

      加速云基于FPGA平台上提供了数字信号处理相关算法的IP,IP的性能决定了数字信号处理系统的性能,包括动态范围,信号损耗,信噪比,延时等因素。

      以信号处理中常用的FFT傅里叶变换为例,相比最新的DSP平台,加速云提供的RTL级IP,使用FPGA符合IEEE 754标准的单精度浮点数字信号处理(DSP)单元,可以实现更低的计算时间。

雷达数字信号处理解决方案

表2. DSP和FPGA平台实现FFT算法的计算时间对比

      以下是加速云提供的基于FPGA实现高性能数学加速库FBLAS的相关性能。可以看出,借助FPGA天然的并行处理的优势,加速云提供的算法IP,可以帮助用户实现数字信号处理系统的快速优化,极大缩短了用户产品Time-to-Market的时间。

雷达数字信号处理解决方案

表3. FPGA实现高性能数学加速库FBLAS性能示例

      3.4完整的OpenCL异构开发环境

      加速云SC-OPS和SC-VPX产品都可以支持面向OpenCL的FPGA异构平台开发环境,提供全面的数学库支持,解决了传统FPGA遇到的时序收敛、DDR存储器管理以及PCIe主处理器接口等难题。另外加速云也支持将高性能算法IP作为定制化组件,与OpenCLKernel集成在一起,提供灵活的算法配置解决方案。

      4. 应用案例

      4.1多重信号分类(MUSIC)

      MUSIC算法是经典的空间谱估计算法,实现波达方向估计(DOA)的相关应用。在电子侦察和电子对抗等对实时性要求严格的领域中,如何选用合适的平台实现并满足系统的响应处理速度,成为了设计者颇为头疼的问题。整个MUSIC算法计算复杂度和灵活度都很大,而且电子对抗系统都有浮点处理的要求,所以大多用户会采用DSP处理器的方案,处理时间停留在ms量级。加速云采用Intel集成全新浮点计算单元的FPGA,全硬件实现了基于MUSIC算法的空间谱估计DOA全部算法(MUSIC算法是基于加速云高性能数学加速库FBLAS搭建的,所有组成IP都可以单独调用)。相比DSP处理器,极大提升了MUSIC算法的实时性,超过10倍以上的性能改进。

雷达数字信号处理解决方案

图3. FPGA实现MUSIC算法的处理流程

      MUSIC算法实现的相关性能如下:

      Ø 特征值和特征向量的数值相对Matlab中EIG函数计算结果的偏差均小于10-5

      Ø 算法实现以单精度浮点为主,结合部分双精度浮点

      Ø 全部处理时间<120us(TI6678的处理时间是ms级)

      4.2自适应数字波束形成(ADBF)

      随着有源相控阵雷达的广泛应用,如何有效增强期望信号和抑制无用信号,也是设计者需要考虑的问题。ADBF技术利用天线阵元的采样数据,自适应更新信号的权值,使阵列天线形成特定的期望形状。由于天线阵元通道数量大,需要实现海量数据的计算,相关平台实现必须具有高集成度、高数据吞吐率和高数据并行计算的特点。

雷达数字信号处理解决方案

图4. DBF原理示意图

      加速云借助高性能数学加速库FBLAS,通过高维数的矩阵求逆的算法,完全在FPGA内实现了ADBF的算法。

      ADBF算法实现的相关性能如下:

雷达数字信号处理解决方案

   方位维天线方向图 俯仰维天线方向图

雷达数字信号处理解决方案

      5. 结论

      通过参与了国内众多实际雷达数字信号处理相关产品或是科研的研发和技术合作,加速云累计了大量的经验,在此基础上推出的SC-OPS和SC-VPX产品及高性能数学加速库FBLAS、多重信号分类(MUSIC)、自适应数字波束形成(ADBF)等IP库,可以帮助用户实现系统级的解决方案。通过持续推出高密度高性能硬件平台,高性能RTL级加速IP,配合高性能分布式软件搭建高性能、低延时灵活配置的软件定义平台,推动了雷达和电子对抗设备向更先进设备的演变。


时间: 2018 - 11 - 01
型号:

一、 方案概述

      最近几年大数据和计算力的快速增长使得深度学习技术有了质的飞跃,从而在计算机视觉、语音识别、自然语言处理等领域出现了重大突破。然而深度学习需要大量的并行计算,对硬件平台有极高的要求,传统的计算机是无法满足的。现有的解决方案是使用GPU来完成深度学习的训练,但GPU的功耗太高,性能功耗比差,处理延时大,在大规模推理部署和一些对延时敏感的场景就不是很适合。由于FPGA具有很高的性能功耗比,而且基于门级电路设计使得FPGA是一个超低延时和确定延时的方案,FPGA的可编程性及动态可重构可以适应深度学习未来算法的变化,IO可编程性可以满足更多业务需求(网络加速,边缘计算),因此基于FPGA的深度学习方案成为未来技术发展方向。

     为此加速云推出一整套基于FPGA的深度学习加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速库,快速满足市场需求。SC-OPS基于Intel最新14nm工艺的Stratix10 FPGA,能够提供2800K LE及9.2TFLOPS的计算性能,支持8个DDR4控制器,提供高达150GB/S访存带宽,提供PCIe*16Lane接口,支持高达128Gbps的访问速度,是全球第一张最高性能FPGA加速卡,可以满足数据中心高性能深度学习加速。SC-OPM/SC-OPF基于Intel最20nm工艺的 ARRIA 10 FPGA,能够提供1150K~2*1150K LE及1.5~2TFLOPS计算性能,可以满足数据中心和边缘计算网关深度学习加速。为了满足客户对深度学习高性能、灵活性加速要求,加速云开发了一套基于RTL的深度神经网络加速库FDNN,可以实现参数可配置的CNN/DNN/LSTM,也提供高性能的常见网络模型加速库(包括Lenet,VGG16,Darknet19,YOLOV2,RestNet,DNN,LSTM)。为了方便客户使用高层语言开发,加速云提供基于FPGA完整的OpenCL异构开发环境,快速实现用户自定义的深度学习加速方案。同时加速云也提供快速深度神经网络定制加速服务。

       方案优势:

      A. 高性能集成IP,便于使用和二次开发

      B. 丰富IO接口,方便灵活扩展

      C. 模块化设计,支持各种应用场景

      D. 高性能功耗比,降低运营成本

      E. 超低延时及确定性延时,支持时间敏感型应用场景

 

      二、 系统结构

 

基于FPGA的深度学习解决方案

      为了满足不同客户的需求,加速云提供三个层次的深度学习加速IP:L1/L2/L3.

      L1实现深度学习的基本算子:卷积、池化、全连接、非线性函数,系统的调度由软件实现,这样可以实现最灵活的深度学习库方案,但相应性能较弱。

      L2实现参数可配置的CNN处理器,包括基本算子和调度器都有FPGA实现,

      L3根据具体的网络实现全定制的网络加速,性能非常高,但不可以配置。常见各种模型包括:VGG16  , Lenet , YoloV2 ,Darknet19 , Resnet、LSTM、DNN等。

      所有的深度学习加速IP通过软件SDK调用,SDK API接口兼容CAFFE/TensorFlow相关接口。

基于FPGA的深度学习解决方案

 

参数可配置的L2-FDNN结构

      三、 性能指标

基于FPGA的深度学习解决方案

 

       四、 应用案例

      图片OCR应用;某电商平台每天要面对大量的客户开店和业务申请需求,需要大量的营业执照等证件审核,传统采用人工审核方法,但随着业务的增长,人工审核是不可能完成,采用深度学习的图片OCR就是一个很好的解决方案。基于深度学习的图片OCR方案包括文字定位和文字识别两部分,文字定位采用4层CNN网络,文字识别采用4层双向LSTM,由于CNN部分计算量不大,主要的计算量在LSTM,因此对LSTM部分加速。原有方案采用GPU完成,但存在两个问题:1.处理延时很大,不能满足要求 2.有些图片中的文字超长,在超长文字和一般长度文字一起送入GPU处理时一般长度文字处理时间和超长文字时间一样,这使得业务无法到达上线条件。

具体LSTM规格如下:

 


基于FPGA的深度学习解决方案

 

      加速云采用FPGA方案实现完成的双向LSTM的加速,从而满足客户要求,具体方案特性如下:

      • 采用SC-OPM加速卡(半高半长:56*167mm)

      • Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

      • 四层LSTM+1层全连接,各层网络参数可以软件配置下载

      • 可以实现40000T/S的流量,延时超低,数据长度可以混合长度

      • 单卡只有33W

      图片目标识别;目标识别在很多场景中都广泛应用如人脸识别、车牌识别、物品识别等。传统的目标识别采用机器学习的方法,随着深度学习的快速发展都采用端到端的卷积神经网络实现,从而大大提高了识别率。基于深度学习的目标识别方法也有很多种:R-CNN/Fast R-CNN,YOLO是一种新的目标检测的方法,该方法的特点是实现快速检测的同时还可以达到较高的识别率。相对于其他目标识别方法将目标识别任务分为目标区域和类别预测等多个流程,YOLO将目标区域预测和类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更合适很多应用场景。

基于FPGA的深度学习解决方案

      加速云采用FPGA方案实现深度神经网络YOLOV2(NMS是软件实现),具体方案特性如下:

      • 采用SC-OPM加速卡(半高半长:56*167mm)

      • Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

      • 22层卷积,各层网络参数可以软件配置下载,1层NMS是软件实现

      • 可以实现单精度浮点43帧/S,INT8 86帧/S,图像分辨率为224*224

      • 单卡只有34W

时间: 2018 - 11 - 01
相关推荐 / Recommend
2013 - 11 - 29
SC-OPM是加速云专为SBB架构的高密度刀片服务器定制的加速卡,可以插入各种高密度服务器。采用Altera最新20nm工艺的A10 660/1150 FPGA,集成 660K/1150k LE和1.5T/1.3T FLOPS单精度浮点处理能力,单板支持2个40GE电口,提供2*40GE的互联能力,板载3个DDR4,支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号...
2013 - 11 - 29
SC-OPS是加速云推出新一代PCIe加速卡,采用Intel最新 14 纳米制造工艺,比上一代芯片核心性能提升了 2 倍,功耗降低多达 70%,芯片集成2753KLE和9.2T FLOPS单精度浮点处理能力;板载8个72bit 2400MHz DDR4内存控制器(ES芯片支持2133MHz),最大支持64GB内存容量,支持153.6GB/S的访问带宽;单板支持2个标准QSFP ...
2013 - 11 - 29
SC-OPF 是加速云推出新一代加速卡,采用两颗Intel Arria10 GX660/GX1150器件,单颗芯片集成660/1150K LE和1.5T/1.3T FLOPS单精度浮点处理能力;单板支持4个40G光口或者电口,支持板间通讯以及设备间级联;板载6个DDR4通道, 支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计算等领域。为了方便...
2018 - 10 - 17
SC-FDNN是加速云推出基于FPGA可配置深度学习网络加速引擎,为基于FPGA深度学习研究搭建了一个整体灵活高效的软硬件开发环境,极大的简化了FPGA深度学习研究的开发过程并缩短了深度学习网络FPGA实现的研发周期,降低了广大科研人员使用FPGA进行深度学习神经网络开发的技术门槛,在高性能和高灵活性之间达到了较好平衡,可灵活可配的进行FPGA深度学习网络模型搭建,同时也能获得较高的处理性能。可以...
TEL:0571-81112331 (周一至周五 9:00-18:00)
E-mail:customer@speed-clouds.com
Address:杭州市西湖区文一西路830号蒋村商务中心B1-4F
  • 二维码名称
    二维码名称
    扫一扫

Share us:

Copyright ©2018 - 2020 杭州加速云信息技术有限公司  犀牛云提供企业云服务
犀牛云提供企业云服务
X
1

QQ设置

3

SKYPE 设置

4

阿里旺旺设置

5

TEL

  • 0571-81112331
6

官方公众号

返回顶部
展开