型号:



FDNN是加速云推出的基于FPGA可配置深度学习网络加速引擎,它为基于FPGA的AI产品开发搭建了一个整体灵活、高效的软硬件开发环境,能够极大地简化基于FPGA的深度学习研究、缩短深度学习网络FPGA实现的研发周期。SC-FDNN可以广泛应用于深度学习、机器视觉、边缘计算等领域。


系统架构


FDNN可配置神经网络



三层模型产品解决方案


FDNN可配置神经网络


为了满足不同客户的需求,SC-FDNN提供三个层次的深度学习加速IP:L1/L2/L3。加速云FPGA 深度学习计算加速解决方案 由L1~L3 三个层次的深度学习算法IP和接口IP以及对应的配套软件工具组成。



L1层的算法IP


该层级主要实现深度学习的基本算子:卷积、池化、全连接、非线性函数。

支持5x5,3x3,1x1的卷积(卷积核大小支持配置);

支持最大值池化(Max Pooling)和平均值池化(Average Pooling);

支持全连接,支持激活函数可配置,支持Sigmoid,Tanh,Relu,Relu6,Leakyrelu,ELU等选项。

L1层仅完成核心算子的加速,提供对应的SDK接口、用于算子的调用;用户层软件需要控制计算流程,对数据输入和计算结果数据进行处理。该层灵活性最大,客户可根据自己的需要来实现任意深度学习模型;由于存在频繁的数据交互和过程调用,因而该层加速比相对较低。

 


L2层的可配置FDNN处理器


L2实现参数可配置的CNN处理器,包括基本算子和调度器都在FPGA内部实现;这些实现对用户是透明的,用户只需先将在具体模型网络(例如Tensorflow)下得到的训练结果文件转换成FDNN的模型所定义的格式,再通过SDK 就可以将具体的算法在高性能的FPGA硬件系统上实现。本层保持较大的灵活性,同时兼顾高性能的计算加速。

 


L3层的高性能神经网络算法IP


L3层实现全定制的加速网络,性能非常高,支持网络模型参数配置。已实现的常见各种模型包括:VGG16、Lenet、YoloV2、Darknet19、Resnet、LSTM、DNN等。


FDNN可配置神经网络




时间: 2019 - 07 - 03
型号:


背景介绍


随着数字波速形成(DBF)技术的广泛应用,现代雷达系统的接受前端存在大量的数据需要并行处理,并需要保证高性能和低延迟特点;同时空间复杂信号环境中不仅存在所需的信号,而且还存在大量的干扰信号,要降低干扰的影响,最好的方法是使其天线的方向图零点位置始终指向干扰方向,同时保证主瓣对准所需信号的来波方向。


自适应数字波束形成(ADBF)是自适应天线阵列用于复杂信号环境,针对接收信号的一种波控技术。其基本思想是通过LCMV自适应算法对各阵元输出加权求和,使阵列的输出对不同空间方向的信号产生不同的响应;使天线阵列波束指向期望信号的同时,在干扰方向形成“零点”,即通过空域滤波达到抑制干扰。


自适应数字波束形成(ADBF)

          

采用自适应ADBF置零技术,既可以抑制连续波压制式干扰,也可抑制脉冲式灵巧干扰,同时可抑制空间多个有源干扰



系统规格


有源相控阵雷达天线的部分参数如下:

阵面子阵数:72x54                               子阵单元:2x2

阵元间距为:半波长                              方位向扫描角:±45°

俯仰向扫描角:±30°                            方位向泰勒加权:30dB

俯仰向泰勒加权:30dB



干扰方向个数为4个,其来波方向为(方位,俯仰):

[-20°,20°]、[-15°,25°]、[5°,13°]和[18°,-10°],其中阵列波束指向[10°,5°]


 

FPGA实现性能指标

自适应数字波束形成(ADBF)



案例介绍


加速云基于FPGA高性能数学加速库的IP处理大规模数字信号处理能力,利用算法硬件化的工程经验,针对有源相控阵雷达对抗旁瓣干扰和主瓣干扰的场景,选用自适应数字波束合成(ADBF)算法,为中国电子科技集团XX研究所实现ADBF算法工程项目(54通道×512快拍,72通道×512快拍)。算法实施包括:矩阵求逆、加载因子计算和对角加载等,包括整个计算资源调度均在Xilinx ®V7 690T系列FPGA器件上实现。结果表明,大大提高了有源相控阵雷达在对抗干扰方面的性能。

 


时间: 2019 - 07 - 03
型号:



某电商平台每天要面对大量的客户开店和业务申请需求,需要对海量的营业执照等证件审核。随着业务的增长,传统人工审核是不可能完成;采用深度学习的图片OCR(光学字符识别)就是一个很好的解决方案。基于深度学习的图片OCR方案包括文字定位和文字识别两部分,文字定位采用4层CNN网络,文字识别采用4层双向LSTM。由于CNN部分计算量不大,主要的计算量在LSTM,因此对LSTM部分加速。一般方案采用GPU完成,但存在两个问题:1.处理延时很大,不能满足要求 2.有些图片中的文字超长,在超长文字和一般长度文字一起送入GPU处理时二者所用时间一样,这使得业务无法到达上线条件。


LSTM模型及FPGA加速方案


基于FPGA的图片OCR解决方案



系统规格


加速云采用FPGA方案实现双向LSTM的加速,满足客户要求;具体方案特性如下:

1.采用SC-OPM加速卡(半高*半长:56mm*167mm)

2.Intel®Arria10 GX660器件,集成 660k LE,具备1.5T FLOPS 单精度浮点处理能力

3.四层LSTM+1层全连接,各层网络参数可以软件配置下载

4.可以实现40000T/S的流量,延时超低,数据长度可以为混合长度

5.单卡只有33W



应用场景


该方案可应用在各种图片文字识别的场景(例如档案文件的图片转文字),如果应用在军事领域,可包含军舰舷号图像识别、飞机编号识别,敏感词涉密信息鉴别等方向,可以满足高性能的OCR识别算法加速以及超低延时的实时性要求。


基于FPGA的图片OCR解决方案



时间: 2019 - 07 - 03
型号:


背景介绍


MUSIC算法是经典的空间谱估计算法,实现波达方向(DOA)估计的相关应用。在电子侦察和电子对抗等对实时性要求严格的领域中,实现该算法将对提升整体装备的性能具有重大的意义,但如何移植到平台实现并满足系统的响应处理速度,成为了设计者颇为头疼的问题。整个MUSIC算法计算复杂度和灵活度都很大,而且电子对抗系统都有浮点处理的要求,对系统移植需要有很强的开发能力与工程化的团队。加速云采用基于FPGA的浮点技术,将算法移植到FPGA中实现了基于MUSIC算法的DOA空间谱估计。全部算法极大提升了MUSIC算法的实时性,相比于传统实现,具有5倍左右的性能提升。


多重信号分类算法(MUSIC)



实现方案


多重信号分类算法(MUSIC)



系统规格


多重信号分类算法(MUSIC)



性能指标


多重信号分类算法(MUSIC)



方案优势 


比起传统算法,MUSIC算法的FPGA实现具有如下显著特点: 

性能高(比TI的DSP处理器实时性强,性能提升了5倍左右);

 功耗低、集成度高、灵活性强;

 能够突破阵列的瑞利限; 

 能适应多信号、小角度、低信噪比等复杂环境; 

 方向入射相干信号,能有效对抗诱饵干扰; 

算法灵活,易于改进,且适用于无源设备


案例介绍


加速云参与并完成了中国电子科技集团XX所的干扰角度超分辨定位(MUSIC)算法实现,此项目为型号类项目;加速云负责算法的评估、FPGA实现,解决了客户在遇到实时高维数矩阵运算的问题。客户之前用FT 6678 DSP上进行了开发,一直无法用基于 Xilinx FPGA V7平台实现;加速云通过将整个算法移植到FPGA,大大地提高了有源相控阵雷达在对抗干扰方面的性能。

 

 






时间: 2019 - 07 - 03
相关推荐 / Recommend
2013 - 11 - 29
SC-OPM是加速云专为SBB架构的高密度刀片服务器定制的加速卡,可以插入各种高密度服务器。采用Altera最新20nm工艺的A10 660/1150 FPGA,集成 660K/1150k LE和1.5T/1.3T FLOPS单精度浮点处理能力,单板支持2个40GE电口,提供2*40GE的互联能力,板载3个DDR4,支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号...
2013 - 11 - 29
SC-OPS是加速云推出新一代PCIe加速卡,采用Intel最新 14 纳米制造工艺,比上一代芯片核心性能提升了 2 倍,功耗降低多达 70%,芯片集成2753KLE和9.2T FLOPS单精度浮点处理能力;板载8个72bit 2400MHz DDR4内存控制器(ES芯片支持2133MHz),最大支持64GB内存容量,支持153.6GB/S的访问带宽;单板支持2个标准QSFP ...
2013 - 11 - 29
SC-OPX 是加速云推出新一代加速卡,采用Intel Stratix10 系列芯片,集成2073K LE和6.3T FLOPS单精度浮点处理能力;支持4路QSFP28 100G光接口,兼容40G光接口;支持2组DDR4 @2400Mhz ,72bit位宽,支持ECC,支持2*4GB容量,访问带宽38.4GB/S;可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计...
2018 - 09 - 20
加速云SC-VPX系统是一套符合6U VPX VITA 46.0规范、兼容Open VPX 标准,采用FPGA实现计算加速的高性能加速系统。系统包括机箱、主控板、业务单板等组成部分,采用高速互联结构,是目前单板计算密度最高的FPGA加速系统。为了满足各种场景的需求,加速云提供高性能的业务板卡(SC-VPX-IS),异构信号处理板卡(SC-VPX-IV),也提供满足国产化的飞腾+...
TEL:0571-81112331 (周一至周五 9:00-18:00)
E-mail:customer@speed-clouds.com
Address:杭州市西湖区文一西路830号蒋村商务中心B1-4F
  • 二维码名称
    二维码名称
    扫一扫

Share us:

Copyright ©2018 - 2020 杭州加速云信息技术有限公司  犀牛云提供企业云服务
犀牛云提供企业云服务
X
1

QQ设置

3

SKYPE 设置

4

阿里旺旺设置

5

TEL

  • 0571-81112331
6

官方公众号

返回顶部
展开