产品名称

SC-FBLAS

产品类别:


SC-FBLAS 是加速云推出基于FPGA高性能数学加速库的RTL级IP集合,针对数字信号处理,加速云SC-FBLAS提供了FFT,QR分解,线性方程求解,协方差矩阵,矩阵求逆等高性能的信号处理算法IP,可以帮助用户实现数字信号处理系统的快速优化,极大缩短了用户产品Time-to-Market的时间。

可以广泛应用于雷达、电子对抗、5G通信、高性能仿真等需要高性能处理能力和低延时计算的信号处理领域。



SC-FBLAS

规格列表

可以实现矩阵乘、矩阵分解、矩阵求逆、线性方程求解、微分方程求解、三角函数、非线性函数、超越函数、傅里叶运算等数学函数,具体见下表:

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

表1. SC-FBLAS部分规格列表

性能指标

加速云基于FPGA平台上提供了数字信号处理相关算法的IP,IP的性能决定了数字信号处理系统的性能,包括动态范围,信号损耗,信噪比,延时等因素。以信号处理中常用的FFT傅里叶变换为例,相比最新的DSP平台,加速云提供的RTL级IP,使用FPGA符合IEEE 754标准的单精度浮点数字信号处理(DSP)单元,可以实现更低的计算时间。

SC-FBLAS

表2. DSP和FPGA平台实现FFT算法的计算时间对比


SC-FBLAS 相关IP性能参数

SC-FBLAS

SC-FBLAS

表3. 部分FPGA实现高性能数学加速库FBlas性能示例




      可以实现矩阵乘、矩阵分解、矩阵求逆、线性方程求解、微分方程求解、三角函数、非线性函数、超越函数、傅里叶运算等数学函数,具体见下表:

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

SC-FBLAS

表1. SC-FBLAS部分规格列表


      加速云基于FPGA平台上提供了数字信号处理相关算法的IP,IP的性能决定了数字信号处理系统的性能,包括动态范围,信号损耗,信噪比,延时等因素。以信号处理中常用的FFT傅里叶变换为例,相比最新的DSP平台,加速云提供的RTL级IP,使用FPGA符合IEEE 754标准的单精度浮点数字信号处理(DSP)单元,可以实现更低的计算时间。

FFTSize

PerformanceofComputingFFT (time, ms) using TMS320C6678

1 core

2 cores

4 cores

8 cores

16K

0.473

0.261

0.159

0.131

FFT Size

Performance of Computing FFT (time, ms) using FPGA

1 PE

2 PEs

4 PEs

8 PEs

16K

0.16

0.04

0.01

0.003

2. DSP和FPGA平台实现FFT算法的计算时间对比

 

SC-FBLAS 相关IP性能参数

算法名称

参数

数据格式

处理性能

矩阵求逆

144*144维复数

FP32

120us

矩阵求逆

72*72维复数

FP32

53.6us

矩阵求逆

24*24维复数

FP32

10.32us

矩阵求逆

12*12维复数

FP32

3.76us

矩阵QR分解

64*64维复数

FP32

46.41us

矩阵QR分解

16*16维复数

FP32

4.99us

矩阵QR分解

8*8维复数

FP32

2.5us

特征值分解(基于QR分解,16次迭代)

64*64维复数

FP32

5200us

特征值分解(基于QR分解,16次迭代)

16*16维复数

FP32

150us

特征值分解(基于QR分解,16次迭代)

8*8维复数

FP32

65us

协方差矩阵(快拍数K=256,通道数N=8

8维复向量

FP32

30us

协方差矩阵(快拍数K=256,通道数N=16

16维复向量

FP32

60us

协方差矩阵(快拍数K=256,通道数N=64

64维复向量

FP32

128us

线性方程求解

200维

FP64

420us

3. 部分FPGA实现高性能数学加速库FBlas性能示例



MUSIC算法是经典的空间谱估计算法,实现波达方向估计(DOA)的相关应用。在电子侦察和电子对抗等对实时性要求严格的领域中,如何选用合适的平台实现并满足系统的响应处理速度,成为了设计者颇为头疼的问题。整个MUSIC算法计算复杂度和灵活度都很大,而且电子对抗系统都有浮点处理的要求,所以大多用户会采用DSP处理器的方案,处理时间停留在ms量级。加速云采用Intel集成全新浮点计算单元的FPGA,全硬件实现了基于MUSIC算法的空间谱估计DOA全部算法(MUSIC算法是基于加速云高性能数学加速库FBLAS搭建的,所有组成IP都可以单独调用)。相比DSP处理器,极大提升了MUSIC算法的实时性,超过10倍以上的性能改进。

SC-FBLAS

图. FPGA实现MUSIC算法的处理流程

MUSIC算法实现的相关性能如下:

1.特征值和特征向量的数值相对Matlab中EIG函数计算结果的偏差均小于10-5

2.算法实现以单精度浮点为主,结合部分双精度浮点

3.全部处理时间<120us(TI6678的处理时间是ms级)

自适应数字波束形成(ADBF)

    随着有源相控阵雷达的广泛应用,如何有效增强期望信号和抑制无用信号,也是设计者需要考虑的问题。ADBF技术利用天线阵元的采样数据,自适应更新信号的权值,使阵列天线形成特定的期望形状。由于天线阵元通道数量大,需要实现海量数据的计算,相关平台实现必须具有高集成度、高数据吞吐率和高数据并行计算的特点。

SC-FBLAS

图. DBF原理示意图

加速云借助高性能数学加速库FBLAS,通过高维数的矩阵求逆的算法,完全在FPGA内实现了ADBF的算法。

ADBF算法实现的相关性能如下:

SC-FBLAS

SC-FBLAS

方位维天线方向图 俯仰维天线方向图

SC-FBLAS

相关推荐 / Recommend
2013 - 11 - 29
SC-OPM是加速云专为SBB架构的高密度刀片服务器定制的加速卡,可以插入各种高密度服务器。采用Altera最新20nm工艺的A10 660/1150 FPGA,集成 660K/1150k LE和1.5T/1.3T FLOPS单精度浮点处理能力,单板支持2个40GE电口,提供2*40GE的互联能力,板载3个DDR4,支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号...
2013 - 11 - 29
SC-OPS是加速云推出新一代PCIe加速卡,采用Intel最新 14 纳米制造工艺,比上一代芯片核心性能提升了 2 倍,功耗降低多达 70%,芯片集成2753KLE和9.2T FLOPS单精度浮点处理能力;板载8个72bit 2400MHz DDR4内存控制器(ES芯片支持2133MHz),最大支持64GB内存容量,支持153.6GB/S的访问带宽;单板支持2个标准QSFP ...
2013 - 11 - 29
SC-OPF 是加速云推出新一代加速卡,采用两颗Intel Arria10 GX660/GX1150器件,单颗芯片集成660/1150K LE和1.5T/1.3T FLOPS单精度浮点处理能力;单板支持4个40G光口或者电口,支持板间通讯以及设备间级联;板载6个DDR4通道, 支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计算等领域。为了方便...
2018 - 10 - 17
SC-FDNN是加速云推出基于FPGA可配置深度学习网络加速引擎,为基于FPGA深度学习研究搭建了一个整体灵活高效的软硬件开发环境,极大的简化了FPGA深度学习研究的开发过程并缩短了深度学习网络FPGA实现的研发周期,降低了广大科研人员使用FPGA进行深度学习神经网络开发的技术门槛,在高性能和高灵活性之间达到了较好平衡,可灵活可配的进行FPGA深度学习网络模型搭建,同时也能获得较高的处理性能。可以...
TEL:0571-81112331 (周一至周五 9:00-18:00)
E-mail:customer@speed-clouds.com
Address:杭州市西湖区文一西路830号蒋村商务中心B1-4F
  • 二维码名称
    二维码名称
    扫一扫

Share us:

Copyright ©2018 - 2020 杭州加速云信息技术有限公司  犀牛云提供企业云服务
犀牛云提供企业云服务
X
1

QQ设置

3

SKYPE 设置

4

阿里旺旺设置

5

TEL

  • 0571-81112331
6

官方公众号

返回顶部
展开