产品名称

SC-FDNN

产品类别:

SC-FDNN


SC-FDNN是加速云推出基于FPGA可配置深度学习网络加速引擎,为基于FPGA深度学习研究搭建了一个整体灵活高效的软硬件开发环境,极大的简化了FPGA深度学习研究的开发过程并缩短了深度学习网络FPGA实现的研发周期,降低了广大科研人员使用FPGA进行深度学习神经网络开发的技术门槛,在高性能和高灵活性之间达到了较好平衡,可灵活可配的进行FPGA深度学习网络模型搭建,同时也能获得较高的处理性能。

可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计算等领域。

为了方便客户二次开发,我们还可以提供支持面向TensorFLow的SC-FDNN SDK开发环境,解决了传统基于CPU/GPU 的TensorFlow深度学习开发迁移到FPGA硬件加速环境的困难,提高了开发效率和产品稳定性。




系统框图


SC-FDNN


规格列表


SC-FDNN

SC-FDNN

SC-FDNN

性能指标

测试环境:采用Intel Arria 10 GX1150 2*40G, 3DDR4 12GB内存,集成1150K LE和1.3T FLOPS单精度浮点处理能力

1.VGG-16,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 6.28 fps

2.VGG-16,图像规格3x448x448,32-bits单精度浮点运算,处理帧率 1.85 fps

3.Darknet-19,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 26.96 fps

4.Darknet-19,图像规格3x448x448,32-bits单精度浮点运算,帧率 9.22 fps


规格名称

规格描述

输入图像

输入图像格式支持nhwc;


输入图像的通道数支持3CH;

运算精度

支持32-bits单精度浮点;

层结构

层结构基本单元为: 卷积运算/全连接运算+BIAS+BN+激活+池化+SOFTMAX;


构造层结构必须以卷积运算或者全连接运算为基础,二者必选其一;


层结构中,BIAS,BN,激活,池化和SOFTMAX均为可选项,可独立开关;


全连接层结构中,不建议使用BN和池化运算;

模型结构

支持堆叠无分支结构的深度卷积网络模型;


模型深度可配置,目前支持1层~126层;


模型首层类型可配置,支持卷积5x5,3x3,1x1,支持首层为全连接层;


模型末层类型可配置,支持卷积5x5,3x3,1x1,支持末层为全连接层;


模型中间层类型可配置,支持卷积层to卷积层,全连接层to全连接层,

卷积层to全连接层,不支持全连接层to卷积层;

卷积

卷积层输入支持长宽大小一样的特征图,支持最大448x448,最小7x7;


卷积层输出特征图尺寸,支持最大448x448,最小7x7;
当卷积层后的下一层为全连接层,卷积层输出特征图尺寸最大支持32x32;


卷积层输入和输出通道的数量,支持最大2048,支持最小2;


卷积核大小可可配置,支持5x5,3x3,1x1;


卷积步幅(stride)可配置,卷积5x5,步幅支持1,2,3,4;卷积3x3,步幅支持1,2;卷积1x1,步幅支持1;


卷积支持padding,卷积5x5,支持0,1,2,3,4;卷积3x3,支持0,1,2;卷积1x1不支持padding;

池化

池化类型可配置,支持最大值池化(Max Pooling)和平均值池化(Average Pooling);


最大值池化,池化尺寸,步幅和padding可配置,
支持池化尺寸为3x3,步幅支持为1,2,3,同时可支持padding为0,1,2;
支持池化尺寸为2x2,步幅支持为1,2,同时可支持padding为0,1;


平均值池化,池化尺寸,步幅和padding可配置,
支持池化尺寸为3x3,步幅支持为1,2,3,同时可支持padding为0,1,2;
支持池化尺寸为2x2,步幅支持为1,2,同时可支持padding为0,1;


支持Global Average Pooling(池化尺寸=池化步幅=特征图尺寸),尺寸可配置,支持最大63x63,最小2x2;

非线性函数

激活函数可配置,支持sigmoid,tanh,relu,relu6,leakyrelu,ELU,


模型最后一层,支持softmax分类输出,输出可配置,支持2~4000类;


可支持同时实现一种激活函数和softmax;

全连接

全连接层输入向量维度可配置,支持2~393216;


全连接层输出向量维度可配置,支持2~4000;

其它

支持卷积层和全连接层的Bias;


支持Inference的Batch Normalization;



测试环境:采用Intel Arria 10 GX1150 2*40G, 3DDR4 12GB内存,集成1150K LE和1.3T FLOPS单精度浮点处理能力

VGG-16,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 6.28 fps

VGG-16,图像规格3x448x448,32-bits单精度浮点运算,处理帧率 1.85 fps

Darknet-19,图像规格3x224x224,32-bits单精度浮点运算,处理帧率 26.96 fps

Darknet-19,图像规格3x448x448,32-bits单精度浮点运算,帧率 9.22 fps

 



SC-FDNN

为了满足不同客户的需求,加速云提供三个层次的深度学习加速IP:L1/L2/L3.

L1实现深度学习的基本算子:卷积、池化、全连接、非线性函数,系统的调度由软件实现,这样可以实现最灵活的深度学习库方案,但相应性能较弱。

L2实现参数可配置的CNN处理器,包括基本算子和调度器都有FPGA实现,

L3根据具体的网络实现全定制的网络加速,性能非常高,但不可以配置。常见各种模型包括:VGG16  , Lenet , YoloV2 ,Darknet19 , Resnet、LSTM、DNN等。

所有的深度学习加速IP通过软件SDK调用,SDK API接口兼容CAFFE/TensorFlow相关接口。

图片OCR应用

某电商平台每天要面对大量的客户开店和业务申请需求,需要大量的营业执照等证件审核,传统采用人工审核方法,但随着业务的增长,人工审核是不可能完成,采用深度学习的图片OCR就是一个很好的解决方案。基于深度学习的图片OCR方案包括文字定位和文字识别两部分,文字定位采用4层CNN网络,文字识别采用4层双向LSTM,由于CNN部分计算量不大,主要的计算量在LSTM,因此对LSTM部分加速。原有方案采用GPU完成,但存在两个问题:1.处理延时很大,不能满足要求 2.有些图片中的文字超长,在超长文字和一般长度文字一起送入GPU处理时一般长度文字处理时间和超长文字时间一样,这使得业务无法到达上线条件。

具体LSTM规格如下:  

SC-FDNN

加速云采用FPGA方案实现完成的双向LSTM的加速,从而满足客户要求,具体方案特性如下:

1.采用SC-OPM加速卡(半高半长:56*167mm)

2.Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

3.四层LSTM+1层全连接,各层网络参数可以软件配置下载

4.可以实现40000T/S的流量,延时超低,数据长度可以混合长度

5.单卡只有33W

图片目标识别

目标识别在很多场景中都广泛应用如人脸识别、车牌识别、物品识别等。传统的目标识别采用机器学习的方法,随着深度学习的快速发展都采用端到端的卷积神经网络实现,从而大大提高了识别率。基于深度学习的目标识别方法也有很多种:R-CNN/Fast R-CNN,YOLOV2是一种新的目标检测的方法,该方法的特点是实现快速检测的同时还可以达到较高的识别率。相对于其他目标识别方法将目标识别任务分为目标区域和类别预测等多个流程,YOLOV2将目标区域预测和类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更合适很多应用场景。

SC-FDNN

加速云采用FPGA方案实现深度神经网络YOLOV2(NMS是软件实现),具体方案特性如下:

1.采用SC-OPM加速卡(半高半长:56*167mm)

2.Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

3.22层卷积,各层网络参数可以软件配置下载,1层NMS是软件实现

4.可以实现单精度浮点43帧/S,INT8 86帧/S,图像分辨率为224*224

5.单卡只有34W


相关推荐 / Recommend
2013 - 11 - 29
SC-OPM是加速云专为SBB架构的高密度刀片服务器定制的加速卡,可以插入各种高密度服务器。采用Altera最新20nm工艺的A10 660/1150 FPGA,集成 660K/1150k LE和1.5T/1.3T FLOPS单精度浮点处理能力,单板支持2个40GE电口,提供2*40GE的互联能力,板载3个DDR4,支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号...
2013 - 11 - 29
SC-OPS是加速云推出新一代PCIe加速卡,采用Intel最新 14 纳米制造工艺,比上一代芯片核心性能提升了 2 倍,功耗降低多达 70%,芯片集成2753KLE和9.2T FLOPS单精度浮点处理能力;板载8个72bit 2400MHz DDR4内存控制器(ES芯片支持2133MHz),最大支持64GB内存容量,支持153.6GB/S的访问带宽;单板支持2个标准QSFP ...
2013 - 11 - 29
SC-OPF 是加速云推出新一代加速卡,采用两颗Intel Arria10 GX660/GX1150器件,单颗芯片集成660/1150K LE和1.5T/1.3T FLOPS单精度浮点处理能力;单板支持4个40G光口或者电口,支持板间通讯以及设备间级联;板载6个DDR4通道, 支持高带宽和大容量的存储访问;可以广泛应用于深度学习、机器视觉、数字信号处理、高性能计算、边缘计算、云计算等领域。为了方便...
2018 - 10 - 17
SC-FDNN是加速云推出基于FPGA可配置深度学习网络加速引擎,为基于FPGA深度学习研究搭建了一个整体灵活高效的软硬件开发环境,极大的简化了FPGA深度学习研究的开发过程并缩短了深度学习网络FPGA实现的研发周期,降低了广大科研人员使用FPGA进行深度学习神经网络开发的技术门槛,在高性能和高灵活性之间达到了较好平衡,可灵活可配的进行FPGA深度学习网络模型搭建,同时也能获得较高的处理性能。可以...
TEL:0571-81112331 (周一至周五 9:00-18:00)
E-mail:customer@speed-clouds.com
Address:杭州市西湖区文一西路830号蒋村商务中心B1-4F
  • 二维码名称
    二维码名称
    扫一扫

Share us:

Copyright ©2018 - 2020 杭州加速云信息技术有限公司  犀牛云提供企业云服务
犀牛云提供企业云服务
X
1

QQ设置

3

SKYPE 设置

4

阿里旺旺设置

5

TEL

  • 0571-81112331
6

官方公众号

返回顶部
展开