基于FPGA的深度学习解决方案

来源:
浏览次数: 0

一、 方案概述

      最近几年大数据和计算力的快速增长使得深度学习技术有了质的飞跃,从而在计算机视觉、语音识别、自然语言处理等领域出现了重大突破。然而深度学习需要大量的并行计算,对硬件平台有极高的要求,传统的计算机是无法满足的。现有的解决方案是使用GPU来完成深度学习的训练,但GPU的功耗太高,性能功耗比差,处理延时大,在大规模推理部署和一些对延时敏感的场景就不是很适合。由于FPGA具有很高的性能功耗比,而且基于门级电路设计使得FPGA是一个超低延时和确定延时的方案,FPGA的可编程性及动态可重构可以适应深度学习未来算法的变化,IO可编程性可以满足更多业务需求(网络加速,边缘计算),因此基于FPGA的深度学习方案成为未来技术发展方向。

     为此加速云推出一整套基于FPGA的深度学习加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速库,快速满足市场需求。SC-OPS基于Intel最新14nm工艺的Stratix10 FPGA,能够提供2800K LE及9.2TFLOPS的计算性能,支持8个DDR4控制器,提供高达150GB/S访存带宽,提供PCIe*16Lane接口,支持高达128Gbps的访问速度,是全球第一张最高性能FPGA加速卡,可以满足数据中心高性能深度学习加速。SC-OPM/SC-OPF基于Intel最20nm工艺的 ARRIA 10 FPGA,能够提供1150K~2*1150K LE及1.5~2TFLOPS计算性能,可以满足数据中心和边缘计算网关深度学习加速。为了满足客户对深度学习高性能、灵活性加速要求,加速云开发了一套基于RTL的深度神经网络加速库FDNN,可以实现参数可配置的CNN/DNN/LSTM,也提供高性能的常见网络模型加速库(包括Lenet,VGG16,Darknet19,YOLOV2,RestNet,DNN,LSTM)。为了方便客户使用高层语言开发,加速云提供基于FPGA完整的OpenCL异构开发环境,快速实现用户自定义的深度学习加速方案。同时加速云也提供快速深度神经网络定制加速服务。

       方案优势:

      A. 高性能集成IP,便于使用和二次开发

      B. 丰富IO接口,方便灵活扩展

      C. 模块化设计,支持各种应用场景

      D. 高性能功耗比,降低运营成本

      E. 超低延时及确定性延时,支持时间敏感型应用场景

 

      二、 系统结构

 

基于FPGA的深度学习解决方案

      为了满足不同客户的需求,加速云提供三个层次的深度学习加速IP:L1/L2/L3.

      L1实现深度学习的基本算子:卷积、池化、全连接、非线性函数,系统的调度由软件实现,这样可以实现最灵活的深度学习库方案,但相应性能较弱。

      L2实现参数可配置的CNN处理器,包括基本算子和调度器都有FPGA实现,

      L3根据具体的网络实现全定制的网络加速,性能非常高,但不可以配置。常见各种模型包括:VGG16  , Lenet , YoloV2 ,Darknet19 , Resnet、LSTM、DNN等。

      所有的深度学习加速IP通过软件SDK调用,SDK API接口兼容CAFFE/TensorFlow相关接口。

基于FPGA的深度学习解决方案

 

参数可配置的L2-FDNN结构

      三、 性能指标

基于FPGA的深度学习解决方案

 

       四、 应用案例

      图片OCR应用;某电商平台每天要面对大量的客户开店和业务申请需求,需要大量的营业执照等证件审核,传统采用人工审核方法,但随着业务的增长,人工审核是不可能完成,采用深度学习的图片OCR就是一个很好的解决方案。基于深度学习的图片OCR方案包括文字定位和文字识别两部分,文字定位采用4层CNN网络,文字识别采用4层双向LSTM,由于CNN部分计算量不大,主要的计算量在LSTM,因此对LSTM部分加速。原有方案采用GPU完成,但存在两个问题:1.处理延时很大,不能满足要求 2.有些图片中的文字超长,在超长文字和一般长度文字一起送入GPU处理时一般长度文字处理时间和超长文字时间一样,这使得业务无法到达上线条件。

具体LSTM规格如下:

 


基于FPGA的深度学习解决方案

 

      加速云采用FPGA方案实现完成的双向LSTM的加速,从而满足客户要求,具体方案特性如下:

      • 采用SC-OPM加速卡(半高半长:56*167mm)

      • Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

      • 四层LSTM+1层全连接,各层网络参数可以软件配置下载

      • 可以实现40000T/S的流量,延时超低,数据长度可以混合长度

      • 单卡只有33W

      图片目标识别;目标识别在很多场景中都广泛应用如人脸识别、车牌识别、物品识别等。传统的目标识别采用机器学习的方法,随着深度学习的快速发展都采用端到端的卷积神经网络实现,从而大大提高了识别率。基于深度学习的目标识别方法也有很多种:R-CNN/Fast R-CNN,YOLO是一种新的目标检测的方法,该方法的特点是实现快速检测的同时还可以达到较高的识别率。相对于其他目标识别方法将目标识别任务分为目标区域和类别预测等多个流程,YOLO将目标区域预测和类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更合适很多应用场景。

基于FPGA的深度学习解决方案

      加速云采用FPGA方案实现深度神经网络YOLOV2(NMS是软件实现),具体方案特性如下:

      • 采用SC-OPM加速卡(半高半长:56*167mm)

      • Altera Arria 10  GX660器件,集成 660k LE和1.5T FLOPS 单精度浮点处理能力

      • 22层卷积,各层网络参数可以软件配置下载,1层NMS是软件实现

      • 可以实现单精度浮点43帧/S,INT8 86帧/S,图像分辨率为224*224

      • 单卡只有34W

聚行业优势,创领域品牌 快速开启专属您的全屋智能方案
全国热线电话 86 0755-2955 6666 快速开启
TEL:0571-81112331 (周一至周五 9:00-18:00)
E-mail:customer@speed-clouds.com
Address:杭州市西湖区文一西路830号蒋村商务中心B1-4F
  • 二维码名称
    二维码名称
    扫一扫

Share us:

Copyright ©2018 - 2020 杭州加速云信息技术有限公司  犀牛云提供企业云服务
犀牛云提供企业云服务
X
1

QQ设置

3

SKYPE 设置

4

阿里旺旺设置

5

TEL

  • 0571-81112331
6

官方公众号

返回顶部
展开