专利汇可以提供深度可分离卷积的加速方法、存储介质及应用专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种深度可分离卷积的 加速 方法及计算机可读存储介质,包括步骤:计算深度可分离卷积的输入/输出数据的排序,使所述输入/输出数据在内存中按卷积时的 访问 顺序连续存储;计算矩阵卷积所需的寄存器数量nr,nr=k×k+k+rk,其中,k为深度卷积系数大小,rk为k按vn向上取整的数量;判断矩阵卷积所需的寄存器数量nr是否小于等于SIMD寄存器组所能存储的vn数量tn,若是,则使用SIMD寄存器组直接进行深度可分离卷积,若否,则将系数矩阵分成mk份,每次处理nk行,使mk×nk小于等于k,以及使tr取小于tn的最大值,其中,所述tr=k×nk+nk+rk。本发明可降低加载存储指令的内存访问停顿,以及最大限度使用SIMD寄存器进行卷积,从而提高深度可分离卷积的计算效率。,下面是深度可分离卷积的加速方法、存储介质及应用专利的具体信息内容。
1.一种深度可分离卷积的加速方法,其特征在于,包括以下步骤:
计算深度可分离卷积的输入/输出数据的排序,使所述输入/输出数据在内存中按卷积时的访问顺序连续存储;
计算矩阵卷积所需的寄存器数量nr,所述nr=k×k+k+rk,其中,k为深度卷积系数大小,rk为k按一个SIMD乘法指令做能完成的向量浮点乘法数量vn向上取整的数量;
判断矩阵卷积所需的寄存器数量nr是否小于等于SIMD寄存器组所能存储的向量浮点乘法数量vn的总数量tn,若是,则使用SIMD寄存器组直接进行深度可分离卷积,若否,则将系数矩阵分割后进行卷积,使每次卷积所需的寄存器数量为小于或等于CPU处理器的SIMD寄存器数量tn的最大值。
2.根据权利要求1所述的深度可分离卷积的加速方法,其特征在于,所述“将系数矩阵分割后进行卷积”包括步骤:
将系数矩阵分割成mk份,每次最多处理nk行,并使mk×nk小于等于k,以及使tr取小于tn的最大值,所述tr=k×nk+nk+rk;其中,所述mk为系数矩阵分割的份数,nk为分割后的矩阵的最大行数,tr为所需的寄存器总数量。
3.根据权利要求1所述的深度可分离卷积的加速方法,其特征在于,还包括数据处理步骤:读取卷积结果数据,对卷积结果数据进行激活处理,存储处理后的卷积数据。
4.根据权利要求1所述的深度可分离卷积的加速方法,其特征在于,所述步骤“计算深度可分离卷积的输入/输出数据的排序,使所述输入/输出数据在内存中按卷积时的访问顺序连续存储”包括:
分配所述输入/输出数据的索引号IDX,IDX=Y×W+X,W为N通道的卷积输入/输出浮点数据的宽度,Y为卷积输入/输出浮点数据位于通道的行数,X为卷积输入/输出浮点数据位于通道的列数,COLS为通道组大小;
对N通道的卷积输入/输出数据进行分组;
根据公式(IDX/L)×L×COLS+(S/vn)×L×vn+(IDX%L)×vn+(S%vn),计算卷积输入/输出浮点数据的排列,使所述输入/输出数据在内存中按卷积时的访问顺序连续存储,其中,S为数据在N通道中所在的通道数;L为输入子矩阵的行数量。
5.根据权利要求1所述的深度可分离卷积的加速方法,其特征在于,若CPU处理器具有
32个SIMD寄存器,且每个SIMD寄存器可以存储4个浮点数时,若系数矩阵为5X5矩阵,则将系数矩阵5X5矩阵分割成4X5矩阵和1X5矩阵分别进行深度可分离卷积;若系数矩阵为7X7矩阵,则将系数矩阵7X7分割成3个2X7矩阵和1个1X7矩阵分别进行深度可分离卷积。
6.根据权利要求1所述的深度可分离卷积的加速方法,其特征在于,所述CPU处理器为嵌入式设备的CPU处理器。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6任一项所述的步骤。
8.一种深度可分离卷积的加速方法的应用,其特征在于:所述深度可分离卷积的加速方法应用于深度计算引擎,所述深度可分离卷积的加速方法为权利要求1至6任一所述的深度可分离卷积的加速方法。
9.一种深度可分离卷积的加速方法的应用,其特征在于:所述深度可分离卷积的加速方法的深度计算引擎,结合人体骨骼训练模型,应用于人体骨骼识别,所述深度可分离卷积的加速方法为权利要求1至6任一所述的深度可分离卷积的加速方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种贮运环境监测系统 | 2020-05-08 | 798 |
一种智能身高测量装置及测量方法 | 2020-05-08 | 442 |
单脉冲雷达对空目标快速捕获方法 | 2020-05-08 | 851 |
一种SAR图像舰船目标统计特征提取方法与装置 | 2020-05-08 | 577 |
一种基于边信道的电网嵌入式终端安全监测方法及系统 | 2020-05-11 | 759 |
算法移植的方法及装置 | 2020-05-11 | 957 |
一种便携式多胞胎心电监测仪及其监测方法 | 2020-05-08 | 37 |
配置方法、装置及计算系统 | 2020-05-11 | 587 |
一种交互型边缘计算服务器及其控制方法 | 2020-05-08 | 464 |
基于ARM和FPGA的工件位置获取系统 | 2020-05-11 | 84 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。