技术领域
[0001] 本
发明涉及
人工智能神经网络领域,进一步来说,涉及一种声音、图像及视频对象识别技术及数据处理方法,具体来说,涉及差和迭代数据处理方法的神经网络
算法架构及装置。
背景技术
[0002] 神经网络有强大的非线性拟合能
力,可映射任意复杂的非线性关系。且学习规则简单,便于计算机实现。具有很强的鲁棒性、记忆能力及
自学习能力,因此应用市场广泛。但目前的
深度学习神经网络因为采用大量卷积层,需学习或训练的权值参数繁多,从本质上讲,其实就是多层神经网络架构的理论透明度不够,既无法从数学上清晰解释网络各层的连接方式,也不能更清晰解释
卷积神经网络的卷积核的几何和物理意义,同时也难以解释BP算法的不同权值的取舍理由。因此,现有的多层神经网络的复杂性既是深度学习成功的原因也是其
缺陷存在的原因。要解决现有神经网络的大样本问题、学习或工作速度慢、过拟合的问题以及最终解决黑盒子的理论问题,只能根据新的数学算法理论设计新的算法,进而设计出新的网络架构和实现装置。现有神经网络的几大明显缺陷如下:
[0003] 黑盒子问题:神经网络由于复杂多层、参数众多,难以解释自己的预测过程和依据。这种不透明的黑盒子的错误结论在可能引起生命、责任或权利后果的场景中导致了严重的问题:如无人驾驶的
汽车撞了行人,可能无从得知为什么人工智能会做出这样的决定;医生
机器人给出需要手术的诊断结果如何使人信服,法官机器人的判决也可能无法给出逻辑链条清晰的判据集……等等。
[0004] 速度慢、过拟合的问题:神经网络都需要大量训练样本来完成调参学习。样本少就无法进行工作,无法像人类一样可以少样本、无监督的学习。
[0005] 同样因为要用大量的样本训练,神经元之间的全连接及权值参数不可控,大规模网络训练过程中计算周期长,学习速度慢,且容易产生过拟合现象。
[0006] 比如BP网络,当一个或多个可调参数(权值或
阈值)对任何一个输出都有影响,这样的所谓全局逼近网络。由于对于每次输入,网络上的每一个权值都要调整,从而导致网络的学习速度很慢。
[0007] 在中国
专利数据库中涉及一种人工神经网络差和迭代数据处理方法及其装置的专利有《基于稀疏表示和神经网络的心律不齐识别分类方法》公开(公告)号为CN 108647584 A,《卷积神经网络训练方法、超声
图像识别定位方法及系统》公开(公告)号为CN
109447940 A,《一种基于并行多级宽度神经网络的学习方法》公开(公告)号为CN
110110845 A,《一种基于非线性组合模型的
卷烟月度销量预测方法》公开(公告)号为CN
109961315 A,《一种基于卷积神经网络的电力设备检测算法》公开(公告)号为CN
109446925 A。然而迄今为止,尚无采用本发明所述差和迭代人工神经网络算法架构的技术方案解决现有神经网络难以解释自己预测过程和依据的黑盒子问题、需要大量训练样本来完成调参学习以解决速度慢等问题的
申请件。
发明内容
[0008] 本发明旨在解决现有神经网络难以解释自己预测过程和依据而产生的黑盒子问题、需要大量训练样本来完成调参学习以解决速度慢等问题。
[0009] 针对以上所述深度
机器学习中神经网络的问题,结合
生物神经学领域听、视觉神经系统的存在大量
信号差的解剖结果,本发明从图像或视频的机器学习和识别入手,提出了一种
基础性的神经网络新算法、新架构及其装置的系统设计。
[0010] 人类视觉系统是人类主要的信息输入系统,接纳近80%的信息量。而视觉系统的本质还是对动、静态图像的识别、分类、综合和在大脑皮层上的3D世界场景重建,这是人类信息处理的基础。因此本发明的目的就是通过模拟人类大脑的视觉系统对动、静态图像的处理,提出差分及求和(简称差和)算子的数学算法、算子迭代的架构模型及其系统装置(以下简称为本模型装置)。
[0011] 本发明所提出本模型装置的主要运算是差分、求和。差分即分析,求和即综合。差分是对于
输入信号通过多阶差分高通滤波,大大滤除了对于目标分类或识别作用不大的低频数据,显著降低了输入数据数值表示范围和数据空间维度。这样减少数据表示所需的存储空间同时减少参数数量,使参数稀疏化,因此可以小样本学习。求和是对输入信号进行低通滤波,起到平滑图像,滤除高频干扰作用,提取了信号共有的特征值。差和迭代是差分和求和信号互相配合,使机器可以全面快速地学习到信号的各个频段的特征,并无需傅里叶变换FFT的大算力。
[0012] 本模型装置的基本技术思路及算法原理:
[0013] 对于一个静态图像
帧,可把图像看作一个三维空间里的二元函数z=f(x,y),每个
像素点的
颜色灰度值是其坐标(x,y)的函数。这个函数的几何图形是一个三维曲面。对于一段视频影像,每个像素点灰度的时间函数是一根三维曲线。
[0014] 所述三维曲面或曲线的数据是已知的模拟数据值或离散数据值。
[0015] 对于一个静态图像帧灰度矩阵A的算法是:
[0016] 1、进行纵向x坐标轴方向3~6次差和运算;
[0017] 2、进行纵向y坐标轴方向3~6次差和运算;
[0018] 3、进行纵向x,y坐标轴方向的3~6次混合差和运算;
[0019] 4、进行横向(同一层)的差和运算,一般是某些特定功能的求和运算(例如泰勒级数运算)。
[0020] 第1、2项运算的具体过程如下:
[0021] 对图像矩阵A分别进行x坐标轴方向的差分及求和运算。得到x轴方向的一次差分矩阵 和一次求和矩阵Σx。
[0022] 同时进行y坐标轴方向的差分及求和运算,得到y坐标轴方向的一次差分向量矩阵和一次求和矩阵Σy。
[0023] 上述过程称为一次差和运算。
[0024] 继续对 矩阵分别进行差分、求和运算。得到x轴方向的二次差分矩阵 和二次差和矩阵 继续对Σx矩阵进行求和运算。得到x轴方向的二次求和矩阵Σ2x。
[0025] 同时继续对 矩阵分别进行差分、求和运算。得到y轴方向的二次差分矩阵 和二次差和矩阵 同时继续对Σy矩阵进行求和运算。得到y轴方向的二次求和矩阵Σ2y。
[0026] 上述过程称为二次差和运算。
[0027] 继续对 矩阵分别进行差分、求和运算。得到x轴方向的三次差分矩阵 和三次差和矩阵 继续对 和Σ2x矩阵进行求和运算。得到x轴方向的三次求和矩阵 和3
Σx。
[0028] 同时继续对 矩阵进行差分、求和运算。得到y轴方向的三次差分矩阵 和三次差和矩阵 继续对 和Σ2y矩阵进行求和运算。得到y轴方向的三次求和矩阵和Σ3y。
[0029] 上述过程称为三次差和运算。
[0030] 以此类推,以上的x,y算子树深度可以有3~6次,即上述差和运算迭代可进行3~6次。
[0031] x坐标方向的差分及求和运算群参考图1。y坐标方向运算群类同(图略)。
[0032] 把图1的运算群简化、抽象为图2。y方向运算群也同样抽象(图略)。图2的连接如三
角树形,可称之为x向或y向三角算子树。
[0033] 把x向三角树和y向向三角树合并在一起,如下图3。
[0034] 这个运算是沿着x轴和y轴的单方向的高次深度运算,我们称之为单方向算子树。
[0035] 这些运算群的结果是各层的矩阵,这些矩阵的元素是图像A在每个像素点上的各阶特征数据,对应图像的各阶偏导数和像素滤波。这些特征矩阵是原始图像矩阵的抽象,将接入后面的全连接层网络被其所学习。
[0036] 第3项混合运算的具体过程如下:
[0037] 对上述一次差分矩阵 进行y轴方向扩展三角算子树如下:
[0038] 对矩阵 进行二次差分得到矩阵 进行二次求和得到矩阵 继续对进行三次差分得到矩阵 三次求和得到矩阵 对矩阵 三次求和得
到矩阵
[0039] 对上述一次差分矩阵 进行x轴方向扩展三角算子树如下:
[0040] 对矩阵 进行二次差分得到矩阵 进行二次求和得到矩阵 继续对进行三次差分得到矩阵 三次求和得到矩阵 对矩阵 三次求和得到矩
阵
[0041] 上述1,2,3项算子树合并为图4。
[0042] 前面所述的为纵向网络运算架构的实例。
[0043] 一般的,纵向算子和更深层的算子群具有自相似性,一个典型的x-y纵向算子子群是如图5示例所示的结构,这个结构算子子群施加于一个没有求和的差分矩阵。
[0044] 这个典型算子子群比较重要,本申请中命名为差和四叉算子树群。
[0045] 第4项的混合运算主要是求和运算,是同层横向差分矩阵求和的网络运算,并与具体的功能相关联。例如:泰勒级数系数的算子群、拉普拉斯算子群。
[0046] 4.1、泰勒级数系数的算子群
[0047] 具体计算过程如图6所示:
[0048] 可看到,每一行(层)的差分进行求和,可以得到各阶泰勒级数的系数:
[0049]
[0050] 4.2、拉普拉斯算子群
[0051] 拉普拉斯算子群和散度、旋度算子具体计算过程如下:
[0052] 每一行无需全部加起来,如果只是部分矩阵和,比如 求和即拉普拉斯算子。
[0053] 如果A是向量矩阵,那么 求和即散度算子;每一行也可以差分,比如即旋度算子。
[0054] 横向层间的完全运算,同样可以施加系列的差和四叉树算子。
[0055] 以上3和4项的混合计算得到泰勒级数的这些数据作为识别对象的几何外形的点、线、角和纹理等特征被下一级的神经网络所学习,用于对对象的识别、分类和预测。
[0056] 运动向量矩阵的散度和旋度值是识别和预测运动对象的关键数据。
[0057] 上述差分、求和过程被继续重复下去,根据处理信号维度的不同可能需要3到6阶的迭代次数,直到信号中的需要分类的物体被完全区别开。
[0058] 迭代运算的阶数或次数多,可以扩大视觉感受野,此数越多感受野范围越大。6阶的迭代次数可以达到6x6像素的感受野。
[0059] 对于一个三维图像帧灰度矩阵B的算法是:
[0060] 在上述平面运算的基础上扩展到三维运算,即采用增加z坐标轴方向的纵向混合差和运算和横向组合差和运算。
[0061] 运算方法类同x坐标轴或y坐标轴方向的方法,但混合运算是x、y、z三方向的混合。
[0062] 对于一个三维场景视频时间流矩阵C:
[0063] 在上述平面或三维运算的基础上扩展到四维运算,即采用增加时间t坐标轴方向的纵向差和运算,进行时间序列分析和预测,运算对象为上述平面或三维各层特征矩阵。
[0064] 运算方法类同x或y或z坐标轴方向的方法,但混合运算是x、y、z,t四方向的混合。
[0065] 上述差分、求和过程的算法中只有加减法,算力很少且易于物理实现。数据流实时通过算子群网络同步计算、结果
锁存,并向后传递。各算子次阶层的结果作为后续全连接神经网络的输入数据。
[0066] 以上对像素的差分、求和算法的种类根据算法公式所对应的对于图像的物理操作的效果意义用表格归纳统计如表1所示:
[0067] 表1差和算子所实现装置的(例如2D图像识别)的物理意义
[0068]
[0069]
[0070] 本模型装置实现的网络架构:
[0071] 以上的算法应用于人工神经网络的隐含层,是隐含层的核心内容。类比于现有的卷积神经网络(CNN)隐含层里面的卷积层。我们称之为差和层。
[0072] 同样,本发明的网络装置也分为
输入层、隐含层和
输出层。其中隐含层主要包括差和层和全连接层,也可以包含
池化层(见
附图7)。
[0073] 其中输入层和常见神经网络的输入层类同。可以处理多维信号,可以对信号时分、频分或RGB通道分割为多维的多通道
数字信号。类比于人眼的视锥细胞可以把输入光分解为红绿蓝三色单光波信号。人
耳也是能把输入
声波分解为不同频段的单声频信号。这个输入层
频率分割是必要的,是本算法几何分析的基础。
[0074] 其中差和层,是本发明的核心内容,其计算架构即上述的差分求和算子群迭代架构,
覆盖了CNN的卷积层的功能。所述差和层对输入层的数字信号进行有限差分运算得到矢量(张量)抽象,并进一步对矢量(张量)信号进行有限差分及求和运算,得到信号的梯度、各阶导数、散度、旋度和拉普拉斯算子量等张量分量。这些特征矩阵接入池化层及全连接层装置,被全连接层装置所学习或分类,输出最终分类信号(见附图8)。
[0075] 差和层全部是二目算子差分和求和组成,每个差分算子用一个减法器实现,每个求和算子用一个加法器实现。加法和减法器是可带有偏置输入项的半加器,如图9所示。
[0076] 其中池化层和CNN中的池化层类似:在差和层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。
[0077] 其中全连接层位于差和神经网络隐含层的最后部分,并只向其它全连接层传递信号,对差和层进行纵向连接,这与CNN的全阶层横向
串联的方式不同(见附图8)。
[0078] 对于图像矩阵的运算,要对两两像素灰度值进行多次差和运算,所用的加法器和减法器阵列数目较大。因此可以有以下两种的网络实现架构方式:
[0079] 一种是全算子网络架构,如图10、图11所示,即完全按照上述的四叉树差和算子树用加法器和减法器搭建一个并行运算的网络架构,其优点是更接近人类大脑架构、并行运算、速度快。缺点是加、减法器数量较大,实现成本可能高。
[0080] 第二种是冯诺依曼架构,如图12所示,是对第一种架构的简化(同类运算合并),即采用共用的差和算子运算阵列群,然后通过总线用CPU或状态机同步管理,分时逐次计算出各种阶次的差分和求和结果,并存储、池化处理、输出给全连接层。其优点是使用的加减法运算器少,易和现有
计算机系统兼容。缺点是速度稍慢。
[0081] 本发明的优点:
[0082] (1)矩阵差和运算使边缘算力要求降低,速度提升,并能降低装置功耗和降低ASIC的成本,将促进使AI芯片技术的视觉识别速度和成本达到实用的程度;可用于边缘计算场景,实时
信号处理,既方便
软件编程,更方便集成
电路化。
[0083] (2)本神经网络结构中的差和层的可设计为现今流行的冯诺依曼架构,更方便被CPU或GPU
访问、编码、存储、统计等处理。解决了神经网络和现有计算机系统的
接口问题。
[0084] (3)加减运算及其迭代算子群可以全覆盖(对应)各类卷积核运算和图像识别的各类算子的功能。完全算子群的组合设计可以使本装置具有张量数据流的处理能力。
附图说明
[0085] 图1图像矩阵的x坐标轴方向差和运算群示意图
[0086] 图2图像矩阵的x坐标轴方向差和运算群(x向三角算子树)示意图
[0087] 图3图像矩阵的x,y坐标方向差和运算群(x,y向算子树)示意图
[0088] 图4图像矩阵的x,y坐标方向混合差和运算群(x,y向混合算子树)示意图
[0089] 图5纵向差和四叉算子树群示意图
[0090] 图6二元泰勒级数算子群示意图
[0092] 图8差和层结构示意图
[0093] 图9加法器神经元示意图
[0094] 图10 x-y混合纵向二次算子树示意图
[0095] 图11 x-y混合纵向二次算子树的并行加法器阵列实现连接图
[0096] 图12冯诺依曼结构的x-y综合算子群的加法器阵列实现及其连接图
[0097] 附图中的符号说明:
[0098] a、b、c、d为像素灰度值,差分简化为减法,求和即加法;“+”表示加法器和运算,“-”表示补码加法器差运算;x表示x方向,y表示y方向; 表示做x坐标轴方向的差分运算,表示做y坐标轴方向的差分运算;Σx表示做x坐标轴方向的求和运算,Σy表示做y坐标轴方向的求和运算;a1、a2表示输入信号,bias表示偏置信号,t表示
输出信号。
具体实施方式
[0099] 本发明可以用于但不限于以下的实例:
[0100] 1、本网络模型差和层装置的具体实现
[0101] 差和层全部是二目算子差分和求和组成,具体算子实现方法如下:
[0102] 每个差分算子用一个减法器实现,每个求和算子用一个加法器实现。加法和减法器是可带有偏置输入项的半加器,如图9所示。
[0103] 所用的加法器和减法器可以是
模拟信号加法、减法器或数字信号加法器。模拟加、减法器的实现例子如
运算放大器,工作
电压范围根据器件对信号
分辨率确定。数字加减法器的实现例子如8位二进制加法器组成。对于数字信号,信号编码采用补码可使统一加、减法为加法运算。
[0104] 2、对图像矩阵全算子并行运算的网络架构装置的具体实现
[0105] (1)全算子并行网络架构实现方式
[0106] 算子树如图10、图11所示,实例是x-y混合纵向二次算子树的实现。
[0107] 差分、求和算子树和所对应实现的灰度值加、减运算器及其互联线路实现如下:
[0108] 图中A是一个3x3像素灰度矩阵;L是x方向求和矩阵Σx,它是一个2X3加法器阵列;K是x方向差分矩阵 它是一个2X3减法器阵列。其它类推。
[0109] 全部的算子树符号和加减运算器阵列连接图符号对应的关系如下表2:
[0110] 表2x-y混合2次算子树符号和加减运算器阵列图符号对应关系表
[0111]
[0112] (2)冯诺依曼架构实现方式
[0113] 所述冯诺依曼架构包含一个x-y综合差和运算器、
控制器、
存储器和总线。如图12所示,实例是一个x-y综合运算阵列。加、减运算器合并为加法器(补码数据),多个相同行列数的加法器阵列合并为一个加法器阵列。
微控制器通过数据、地址、控制总线控制各个加法器阵列,并把各层的运算结果矩阵按序移存到存储器。本架构优点是架构复杂度大幅度降低,易于集成,易与现有计算机系统的连接。缺点是速度降低。
[0114] 3、可用现有计算机软件模拟实现本发明的算法和架构。
[0115] 比如对
语音信号进行FFT变换后得到语谱图,然后对语谱图进行f和t方向进行差分、求和迭代运算,对特征矩阵进行池化或概率统计后,再进行全连接的神经网络训练来实现的快速
语音识别的实时翻译器,实时翻译手机APP等。
[0116] 比如用上述的流程本发明算法实现的实物识别或物体的运动实时预测的手机APP等。
[0117] 4、可用
逻辑电路、可编程器件如FPGA、
嵌入式系统、GPU、
专用集成电路技术等所形成的
硬件集成电路芯片或电路功能模
块实现本发明的算法和架构。
[0118] 比如本发明差分求和迭代算法实现机器智能
感知的AI芯片、类脑芯片等;
[0119] 比如用本发明差分求和迭代算法并采用全连接训练网络实现的3D物体快速识别的工业机器臂、物流
机器人技术;
[0120] 比如用差分求和迭代算法实现的视频
人脸识别或运动物识别的安防摄像头技术等;
[0121] 比如用差分求和迭代算法实现的大气红外图、卫
星云图识别的安防摄像头技术等。
[0122] 5、可用光学、生物、量子等器件采用本发明的算法和架构来实现的其它边缘和云计算的系统、设备或装置。
[0123] 综上所述,本发明是一款简单、高效、易实现、透明可解释的新型神经网络架构。本发明的理论基础是差和迭代算法,本算法在数学算法理论上取得了新突破,从数学理论和装置实现上皆达成改进现有卷积神经网络理论及性能的目的。
[0124] 本发明所述方法及装置,使神经网络装置加快学习速度的有三个原因:简单的加减运算、并行运算、和网络无权值(或权值为1和-1)。对比于卷积神经网络的串行遍历的卷积计算过程,有限次数的并行的加减运算无疑使计算速度提升一个数量级。
[0125] 差和层的深度可以是3~6层或以上。6层或以上的迭代运算可以扩大感受野,层数越深感受野范围越大。因此通过后面的BP网络学习时避免了过拟合和欠拟合现象,使新网络装置具有良好的泛化能力。
[0126] 结合多元泰勒级数公式理论,本模型所述的神经网络的各层运算结果的一部分实际上就是各阶(偏)导数值,使神经网络的预测性第一次具有清晰的几何或物理意义上的可解释性,有效解决了理论上的黑盒子的问题。因差和层运算透明,每层都可以找到其几何和物理意义,因此使全连接层神经网络的训练过程被迫透明和可理解,统计、决策的黑盒子透明化和
可视化,同时使本神经网络超越曲线、曲面的拟合范围,具有对物理现象的数学函数的发现能力。
[0127] 本发明是一种基础性的网络架构及算法创新,子网络的分拆和组合都可以单独使用,因此应用较广应。应用范围包括但不限于:
[0128] (1)用于图像或
视频流信号的识别、统计、分类、编码或
数据压缩等;
[0129] (2)用于自然语言、语音、文本的识别、统计、分类、编码及数据压缩等;
[0130] (3)用于2维或3维实
物体识别、探测信号的识别、编码及数据压缩等;
[0131] (4)复杂非线性函数拟合、编码或数据压缩等;