首页 / 专利库 / 残疾人专用配件 / 听觉模型 / 基于类脑多感觉注意切换的计算方法

基于类脑多感觉注意切换的计算方法

阅读:505发布:2020-05-14

专利汇可以提供基于类脑多感觉注意切换的计算方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 人工智能 和认知神经科学综合领域,具体涉及一种基于类脑多感觉注意切换的计算方法,即为了解决在多感官信息的输入的环境下更加可靠的信息的选择问题,该方法包括:S1、基于大脑视觉皮层模型进行数字图像的内容识别,得到视觉数字序列;S2、基于大脑听觉皮层模型进行数字音频的内容识别,得到听觉数字序列;S3、基于数字序列,采用数字推理模型分别进行数字归纳推理,计算数字序列之间的规律并存储;S4、基于视觉‑听觉注意切换模型,选择权重较高的信息作为当前可靠的模态信息进行推理计算,得出识别结果。本发明能够同时完成视觉、听觉、推理、注意切换等一系列类人行为,在不同的环境下准确选择可靠的信息进行进一步处理。,下面是基于类脑多感觉注意切换的计算方法专利的具体信息内容。

1.一种基于类脑的多感觉注意切换方法,其特征在于,包括以下步骤:
步骤S1、基于大脑视觉皮层模型进行数字图像的内容识别,得到视觉数字序列;所述的大脑视觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑视觉皮层的手写体数字识别模型;
步骤S2、基于大脑听觉皮层模型进行数字音频的内容识别,得到听觉数字序列;所述的大脑听觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑听觉皮层的音频数字识别模型;
步骤S3、基于数字序列,采用数字推理模型分别进行数字归纳推理,计算数字序列之间的规律并存储;所述数字序列包括所述视觉数字序列和所述听觉数字序列;所述数字序列之间的规律包括各所述数字序列的差值、以及各所述数字序列之间的差值;所述数字推理模型为基于尖峰神经网络构建的模拟大脑PFC相关数字推理脑区的模型;
步骤S4、基于视觉-听觉注意切换模型,对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算,并得出识别结果;
所述视觉-听觉注意切换模型为基于类脑视听觉切换机制,采用尖峰神经网络构建的数学模型,用于模拟大脑中IPL相关多感觉切换相关脑区及通路。
2.根据权利要求1所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S3中所述“计算数字序列之间的规律”,其方法为:
步骤S31、将每一个数字用D维随机向量进行表征,并对每一维数据进行群体编码;所述群体编码采用基于一组带有高斯感受野的神经元的群体编码算法,该组神经元带有相互重叠的感受野,该组神经元的个数为m,每一个数字向量由D*m个神经元进行表征;
步骤S32、采用数字推理模型分别对群体编码后的所述数字序列进行差值计算,得到各所述数字序列的差值、以及各所述数字序列之间的差值。
3.根据权利要求2所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S32中所述“采用数字推理模型分别对群体编码后的所述数字序列进行差值计算”,其方法为:
步骤S321、对每一个所述数字序列,基于所述数字推理模型,顺次计算所述数字序列中相邻数字的差值,得到差值序列;
步骤S322、顺次计算所述差值序列中相邻数字的差值,得到更新后的差值序列,并通过本步骤的方法进行迭代计算,直至得到仅包含一个数字的差值序列,并以该数字作为对应数字序列的差值;
步骤S323、基于步骤S322得到的各所述数字序列的差值,基于所述数字推理模型计算各所述数字序列之间的差值。
4.根据权利要求3所述的基于类脑的多感觉注意切换方法,其特征在于,所述数字推理模型基于尖峰神经网络进行构建,用于学习两个输入数字之间的差值;
输入层为2*D*m个具有高斯感受野的神经元,接受两个数字向量的输入;
隐藏层为N层尖峰神经元构成的隐藏层,神经元模型为Izhikevich模型;
所述数字推理模型各层网络采用全连接方式,输出层为19个神经元,表征[-9,9];
所述数字推理模型中权重更新方式采用STDP突触学习机制。
5.根据权利要求1所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S4所述“对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算”,其方法为:
步骤S41、基于脑区下顶叶功能模型,依据步骤S3中输出的所述视觉数字序列和所述听觉数字序列之间不同序列之间的差值,判断当前模态是否需要切换,如果判断结果为切换至听觉模态则跳转步骤S42,如果判断结果为切换至视觉模态则跳转步骤S43;
步骤S42、基于梭状回功能模型,利用脑区下顶叶功能模型的激活信号、以及步骤S2的听觉数字序列进行推理计算;
步骤S43、基于颞上回功能模型,利用脑区下顶叶功能模型的激活信号、以及步骤S1的视觉数字序列进行推理计算;
其中,
所述脑区下顶叶功能模型为基于尖峰神经网络构建的模拟脑区下顶叶判断当前视听模态是否需要切换的模型;
所述梭状回功能模型为基于尖峰神经网络构建的模拟梭状回进行听觉模态信息处理的模型;
所述颞上回功能模型为基于尖峰神经网络构建的模拟梭状回进行视觉模态信息处理的模型。
6.根据权利要求5所述的基于类脑的多感觉注意切换方法,其特征在于,所述脑区下顶叶功能模型由三个基于Izhikevich神经元构建的神经簇构成,每个神经簇内神经元之间无连接;该模型输入层与三个神经簇均为全连接;所述脑区下顶叶功能模型在输入为0时的连接为兴奋性连接,输入为其他数字时的连接均为抑制性连接。
7.根据权利要求6所述的基于类脑的多感觉注意切换方法,其特征在于,所述三个神经簇分别为表征视觉_听觉的神经簇、表征听觉的神经簇、表征视觉的神经簇;
步骤S41中所述“判断当前模态是否需要切换”,其方法为:
若表征视觉_听觉的神经簇输入为0时,该神经簇内的神经元均会放电,视觉听觉模态无需切换;
若表征听觉的神经簇输入为0时,该神经簇内的神经元均会放电,切换至听觉模态;
若表征视觉的神经簇输入为0时,该神经簇内的神经元均会放电,切换至视觉模态。
8.根据权利要求6所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S42所述“利用脑区下顶叶功能模型的激活信号、以及步骤S2的听觉数字序列进行推理计算”,其方法为:
将步骤S2得到的听觉数字序列、以及脑区下顶叶功能模型的激活信号对应所述数字序列的差值进行高斯群体编码,基于所述梭状回功能模型对两个输入向量做加法。
9.根据权利要求1-8中任一项所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S1中所述“进行数字图像的内容识别”,其方法为:
将视觉图像按照数字区域进行图像分割后,经图像归一化成为固定大小的图像,再将归一化后的图像进行二值化处理后通过所述大脑视觉皮层模型分别进行识别。
10.根据权利要求1-8中任一项所述的基于类脑的多感觉注意切换方法,其特征在于,步骤S2中所述“进行数字音频的内容识别”,其方法为:
将音频信息按照数字发音进行音频流划分,并归一化为相同大小后对音频流划分成多个时间片,相邻时间片时间窗之间按25%的重叠率进行重叠;再将每个时间片中的音频数据求平均值并归一化至20-200之间的数值,作为后期神经元的输入电流;
将每个时间片的频率值作为神经元的输入电流,输入所述大脑听觉皮层模型进行识别。

说明书全文

基于类脑多感觉注意切换的计算方法

技术领域

[0001] 本发明属于人工智能和认知神经科学综合领域,具体涉及一种基于类脑多感觉注意切换的计算方法。

背景技术

[0002] 随着人工智能领域的发展,学术界与产业界对机器系统的智能性要求越来越高,并希望其在一定程度上达到大脑信息处理的平。目前为止,如何使计算机具有更高的智能水平与更强的环境适应性依然是一个极具挑战性的问题。
[0003] 2013年,欧盟脑计划的提出为人工智能领域打开了新思路,该计划通过微观、介观及宏观的不同尺度来研究大脑的信息处理机制,并将其运用至智能科学领域,最终希望能够构建出一个通用的大脑模拟平台。欧盟脑计划打破了传统人工智能的束缚,促进了第三代人工智能领域的变革。随着欧盟脑计划的提出,国内外许多科研机构也相继投入了大量的科研量对类脑智能领域展开研究,并取得了一定的成就。在上述背景下,针对类脑智能的研究逐渐成为了今后人工智能领域的研究热点。
[0004] 在类脑智能尚未受到广泛关注之前,传统人工智能近年来主要以人工神经网络为研究对象,通过加深网络深度与拓展计算机的计算能力达到计算精度的需求。深度神经网络在处理大数据上具有一定的优势,谷歌“AlphaGo”的实现也证明通过大数据与加深网络深度,能够使得计算机具有近似于人的智能。然而,人工神经网络存在通用性差,复杂度高,网络表征难以解释等缺陷,这也是当前深度网络所存在的瓶颈。研究人员希望能够开发出一套类似人脑的信息系统,希望其具有较强的可解释性,较强的通用性,较强的智能性等特点。类脑智能研究是实现以上这些智能形态的重要途径,通过与神经科学的结合,从多个尺度了解大脑信息处理的机制,不断的探究新一代人工智能方法,达到实现具有通用智能能力的智能系统。
[0005] 类脑智能研究近年来具有了飞速的发展。微观尺度上,不同类型的神经元建模与突触建模已经具备了良好的基础;介观尺度上,脑区或功能团以及神经元的微环路与脑区间的环路等研究也有了一定的发展;宏观尺度上,例如记忆、自主决策、归纳推理、多模态信息处理等一系列具有类人行为的智能系统也取得巨大的进步。研究者希望通过借鉴大脑信息处理的机制,不断的探索新一代智能方法与技术。滑卢大学于2012年推出了SPAUN系统,该系统以模拟神经元为基础,实现了八个类人的认知行为;Numenta公司借鉴了大脑皮层信息处理的特点,实现了层次皮层算法,应用于识别、预测等一系列现实问题中。
[0006] 类脑智能研究领域有许多问题亟待研究,例如感知处理(视觉、听觉等),长短时记忆,多模态信息处理,模仿学习,归纳推理,自主决策等。其中,多模态信息处理相对其他问题并未受到广泛关注,多模态信息处理包括多模态信息融合即大脑需同时融合多个感觉的输入信号,做出正确判断,多模态信息抑制与切换即大脑需根据当前环境状态,选择具有可靠性较高的模态信息进行处理,忽略或抑制其他模态的输入。其中,多模态信息抑制与切换在神经科学领域具有一定的研究基础,而在人工智能领域研究较少。其实随着人工智能系统的发展,多感官信息的输入已成为必然,然而如何在不同的环境下选择可靠的信息进行进一步处理是一个难点。
[0007] 神经科学在视觉和听觉两个模态间的抑制和切换问题进行了一定的研究,实验成果表明,大脑中有相关脑区只负责在视觉-听觉信息切换时进行决策与处理。其中,下顶叶IPL负责判断当前模态是否要进行切换,如需要进行切换,则它向颞上回STG或梭状回FUS发送信息,STG认为当前视觉信息更可靠,而FUS则认为当前听觉信息更可靠,通过这些脑区之间的相互作用,从而最终做出决策。同时初级视觉皮层与初级听觉皮层也需要参与其中,他们主要负责处理视觉信息与听觉信息。
[0008] 本发明通过以上神经科学结论作为借鉴,构建了视觉-听觉注意切换模型,并以数字归纳推理为基本应用场景,使系统能正确完成认知任务。

发明内容

[0009] 为了解决现有技术中的上述问题,即为了解决在多感官信息的输入的环境下更加可靠的信息的选择问题,本发明提供了一种基于类脑的多感觉注意切换方法,包括以下步骤:
[0010] 步骤S1、基于大脑视觉皮层模型进行数字图像的内容识别,得到视觉数字序列;所述的大脑视觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑视觉皮层的手写体数字识别模型;
[0011] 步骤S2、基于大脑听觉皮层模型进行数字音频的内容识别,得到听觉数字序列;所述的大脑听觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑听觉皮层的音频数字识别模型;
[0012] 步骤S3、基于数字序列,采用数字推理模型分别进行数字归纳推理,计算数字序列之间的规律并存储;所述数字序列包括所述视觉数字序列和所述听觉数字序列;所述数字序列之间的规律包括各所述数字序列的差值、以及各所述数字序列之间的差值;所述数字推理模型为基于尖峰神经网络构建的模拟大脑PFC相关数字推理脑区的模型;
[0013] 步骤S4、基于视觉-听觉注意切换模型,对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算,并得出识别结果;所述视觉-听觉注意切换模型为基于类脑视听觉切换机制,采用尖峰神经网络构建的数学模型,用于模拟大脑中IPL相关多感觉切换相关脑区及通路。
[0014] 进一步地,步骤S3中所述“计算数字序列之间的规律”,其方法为:
[0015] 步骤S31、将每一个数字用D维随机向量进行表征,并对每一维数据进行群体编码;所述群体编码采用基于一组带有高斯感受野的神经元的群体编码算法,该组神经元带有相互重叠的感受野,该组神经元的个数为m,每一个数字向量由D*m个神经元进行表征;
[0016] 步骤S32、采用数字推理模型分别对群体编码后的所述数字序列进行差值计算,得到各所述数字序列的差值、以及各所述数字序列之间的差值。
[0017] 进一步地,步骤S32中所述“采用数字推理模型分别对群体编码后的所述数字序列进行差值计算”,其方法为:
[0018] 步骤S321、对每一个所述数字序列,基于所述数字推理模型,顺次计算所述数字序列中相邻数字的差值,得到差值序列;
[0019] 步骤S322、顺次计算所述差值序列中相邻数字的差值,得到更新后的差值序列,并通过本步骤的方法进行迭代计算,直至得到仅包含一个数字的差值序列,并以该数字作为对应数字序列的差值;
[0020] 步骤S323、基于步骤S322得到的各所述数字序列的差值,基于所述数字推理模型计算各所述数字序列之间的差值。
[0021] 进一步地,所述数字推理模型基于尖峰神经网络进行构建,用于学习两个输入数字之间的差值;
[0022] 输入层为2*D*m个具有高斯感受野的神经元,接受两个数字向量的输入;
[0023] 隐藏层为N层尖峰神经元构成的隐藏层,神经元模型为Izhikevich模型;
[0024] 所述数字推理模型各层网络采用全连接方式,输出层为19个神经元,表征[-9,9];
[0025] 所述数字推理模型中权重更新方式采用STDP突触学习机制。
[0026] 进一步地,步骤S4所述“对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算”,其方法为:
[0027] 步骤S41、基于脑区下顶叶功能模型,依据步骤S3中输出的所述视觉数字序列和所述听觉数字序列之间不同序列之间的差值,判断当前模态是否需要切换,如果判断结果为切换至听觉模态则跳转步骤S42,如果判断结果为切换至视觉模态则跳转步骤S43;
[0028] 步骤S42、基于梭状回功能模型,利用脑区下顶叶功能模型的激活信号、以及步骤S2的听觉数字序列进行推理计算;
[0029] 步骤S43、基于颞上回功能模型,利用脑区下顶叶功能模型的激活信号、以及步骤S1的视觉数字序列进行推理计算;
[0030] 其中,
[0031] 所述脑区下顶叶功能模型为基于尖峰神经网络构建的模拟脑区下顶叶判断当前视听模态是否需要切换的模型;
[0032] 所述梭状回功能模型为基于尖峰神经网络构建的模拟梭状回进行听觉模态信息处理的模型;
[0033] 所述颞上回功能模型为基于尖峰神经网络构建的模拟梭状回进行视觉模态信息处理的模型。
[0034] 进一步地,所述脑区下顶叶功能模型由三个基于Izhikevich神经元构建的神经簇构成,每个神经簇内神经元之间无连接;该模型输入层与三个神经簇均为全连接;所述脑区下顶叶功能模型在输入为0时的连接为兴奋性连接,输入为其他数字时的连接均为抑制性连接。
[0035] 进一步地,所述三个神经簇分别为表征视觉_听觉的神经簇、表征听觉的神经簇、表征视觉的神经簇;
[0036] 步骤S41中所述“判断当前模态是否需要切换”,其方法为:
[0037] 若表征视觉_听觉的神经簇输入为0时,该神经簇内的神经元均会放电,视觉听觉模态无需切换;
[0038] 若表征听觉的神经簇输入为0时,该神经簇内的神经元均会放电,切换至听觉模态;
[0039] 若表征视觉的神经簇输入为0时,该神经簇内的神经元均会放电,切换至视觉模态。
[0040] 进一步地,步骤S42所述“利用脑区下顶叶功能模型的激活信号、以及步骤S2的听觉数字序列进行推理计算”,其方法为:
[0041] 将步骤S2得到的听觉数字序列、以及脑区下顶叶功能模型的激活信号对应所述数字序列的差值进行高斯群体编码,基于所述梭状回功能模型对两个输入向量做加法。
[0042] 进一步地,步骤S1中所述“进行数字图像的内容识别”,其方法为:将视觉图像按照数字区域进行图像分割后,经图像归一化成为固定大小的图像,再将归一化后的图像进行二值化处理后通过所述大脑视觉皮层模型分别进行识别。
[0043] 进一步地,步骤S2中所述“进行数字音频的内容识别”,其方法为:将音频信息按照数字发音进行音频流划分,并归一化为相同大小后对音频流划分成多个时间片,相邻时间片时间窗之间按25%的重叠率进行重叠;再将每个时间片中的音频数据求平均值并归一化至20-200之间的数值,作为后期神经元的输入电流
[0044] 将每个时间片的频率值作为神经元的输入电流,输入所述大脑听觉皮层模型进行识别。
[0045] 上述技术方案至少具有如下有益效果:
[0046] (1)本发明基于神经科学原理,采用尖峰神经网络完成了各个脑区的模拟,打破了传统人工神经网络的束缚,为最终完成一个通用的神经网络模型提供思路;通过借鉴神经科学原理,该人工智能系统能够同时完成视觉、听觉、推理、注意切换等一系列类人行为,在不同的环境下准确选择可靠的信息进行进一步处理,使得系统在一定程度上实现了类人行为。
[0047] (2)该发明是基于神经科学原理,构建了一个视听模态切换模型,该模型借鉴了大脑信息处理的特点,具有良好的通用性。
[0048] (3)在该模型的支撑下,本发明的模型系统能够在视觉-听觉双模态信息的共同输入情况下正确判断何类模态更可靠,从而完成推理任务,使得系统具有更强的智能性与鲁棒性。附图说明
[0049] 图1为本发明实施例的基于类脑的多感觉注意切换方法流程示意图;
[0050] 图2为本发明实施例中多模态注意切换机制的多脑区协同模型的示意图;
[0051] 图3为本发明实施例中视觉手写体识别模型的示意图;
[0052] 图4为本发明实施例中图像预处理流程的示意图;
[0053] 图5为本发明实施例中听觉语音识别模型的示意图;
[0054] 图6为本发明实施例中高斯群体编码算法的示意图;
[0055] 图7为本发明实施例中基于SNN的数字推理网络模型的示意图;
[0056] 图8为本发明实施例中基于SNN的下顶叶神经网络模型的示意图;
[0057] 图9本发明实施例中基于SNN的梭状回神经网络模型的示意图。

具体实施方式

[0058] 下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0059] 本发明一种实施例的基于类脑的多感觉注意切换方法,如图1、图2所示,包括以下步骤:
[0060] 步骤S1:基于大脑视觉皮层模型进行数字图像的内容识别,得到视觉数字序列;所述的大脑视觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑视觉皮层的手写体数字识别模型;
[0061] 步骤S2:基于大脑听觉皮层模型进行数字音频的内容识别,得到听觉数字序列;所述的大脑听觉皮层模型为基于尖峰神经网络构建的全连接的模拟大脑听觉皮层的音频数字识别模型;
[0062] 步骤S3:基于数字序列,采用数字推理模型分别进行数字归纳推理,计算数字序列之间的规律并存储;所述数字序列包括所述视觉数字序列和所述听觉数字序列;所述数字序列之间的规律包括各所述数字序列的差值、以及各所述数字序列之间的差值;所述数字推理模型为基于尖峰神经网络构建的模拟大脑PFC相关数字推理脑区的模型;
[0063] 步骤S4:基于视觉-听觉注意切换模型,对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算,并得出识别结果;所述视觉-听觉注意切换模型为基于类脑视听觉切换机制,采用尖峰神经网络构建的数学模型,用于模拟大脑中IPL相关多感觉切换相关脑区及通路。
[0064] 本发明中步骤S1、步骤S2执行顺序无先后之分,均为触发后执行。
[0065] 为了更清晰地对本发明技术方案进行说明,下文以视觉切换至听觉为具体实例进行实施方式的阐述,可以理解,该示例仅为本发明的典型描述,而非对本发明的限制,任何其他形式表达本发明的的示例与步骤都应属于本发明的范围内。
[0066] 步骤S1、基于大脑视觉皮层模型进行数字图像的内容识别,得到视觉数字序列。具体为:将视觉图像按照数字区域进行图像分割后,经图像归一化成为固定大小的图像,再将归一化后的图像进行二值化处理后通过所述大脑视觉皮层模型分别进行识别。
[0067] 该主要模拟了初级视觉皮层(Visual Cortex)的基本功能,实现了基于尖峰神经网络的图像识别,识别内容主要是0-9的数字,如图3所示,包括以下步骤:
[0068] 步骤S11:视觉图像预处理。如图4所示,预处理过程首先将视觉图像进行图像分割,将图像分成9个图像,并将分割后的图像归一化成为固定大小的图像(28*28),再将归一化后的图像进行二值化处理;
[0069] 步骤S12:利用基于大脑视觉皮层模型,对步骤S11的结果进行识别。基于大脑视觉皮层模型为N层尖峰神经网络(Spiking Neural Network,SNN),神经元模型采用Izhikevich模型,神经元模拟如公式(1)所示。
[0070]
[0071]
[0072]
[0073] 其中,dv为膜电位的变化量,du为膜电位恢复变量的变化量,dt为时间间隔,v为神经元的膜电位,u代表膜电位恢复变量,当膜电位v达到峰值30mV时,产生动作电位,膜电位和膜电位恢复变量进行更新,I为突触电流。a、b、c、d为无量纲常数,a描述恢复变量的恢复速度,该值越高,恢复速度越快;b描述了恢复变量对膜电位的敏感度,其值越大越容易产生低阈值脉冲;c描述了膜电位的复位值,该值越高表示神经元越容易再次产生脉冲;d描述了膜电位恢复变量的复位值,该值越高表示神经元越不容易再次产生脉冲。不同的参数设定使神经元表现出不同的放电特性。这里取a=0.02,b=0.2,c=-65,d=8。
[0074] 本实施例中大脑视觉皮层模型输入层神经元个数为28*28=768个,第二层以及第三层网络均为2000个,输出层为9个,表示0-9个类别。网络以图像像素值作为网络输入层神经元的输入电流,若图像像素为黑像素,则神经元输入电流为30mA,否则输入电流为0;同时,网络间的连接为全连接方式,以STDP的突触学习规则进行权重学习,STDP权重学习如公式(4)所示。
[0075]
[0076] 其中A+,A-是学习率,τ+,τ-是时间常量,Δti是突触前神经元到突触后神经元发放spike信号的时间间隔。
[0077] 通过权重的训练,大脑视觉皮层模型最终将图像识别为0-9的数字。通过图3、图4所示,本实施例可最终得到一行三列的数字序列。本实施例视觉输入的数字序列为[2,4,5]。
[0078] 步骤S2、基于大脑听觉皮层模型进行数字音频的内容识别,得到听觉数字序列,具体方法包括:
[0079] 将音频信息按照数字发音进行音频流划分,并归一化为相同大小后对音频流划分成多个时间片,相邻时间片时间窗之间按25%的重叠率进行重叠;再将每个时间片中的音频数据求平均值并归一化至20-200之间的数值,作为后期神经元的输入电流;
[0080] 将每个时间片的频率值作为神经元的输入电流,输入所述大脑听觉皮层模型进行识别。
[0081] 该步骤主要模拟了初级听觉皮层(Auditory Cortex)的功能,即基于尖峰神经网络对输入的声音进行识别,如图5所示,识别结果也是0-9的数字类别。当系统接收到来自听觉的输入时,则触发S2步骤。结合图5对该步骤进行详细说明,包括:
[0082] 步骤S21:音频文件预处理。与视觉信息不同的是,听觉信息主要处理音频流,其基本单元为频率。本发明中,首先将音频信息归一化为相同大小,即音频信息均为2s。与图像处理一致,首先对音频流划分成若干个时间片,即以2毫秒为一个时间窗将时间片进行划分,每个时间片为0.002秒,同时时间窗之间按25%的重叠率进行重叠,如附图5所示。因此对每个音频文件,时间片的个数计算公式(5):
[0083]
[0084] 其中,len_timeslice为时间片的时间长度,单位为毫秒,len_timewin为每个时间窗的时间长度,单位为毫秒,r为重叠率。再将每个时间片中的音频数据求平均值并归一化至20-200之间的数值,作为后期神经元的输入电流。
[0085] 步骤S22:与图像识别一致,将每个时间片的频率值作为神经元的输入电流,输入至四层尖峰神经网络结构的大脑听觉皮层模型中,神经元依然采用Izhikevich神经元模型,突触权重采用STDP学习机制进行学习,最终将输入的音频文件识别成为0-9个数字。由于该过程与图像处理过程类似,这里不再赘述。
[0086] 由于输入为两个数字序列,每个序列为三个数字,因此,最终识别为两行三列的数字序列。本实施例,听觉的两个输入序列为:[1,2,4],[4,5,7]。
[0087] 步骤S3、基于数字序列,采用数字推理模型(PFC模型)分别进行数字归纳推理,计算数字序列之间的规律并存储。
[0088] 该步骤接受来自视觉或听觉的输入,进行数字归纳推理,得出数列之间的规律并存储。大脑中进行数字推理的过程非常复杂,但神经科学的实验研究表明,该任务主要在大脑前额叶完成(Prefrontal Cortex,PFC),因此本步骤主要构建了尖峰神经网络来模拟大脑PFC的数字归纳推理的功能。
[0089] 本实施例通过以下步骤拆分对步骤S3进行详细说明。
[0090] 步骤S31,将输入的数字序列进行群体编码。将每一个数字用D维随机向量进行表征,并对每一维数据进行群体编码;所述群体编码采用基于一组带有高斯感受野的神经元的群体编码算法,该组神经元带有相互重叠的感受野,该组神经元的个数为m,每一个数字向量由D*m个神经元进行表征。如图6所示。
[0091] 对于一个输入值x,通过该值与每个神经元感受野的交点处值的大小来决定该神经元产生脉冲的时间。一般,在高斯感受野的中央,没有脉冲延迟(即立即产生),越靠近感受野边缘,延迟越大。假定群体编码的区间为[Imin,Imax],神经元个数为m,则每个神经元的高斯感受野的中心如公式(6)进行计算。
[0092]
[0093] 其中,每个神经元的高斯感受野的方差计算如公式(7)所示:
[0094]
[0095] 其中,β的一般取值在[0,2]区间内。为了配合不同状态的取值范围,编码区间需要进行调整。但是编码区间过大对神经元的数目要求过大,而且由于重叠率过低,则会造成大部分神经元没有被充分利用。因此,拟设定编码区间在[0,5]范围内,若状态数目过多,则会适当增加神经元个数,同时调节感受野的方差以获得最佳的编码效果。由此可得,每一个数字向量由D*m个神经元进行表征。
[0096] 步骤S32,采用数字推理模型分别对群体编码后的所述数字序列进行差值计算,得到各所述数字序列的差值、以及各所述数字序列之间的差值。具体包括以下几个步骤:
[0097] 步骤S321、对每一个所述数字序列,基于所述数字推理模型,顺次计算所述数字序列中相邻数字的差值,得到差值序列;
[0098] 步骤S322、顺次计算所述差值序列中相邻数字的差值,得到更新后的差值序列,并通过本步骤的方法进行迭代计算,直至得到仅包含一个数字的差值序列,并以该数字作为对应数字序列的差值;
[0099] 步骤S323、基于步骤S322得到的各所述数字序列的差值,基于所述数字推理模型计算各所述数字序列之间的差值。
[0100] 所述数字推理模型基于尖峰神经网络(SNN)进行构建,如图7所示,输入层为2*D*m个神经元,接受两个数字向量的输入,输入层的神经元即为步骤S31中具有高斯感受野的神经元。隐藏层为N层尖峰神经元构成的隐藏层,神经元模型为Izhikevich模型,网络各层依然采用全连接方式,输出层为19个神经元,表征[-9,9]。网络的功能主要学习两个输入数字之间的差值。网络中权重更新方式依然采用STDP突触学习机制。
[0101] 设数字序列为{X1,X2,X3},通过步骤S321、S322进行计算的方法为:计算数字Xi与Xi+1的差值,即将两个数字做为所述数字推理模型的两个输入,记两个数字之间的差值为Rri,其中i=1,2,r为输入数字序列的索引,表示输入的第几个序列。再将两个数字间的差值Rri作为输入,进行差值间的比较,记为Tr。因此对本实施例中视觉输入的数字序列2,4,5,首先将表征数字“2”的向量与表征数字“4”的向量输入步骤S321中的神经网络,得到V_R11=2,同理,得到V_R12=1,再以V_R11与V_R12为输入,得到V_T1=-1。同理,对听觉输入的两个序列[1,2,4],[4,5,7],得到A_R11=1,A_R12=2,A_T1=1,A_R21=1,A_R22=2,A_T2=1;再通过公式(8)计算各数字序列之间的差值:
[0102] R'kj=Rki-Rji                         (8)
[0103] 其中,k>j,k,j=1,2,3,i=1,2。因此得到听觉的A_R’kj=0,其中k,j=1,2,3且k>j。视觉只有一行序列,则V_R’kj=V_Rki,其中k=1,j=i=1,2。对于视听觉间的计算,记为AV_R’kj=A_Rki-V_Rji,其中k>j,k,j=1,2,3,i=1,2。
[0104] 步骤S4、基于视觉-听觉注意切换模型,对步骤S3中得到的所述数字序列之间规律的进行处理后,选择权重较高的信息作为当前可靠的模态信息进行推理计算,并得出识别结果。
[0105] 该步骤中,基于类脑视听觉切换机制,构建神经网络模型(如图2所示),模拟相关脑区(IPL,FUS,STG),进行视听觉的切换。大脑中,脑区下顶叶(Inferior parietal lobule,IPL)主要负责判断当前模态是否需要切换,该脑区具有控制模态是否进行切换的功能;向梭状回(Fusiform gyrus,FUS)主要接受来自脑区IPL的激活信号和来自听觉皮层的信号进行叠加处理;颞上回(Superior temporal gyrus,STG)主要接受来自脑区IPL的激活信号和来自视觉皮层的信号进行叠加处理。脑区下顶叶(IPL)判断当前模态若需要切换,脑区下顶叶(IPL)则向梭状回(FUS)或颞上回(STG)发送信号。
[0106] 步骤S41、基于脑区下顶叶功能模型,依据步骤S3中输出的所述视觉数字序列和所述听觉数字序列之间不同序列之间的差值,判断当前模态是否需要切换,如果判断结果为切换至听觉模态则跳转步骤S42,如果判断结果为切换至视觉模态则跳转步骤S43;所述脑区下顶叶功能模型为基于尖峰神经网络构建的模拟脑区下顶叶判断当前视听模态是否需要切换的模型。
[0107] 所述脑区下顶叶功能模型(IPL模型)由三个基于Izhikevich神经元构建的神经簇构成,每个神经簇内神经元之间无连接,如图8所示;该模型输入层与三个神经簇均为全连接;所述脑区下顶叶功能模型在输入为0时的连接为兴奋性连接,输入为其他数字时的连接均为抑制性连接。
[0108] IPL模型的输入层为PFC模型的输出层,IPL模型的输入层输入为-9~9的数字类别,但在这19个输入中,只有类别“0”于IPL的连接为兴奋性连接,即输入电流为正,其他类别与IPL模型的连接均为抑制性连接。即,输入为其他类别,IPL模型均接受到负电流,则神经元不会放电,而只有“0”类别会引起放电。可以理解,根据步骤S3可知,只有在数字序列间的规则一致时,即规则之间误差值时,才证明该序列有效,否则无法计算出数列的最终结果。
[0109] 本实施例中,步骤S41可以包括以下步骤:
[0110] 步骤S411:如图8所示,若表征视觉_听觉的神经簇接受到来自“0”类别的信号,即S3中视觉得到的数字序列的差值与听觉得到的数字序列的差值均一致,因此根据神经元模型,神经簇内的神经元会产生一系列Spike信号。而其他神经簇不会放电。在此状态下,视觉听觉模态无需切换,可进行融合。模态融合问题不在本发明的讨论范围内,在本实施例中,该神经簇并未收到“0”类别信号,因此不会被激活,即双模太不需要融合,但需要进行切换;
[0111] 步骤S412:如图8所示,若表征听觉的神经簇被激活,即接受到了来自“0”类别的电流,则神经簇内神经元均会放电,此时表明S4中听觉得到的数字序列的差值一致,则证明该状态下,听觉模态具有较强可靠性,因此,网络以听觉模态信息为主参与后续计算,则进入S42步骤。在本实施例中,听觉规则一致,则网络需要切换至听觉,即以听觉的输入信号为最终参考信号,进行后续计算;
[0112] 步骤S413:如图8所示,若表征视觉的神经簇被激活,即接受到了来自“0”类别的电流,则神经簇内神经元均会放电,此时表明S4中视觉得到的数字序列的差值一致,则证明该状态下,视觉模态具有较强可靠性,因此,网络以视觉模态信息为主参与后续计算,则进入S43步骤。在本实施例中,视觉的规则不为0,则该神经簇并未收到来自“0”类别的信号,因此不会被激活。
[0113] 步骤S42、基于梭状回功能模型(FUS模型),利用脑区下顶叶功能模型的激活信号、以及步骤S2的听觉数字序列进行推理计算。所述梭状回功能模型为基于尖峰神经网络构建的模拟梭状回进行听觉模态信息处理的模型。
[0114] FUS模型主要接受来自IPL模型的激活信号和来自听觉皮层的信号,参与后续计算。FUS模型回由一个尖峰神经网络实现,其主要任务是进行听觉输入信号与IPL以及输入信号的叠加,最终完成任务。步骤S42还包括以下几个步骤:
[0115] S421:将步骤S2得到的听觉数字序列,数字序列[4,5,?]以及来自PFC模型信号的R_22进行高斯编码,具体过程如步骤S31;
[0116] S422:基于PFC模型对两个输入向量做加法。PFC模型为一个尖峰神经网络,其功能为两个输入向量做加法,其神经元模型为Izhikevich模型,如图9所示。但这里,每个神经元具有一个背景电压Vbg,并且Vbg<0,该背景电压的作用是使得初始状态下所有神经元均处于不活动状态,只有当接受到IPL信号的刺激电流,才使得背景电压去极化。
[0117] PFC模型的输入层为来经过高斯编码的听觉数字序列、来自PFC模型的经过高斯编码的差值向量,来自IPL的激活信号,该神经元将输出较大的电流。输出层为0-9的数字,隐藏层为N层尖峰神经网络,权重更新采用STDP机制。因此,根据训练好的网络,得到本实施例的结果为5+R22=7。
[0118] 步骤S43、基于颞上回功能模型,利用脑区下顶叶功能模型的激活信号、以及步骤S1的视觉数字序列进行推理计算;所述颞上回功能模型为基于尖峰神经网络构建的模拟梭状回进行视觉模态信息处理的模型。具体过程与S42一致,这里不在赘述。在本实施例中,视觉信息并不能作为可靠输入,因此忽略视觉信息。
[0119] 本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0120] 术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0121] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈