技术领域
[0001] 本
发明涉及神经网络、深度学习、计算机
图像处理和
数据挖掘技术领域,尤其涉及多种类物体的图像识别、分类索引与推荐的方法。
背景技术
[0002] 本发明涉及
人工智能技术领域,人工智能(Artificial Intelligence),英文缩写为AI,它的一个重要任务是让计算机能够像人一样对输入的信息进行判定,模拟人类脑部神经元网络的决策过程。最早于1943年,逻辑学家Walter Pitts和神经生理学家Warren McCulloch将神经元概念引入计算领域,开启了神经网络理论的探索。之后,各国科学家对神经网络理论的深化拓展,特别是上世纪八九十年代和本世纪初,将神经网络理论推进向
深度神经网络(深度学习)发展。近十年来,得益于计算机处理器(包括图形处理器GPU)计算能
力的提高,互联网、
云计算、
大数据提供了海量的学习数据,使神经网络和深度学习理论广泛应用于
语音识别、
人脸识别、视频监控、手写输入、语义翻译、图片搜索、无人驾驶等领域。
[0003] 目前,在图像识别应用领域,对
卷积神经网络训练的
精度普遍不足,所提取的神经网络模型,对物体的识别准确度仍然不高。而且,识别图像的范围仅局限于人脸、动物、
植物等单一种类物体,图像识别技术应用的范围也只是集中于图像分类结果分析方面。
发明内容
[0004] 本发明的目的是针对目前业界所训练的卷积神经网络模型图像识别准确度普遍不高,识别物体种类单一,和应用范围狭窄等不足,提出一种基于神经网络深度学习的图像识别并推荐认知的方法:逐层调整卷积神经网络每一个
隐藏层参数,提取高训练精度的廿层神经网络模型,有效提高识别准确度;采用多种类物体图像
监督学习方式,输入大量带分类标签的多种类物体图像数据训练集,使提取的神经网络模型进行学习,扩大
物体识别种类范围;图像识别结果,结合人类个性化特征数据,并基于教育类知识素材
数据库的
机器学习模型,采用推荐系统
算法,向人们推送其眼中所见并主动实时采集图像的对应感兴趣物体的相关知识,实现人类主动学习的教育认知模式。当这种方法应用于教育时,将有效地使学习者从兴趣和好奇点出发,从“要我学”转变成“我要学”的教育模式。
[0005] 为了解决上述技术问题,本发明是通过以下技术方案实现的。
[0006] 一种基于神经网络深度学习的图像识别并推荐认知的方法,包括以下步骤:(ⅰ)廿层神经网络模型训练提取:
使用多类别图像数据库中的带分类标签图像输入到廿层卷积神经网络,进行监督学习,获取逐层的代表性特征,并于第二十层
输出层取得预测结果和全局损失函数值(下称前向传播);
通过softmax回归收敛分类计算损失函数关于权重和偏置参数的偏导数,并对参数进行梯度下降(下称反向传播);
用微调后的新参数进行新一轮的前向传播计算,来回不停地进行前向传播和反向传播,来训练更新参数使损失函数越来越小,使预测越来越精准,达到提高图像识别精度的效果;
直到找到全局损失函数的最小值,根据整个训练集的监督学习所得的训练精度,而提取合适的廿层神经网络模型。
[0007] (ⅱ)输入无标签图像到多层神经网络模型进行深度学习聚类,提取图像代表性特征,分类图片,输出图像识别分类结果。
[0008] (ⅲ)图像识别的分类输出结果,结合对图像输入者个性化特征,如
位置、时间、拍摄习惯、年龄、性别等事前采集的数据库,采用
决策树算法进行分析并得出图像输入者的兴趣概率。
[0009] (ⅳ)调取自建的百科知识、教育题材、教学课程、问答试题、动漫、游戏、影音等素材的云数据库,根据图像识别分类结果和兴趣概率,采用基于素材云数据库内容的机器学习模型协同过滤进行计算预测的推荐系统算法,计算得出预测结果推送给图像输入者,以使该图像输入者对图像相关知识进行认知学习。
[0010] 针对所提取的廿层神经网络模型可有效识别的物体分类,建立相关分类物体知识的内容素材云数据库。
[0011] 机器学习模型利用不同图像输入者录入的相近图像、分类模型产生的兴趣概率、内容标签等特征参数通过协同过滤规则,筛选云数据库的内容素材,把相近特征的内容做初步选择。将上述的地理位置、时间、图像类别、年龄段、内容标签等个性化特征进行向量化,利用 LSTM 的长短期记忆效应搭建分布式模型。并加入图像输入者的年龄、知识内容偏好参数及偏置参数来进行推荐的去噪音编码处理。
[0012] 模型不断进行在线学习以及
增量学习,不断优化提高推荐系统的效果及推荐效率。
[0013] 依据推荐系统算法计算得出的预测结果,将图像输入者可能有兴趣的知识素材推送关联链接,让图像输入者从关联链接中选择相关素材进行学习。
[0014] 上述基于神经网络深度学习的图像识别并推荐认知的方法,所述的多层神经网络模型训练提取,包括:建构的廿层卷积神经网络包括
输入层、十九层隐藏层、输出层。输入层图像数据输入,在十九层隐藏层经过
自上而下的监督学习,图像经过卷积、
池化、边缘填充、激活等处理提取图像特征,最后进行收敛分类并输出结果;
隐藏层中每一层的输出,均通过逻辑回归下的梯度下降求解最优值,对每一层的参数进行微调,提高特征提取精度。
[0015] 上述基于神经网络深度学习的图像识别并推荐认知的方法,所述的兴趣概率分析为通过构建兴趣分析的浅层神经网络模型实现。
[0016] 上述基于神经网络深度学习的图像识别并推荐认知的方法,所述的推荐系统的机器学习模型为经过去噪音编码处理的神经网络模型。
[0017] 上述基于神经网络深度学习的图像识别并推荐认知的方法,所述的输入图像为静态采集图片。图片的种类包括:动物、植物、文体用品、生活日用品、蔬果、食品、
货币、五金工具、数码家电、家居用品、
汽车品牌、手势、交通标志、世界名画、
乐器、国旗、知名旅游景点、数字、字母、儿童玩具、卡通人物、著名商标或标志。并且,前述种类会因廿层卷积神经网络模型对图像数据库训练集的增加分类进行增量学习而得到扩充。
[0018] 本发明的有益效果是所提取的廿层神经网络模型的图像识别精度高,识别物体的种类多;将深度学习应用于人类教育认知行为,推动人工智能与教育行业垂直应用的
加速融合,特别是应用于儿童教育领域,引导儿童从玩中学,从兴趣和好奇点出发,形成认知事物的主动学习方式。人们对人工智能科技教育的关注,有利于普及推广,两者相结合具有非常高的应用前景。
附图说明
[0020] 图2是本发明所提取的廿层卷积神经网络模型的内部架构图。
[0021] 图3是本发明所使用的兴趣分析模型的架构图。
[0022] 图4是本发明的去噪编码推荐系统模型结构图。
具体实施方式
[0023] 下面结合附图对本发明具体
实施例作进一步详细描述。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他所有实施例,都属于本发明保护的范围。
[0024] 除非另有含义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的
说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。
[0025] 如图1所示,本发明的基于神经网络深度学习的图像识别并推荐认知的方法,包括以下步骤:步骤(ⅰ)二十层神经网络模型训练提取:
使用多类别图像数据库中的带分类标签图像输入到廿层卷积神经网络,进行监督学习,获取逐层的代表性特征,并于第二十层输出层取得预测结果和全局损失函数值(下称前向传播);
多类别的图像均包括待识别的对象,例如,可以是动物、植物、文体用品、生活日用品、货币、数码家电、交通标志、世界名画、乐器、国旗、知名旅游景点等。同一个分类表示同一个对象,如,可以是同一个动物物种或数码家电品种,如此类推;
如图2所示,建构的廿层卷积神经网络包括输入层、十九层隐藏层、输出层。输入层图像数据输入,在十九层隐藏层经过自上而下的监督学习,图像经过卷积、池化、边缘填充、激活等处理提取图像特征,最后进行收敛分类并输出结果;
隐藏层中每一层的输出,均通过逻辑回归下的梯度下降求解最优值,对每一层的参数进行微调,提高特征提取精度;
整个多类别图像数据库训练集的损失函数公式为:
通过softmax回归收敛分类计算损失函数关于权重和偏置参数的偏导数,并对参数进行梯度下降(下称反向传播);
Softmax回归下的
梯度下降法求解最优值,反向传播公式为:
参数包括权重、偏置
阀值和学习率。通过反向传播计算的优化,能大大降低运算复杂度,对偏置阀值参数不敏感。在一个较优的多GPU实施实例中,学习率可以设定默认为0.06;
用微调后的新参数进行新一轮的前向传播计算,来回不停地进行前向传播和反向传播,来训练更新参数使损失函数越来越小,使预测越来越精准,达到提高图像识别精度的效果;
直到找到全局损失函数的最小值,根据整个训练集的监督学习所得的训练精度,而提取合适的廿层神经网络模型;
只要训练集,即多类别图像数据库的样本容量足够大,理论上对所述的廿层卷积神经网络的训练可以一直不断地持续下去。通过训练集对多层卷积神经网络的训练,根据预测结果来确定训练精度,当训练精度达到预设精度,训练就可以不再继续。此时的廿层卷积神经网络就是所要提取的目标多层神经网络模型。
[0026] 步骤(ⅱ)输入无标签图像到廿层神经网络模型进行深度学习聚类,提取图像代表性特征,分类图片,输出图像识别分类结果。
[0027] 无标签图像的输入,运用一个预设的应用场景,使用摄像头采集静态图片,储存在本地计算机
存储器或通过网络储存在远程
服务器存储器内,采集到的静态图片作为图像数据输入到廿层神经网络模型,进行
半监督学习,具体做法是采用
聚类算法,在各隐藏层中提取每一层的代表性特征,第n-1层的输出结果作为第n层的输入数据,逐层验证,仍通过不断的前向传播和反向传播,来训练和更新参数,使廿层神经网络模型的算法精度越来越高。随着半监督学习的无标签图像输入越多,廿层神经网络模型的识别准确度日益趋高。
[0028] 同时,通过摄像头采集的静态待识别图片,传输到远程服务器的廿层神经网络模型进行计算,获得待识别图片的代表性特征,与此前监督学习时的多类别图像数据库训练集的图片验证特征作对比,根据训练集图片特征对应的分类从而确定待识别图片的分类,进而输出图像识别分类结果。
[0029] 步骤(ⅲ)图像识别的分类输出结果,结合对图像输入者个性化特征,如位置、时间、拍摄习惯、年龄、性别等事前采集的数据库,采用决策树算法进行分析并得出图像输入者的兴趣概率。
[0030] 通过特征采集模
块对图像输入者的个性化特征进行采集,并存储到用户特征数据库,图像输入者使用摄像头采集的图片存储到用户相册数据库。根据图像输入者的图片采集历史习惯和用户特征,结合CART决策树算法,把图像输入者的个性化参数做离散值,使用标签训练集合和验证集合,来评估
剪枝的方法在
修剪点上的效用。通过已有的验证数据集对标签进行删减。因为训练集合的过拟合,使得验证集数据能够对其进行修正,反复进行上面的操作,从下向上地处理
节点,删除那些能够最大限度地提高验证集合的精度的有害节点。获得这些特征节点后,构建如图3所示的兴趣分析浅层神经网络模型,通过这个兴趣分析模型对这些特征进行整体打分,最后分析得出图像输入者对图片各关联性标签产生兴趣的概率。
[0031] 步骤(ⅳ)调取自建的百科知识、教育题材、教学课程、问答试题、动漫、游戏、影音等素材的云数据库,根据图像识别分类结果和兴趣概率,采用基于素材云数据库内容的机器学习模型协同过滤进行计算预测的推荐系统算法,计算得出预测结果推送给图像输入者,以使该图像输入者对图像相关知识进行认知学习。
[0032] 针对所提取的廿层神经网络模型可有效识别的物体分类,建立相关分类物体知识的内容素材云数据库。如图4所示,构建基于云数据库内容的推荐系统神经网络模型,运用基于知识推荐的机器学习算法,把与图像输入者相关,且可能需要的内容向图像输入者展示。该推荐系统模型利用不同图像输入者输入的相近图像、分类模型产生的兴趣概率、内容标签等特征参数通过协同过滤规则,首先筛选云数据库的内容素材,把相近特征的内容做初步选择。将上述的地理位置、时间、图像类别、年龄段、内容标签等个性化特征进行向量化,利用 LSTM 的长短期记忆效应搭建分布式模型。把其中的权重矩阵分解为低秩矩阵,减小参数规模,减少了模型复杂度,使用排序代价函数来进行参数最优化。模型加入了图像输入者的年龄、知识内容偏好参数及偏置参数来进行推荐的去噪音编码处理。
[0033] 并通过不断的图像输入者使用推荐内容的反馈,模型不断进行在线学习以及增量学习,不断优化提高推荐系统模型的效果及推荐效率。
[0034] 依据推荐系统算法计算得出的预测结果,将图像输入者可能有兴趣的知识素材推送关联链接,让图像输入者从关联链接中选择相关素材进行学习。
[0035] 本发明的有益效果是通过图像输入者对所见物体的好奇和兴趣,主动探索认知学习,可做到随时随地主动学习,图像识别、深度学习、数据挖掘和人们认知教育相结合,提升人们学习的积极性和知识获取的便利性,具有极高的研究和应用价值。
[0036] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何
修改、等同替换等,均应包含在本发明的保护范围之内。