首页 / 专利库 / 人工智能 / 人工智能 / 机器人技术 / 机器人 / 机器人控制系统 / 基于语音辅助的视听协同学习机器人及学习方法

基于语音辅助的视听协同学习机器人及学习方法

阅读:970发布:2020-05-08

专利汇可以提供基于语音辅助的视听协同学习机器人及学习方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于语音辅助的视听协同学习 机器人 ,其特征在于,包括视觉系统、语音系统、综合学习系统和控制系统,本方案直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状,其次将打好语音标签的数据集导入神经网络进行训练,引导机器人对新对象进行自主学习,将提取到的特征信息存入使用知识图谱方法建立起的 知识库 中,这种通过知识图谱建立起的 数据库 可以用于推理,相对传统知识库的存储方式,更有利于机器人的实时学习。,下面是基于语音辅助的视听协同学习机器人及学习方法专利的具体信息内容。

1.一种基于语音辅助的视听协同学习机器人,其特征在于,包括视觉系统、语音系统、综合学习系统和控制系统,所述视觉系统包括激光雷达、360°旋转摄像头和图像预处理模,所述语音系统包括语音输入模块、语音输出模块和语音处理模块,所述综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU集群,所述控制系统包括主控板、机器人操作系统和控制指令集;
所述视觉系统与主控板连接,激光雷达扫描环境中障碍物信息,然后利用SLAM建立该区域环境下的地图,实现在该区域的避障与自主导航,自主运动到建好地图范围内的任意地点;
所述360°旋转摄像头拍摄需要学习区域的图片,通过图像处理OpenCV检测图片中的对象信息,并将检测对象信息后的图片直接输入到综合学习系统;
所述语音系统与控制系统的主控板连接,所述语音接收模块接收外界的语音输入,语音输入为人们描述的学习区域所需学习的对象信息,利用语音识别将语音信息转化为文字信息,再输入到语言处理模块中使用QA&NLP对其理解处理,并将处理后的语音信息输入到综合学习模块;所述语音输出模块负责机器人的语言输出,实现机器人与人之间的语音交互;
所述综合学习系统接收视觉系统和语音系统的输入,利用语音系统发送的语音信息识别视觉系统输入的图片信息,学习图片信息中的新目标。
2.根据权利要求1所述的基于语音辅助的视听协同学习机器人的新目标学习方法,其特征在于,包括以下步骤:
S1:输入经过OpenCV处理后的图片Pin和经过QA&NLP处理后的语言信息Vin,假定经过映射f,得到图片中的两个点坐标(x1,y1)和(x2,y2)且满足x1≠x2,y1≠y2,由两个点所构成的长方形区域将拍摄的学习区域的图片中需要学习的新对象给框选出来,即生成语音标签PVLab((x1,y1),(x2,y2)),此时有:
PVLab((x1,y1),(x2,y2))=f(Pin,Vin) x1≠x2,y1≠y2;
S2:将打好语音标签的图片保存至机器人的内存中;
S3:机器人以语音标签中需要学习的对象为中心,移动车身并转动360°旋转摄像头,获取新对象若干度的图像信息,并保存在机器人内存中;
S4:利用内存中打好语音标签的图片对若干角度的图像信息进行图像增广,获得图像的数据集;
S5:将图像的数据集导入神经网络,在神经网络中提取新对象的颜色、大小和形状特征,然后通过softmax函数对图像中标注的新对象特征进行分类;
S6:将新对象的特征信息存入知识图谱中。
3.根据权利要求2所述的基于语音辅助的视听协同学习机器人的新目标学习方法,其特征在于,还包括以下步骤:
S7:设定阈值W,利用余弦相似度量法计算两幅图像特征之间的距离,度量该学习的新对象与知识图谱中同类对象的相似度:
其中,学习对象提取的特征为I1=(x1,x2,x3,...,xn),知识图谱中已存储同类对象的特征记为I2=(y1,y2,y3,...,ym),xi为需要学习的新对象的第i个特征,yi为知识图谱中已存储同类对象的第i个特征;
S8:若W≥cosθ,判定已经学过此新对象,综合学习系统直接反馈给语音系统,通过语音输出模块输出该学习对象的信息;
S9:若W<cosθ,判定未学过此新对象或者未完全学会该新对象,提取新对象的特征信息存入知识图谱中。

说明书全文

基于语音辅助的视听协同学习机器人及学习方法

技术领域

[0001] 本发明涉及机器人技术领域,具体涉及一种基于语音辅助的视听协同学习机器人。

背景技术

[0002] 现有技术机器人视觉学习使用的传统的方式来给数据集打标签,例如使用打标签工具来圈出图片中要识别训练的对象,这种传统的打标签方式不仅繁琐耗时,工作量大,而且效率极低,显然不利于机器人的实时学习新的对象。而本专利中提出的语音标签,直接通过人类语言辅助机器人理解图片信息,自主对图片中需要学习的对象进行打标签,使得打标签高效快捷,有利于机器人的实时在线学习。
[0003] 当前基于语音来辅助机器人进行视听协同学习新对象的研究并不多,目前对机器人视听觉研究主要集中在视听觉交叉模式上,这些现有研究目的并不在于通过人类语音来引导机器人对拍摄“看到”的新对象进行学习,而主要在于解决机器人的识别与定位问题,而这些都是在基于先验知识的基础上建立的研究,比如让机器人定位识别桌子上的苹果,默认机器人已经知道苹果是什么特征,当机器人拍摄到苹果时,便会快速的与先验知识库进行对比,一旦匹配成功便能定对象,定位成功。

发明内容

[0004] 针对现有技术的上述不足,本发明提供了一种通过语音辅助来协同机器人进行视觉学习新对象的机器人。
[0005] 为达到上述发明目的,本发明所采用的技术方案为:
[0006] 提供一种基于语音辅助的视听协同学习机器人,其包括视觉系统、语音系统、综合学习系统和控制系统,视觉系统包括激光雷达、360°旋转摄像头和图像预处理模,语音系统包括语音输入模块、语音输出模块和语音处理模块,综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU集群,控制系统包括主控板、机器人操作系统和控制指令集;
[0007] 视觉系统与主控板连接,激光雷达扫描环境中障碍物信息,然后利用SLAM建立该区域环境下的地图,实现在该区域的避障与自主导航,自主运动到建好地图范围内的任意地点;
[0008] 360°旋转摄像头拍摄需要学习区域的图片,通过图像处理OpenCV检测图片中的对象信息,并将检测对象信息后的图片直接输入到综合学习系统;
[0009] 语音系统与控制系统的主控板连接,语音接收模块接收外界的语音输入,语音输入为人们描述的学习区域所需学习的对象信息,利用语音识别将语音信息转化为文字信息,再输入到语言处理模块中使用QA&NLP对其理解处理,并将处理后的语音信息输入到综合学习模块;语音输出模块负责机器人的语言输出,实现机器人与人之间的语音交互;
[0010] 综合学习系统接收视觉系统和语音系统的输入,利用语音系统发送的语音信息识别视觉系统输入的图片信息,学习图片信息中的新目标。
[0011] 进一步地,新目标学习方法包括以下步骤:
[0012] S1:输入经过OpenCV处理后的图片Pin和经过QA&NLP处理后的语言信息Vin,假定经过映射f,得到图片中的两个点坐标(x1,y1)和(x2,y2)且满足x1≠x2,y1≠y2,由两个点所构成的长方形区域将拍摄的学习区域的图片中需要学习的新对象给框选出来,即生成语音标签PVLab((x1,y1),(x2,y2)),此时有:
[0013] PVLab((x1,y1)(x2,y2))=f(Pin,Vin)   x1≠x2,y1≠y2;
[0014] S2:将打好语音标签的图片保存至机器人的内存中;
[0015] S3:机器人以语音标签中需要学习的对象为中心,移动车身并转动360°旋转摄像头,获取新对象若干度的图像信息,并保存在机器人内存中;
[0016] S4:利用内存中打好语音标签的图片对若干角度的图像信息进行图像增广,获得图像的数据集;
[0017] S5:将图像的数据集导入神经网络,在神经网络中提取新对象的颜色、大小和形状特征,然后通过softmax函数对图像中标注的新对象特征进行分类;
[0018] S6:将新对象的特征信息存入知识图谱中。
[0019] 进一步地,还包括以下步骤:
[0020] S7:设定阈值W,利用余弦相似度量法计算两幅图像特征之间的距离,度量该学习的新对象与知识图谱中同类对象的相似度:
[0021]
[0022] 其中,学习对象提取的特征为I1=(x1,x2,x3,...,xn),知识图谱中已存储同类对象的特征记为I2=(y1,y2,y3,...,ym),xi为需要学习的新对象的第i个特征,yi为知识图谱中已存储同类对象的第i个特征;
[0023] S8:若W≥cosθ,判定已经学过此新对象,综合学习系统直接反馈给语音系统,通过语音输出模块输出该学习对象的信息;
[0024] S9:若W<cosθ,判定未学过此新对象或者未完全学会该新对象,提取新对象的特征信息存入知识图谱中。
[0025] 本发明的有益效果为:本方案不同于传统手动打标签的模式,而是直接通过输入语言来对机器人摄像头拍摄的图片信息进行描述,通过机器人的理解后,锁定要学习的新对象,生成相应的语音标签,之后通移动车身并转动360°旋转摄像头,获取新对象不同角度、不同方向的图像信息,再经图像增广形成相应的数据集。这种直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状,其次将打好语音标签的数据集导入神经网络进行训练,引导机器人对新对象进行自主学习,将提取到的特征信息存入使用知识图谱方法建立起的知识库中,这种通过知识图谱建立起的数据库可以用于推理,相对传统知识库的存储方式,更有利于机器人的实时学习。附图说明
[0026] 图1为基于语音辅助的视听协同学习机器人的结构原理图

具体实施方式

[0027] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0028] 如图1所示,基于语音辅助的视听协同学习机器人包括视觉系统、语音系统、综合学习系统和控制系统,视觉系统包括激光雷达、360°旋转摄像头和图像预处理模块,语音系统包括语音输入模块(麦克)、语音输出模块(音响)和语音处理模块,综合学习系统包括搭载有神经网络模型和知识图谱的主控板和GPU云集群,控制系统包括主控板、机器人操作系统和控制指令集;
[0029] 视觉系统与主控板连接,激光雷达扫描环境中障碍物信息,然后利用SLAM建立该区域环境下的地图,实现在该区域的避障与自主导航,自主运动到建好地图范围内的任意地点;
[0030] 360°旋转摄像头直接与控制系统中的主控板连接,机器人自主导航指定地点后,360°旋转摄像头拍摄需要学习对象所在区域的图片,通过图像处理OpenCV检测图片中的对象信息,并将检测对象信息后的图片直接输入到综合学习系统;
[0031] 语音系统与控制系统的主控板连接,语音接收模块接收外界的语音输入,语音输入为人们描述的学习区域所需学习的对象信息,利用语音识别将语音信息转化为文字信息,再输入到语言处理模块中使用QA&NLP对其理解处理,并将处理后的语音信息输入到综合学习模块;语音输出模块负责机器人的语言输出,实现机器人与人之间的语音交互;
[0032] 综合学习系统接收视觉系统和语音系统的输入,利用语音系统发送的语音信息识别视觉系统输入的图片信息,从而为机器人在语音辅助下实现视听协同学习新对象奠定了基础,学习图片信息中的新目标。
[0033] 本方案中机器人学习图片信息中的新目标的学习方法包括以下步骤:
[0034] S1:输入经过OpenCV处理后的图片Pin和经过QA&NLP处理后的语言信息Vin,图片Pin为360°旋转摄像头拍摄的学习区域的图片,语言信息Vin为语音接收模块接收的人们所描述学习区域中所需要学习的新对象信息;假定经过映射f,得到图片中的两个点坐标(x1,y1)和(x2,y2)且满足x1≠x2,y1≠y2,由两个点所构成的长方形区域将拍摄的学习区域的图片中需要学习的新对象给框选出来,即生成语音标签PVLab((x1,y1),(x2,y2)),此时有:
[0035] PVLab((x1,y1),(x2,y2))=f(Pin,Vin)x1≠x2,y1≠y2;
[0036] S2:将打好语音标签的图片保存至机器人的内存中,机器人内存指插在主控板上的U盘,该U盘内存要求不下于16G;
[0037] S3:机器人以语音标签中需要学习的对象为中心,移动车身并转动360°旋转摄像头,获取新对象若干角度的图像信息,并保存在机器人内存中;
[0038] S4:利用内存中打好语音标签的图片对若干角度的图像信息进行图像增广,获得图像的数据集;
[0039] S5:将图像的数据集导入神经网络,在神经网络中提取新对象的颜色、大小和形状特征,然后通过softmax函数对图像中标注的新对象特征进行分类;
[0040] S6:将新对象的特征信息存入知识图谱中。
[0041] 本方案优选有以下步骤:
[0042] S7:在学习的新对象存入知识图谱前,设定阈值W,利用余弦相似度量法计算两幅图像特征之间的距离,度量该学习的新对象与知识图谱中同类对象的相似度:
[0043]
[0044] 其中,学习对象提取的特征为I1=(x1,x2,x3,...,xn),知识图谱中已存储同类对象的特征记为I2=(y1,y2,y3,...,ym),xi为需要学习的新对象的第i个特征,yi为知识图谱中已存储同类对象的第i个特征;
[0045] S8:若W≥cosθ,判定已经学过此新对象,综合学习系统直接反馈给语音系统,通过语音输出模块输出该学习对象的信息;
[0046] S9:若W<cosθ,判定未学过此新对象或者未完全学会该新对象,提取新对象的特征信息存入知识图谱中。
[0047] 本方案不同于传统手动打标签的模式,而是直接通过输入语言来对机器人摄像头拍摄的图片信息进行描述,通过机器人的理解后,锁定要学习的新对象,生成相应的语音标签,之后通过移动车身并转动360°旋转摄像头,获取新对象不同角度、不同方向的图像信息,再经图像增广方法形成相应的数据集。
[0048] 这种直接通过语言来获得大量打好语音标签的数据集可以解决传统繁琐而低效率的打标签现状,其次将打好语音标签的数据集导入神经网络进行训练,引导机器人对新对象进行自主学习,将提取到的特征信息存入使用知识图谱方法建立起的知识库中,这种通过知识图谱建立起的数据库可以用于推理,相对传统知识库的存储方式,更有利于机器人的实时学习。
[0049] 将学习到的特征信息存入使用知识图谱方法建立好的知识库中,相对传统存入数据库的方式,知识图谱方法具有推理能,能够保障下次识别同一对象时识别的准确率。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈