首页 / 专利库 / 心理学与精神病学 / 构音障碍 / 一种传话家用服务机器人

一种传话家用服务机器人

阅读:895发布:2020-05-13

专利汇可以提供一种传话家用服务机器人专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种传话家用服务 机器人 ,该传话家用服务机器人针对有听 力 障碍的家庭成员使用,包括:主体结构, 中央处理器 , 存储器 , 图像处理 单元, 语音识别 单元,语音输出单元,显示单元,行走单元,电源,这些组件通信连接;该传话家用服务机器人在传话的过程中,始终将显示单元面向具有听力障碍的对话成员,通过对具有听力障碍的对话成员的表情、姿势、和/或手势的识别,作不同类型的“助听”处理;能够帮助具有听力障碍的对话成员顺畅的和家人 聊天 、对话,轻松化解听力障碍人士的尴尬和痛苦。,下面是一种传话家用服务机器人专利的具体信息内容。

1.一种传话家用服务机器人,其特征在于,该机器人包括:主体结构,中央处理器存储器图像处理单元,语音识别单元,语音输出单元,显示单元,行走单元,电源,这些组件通信连接:
主体结构用于进行收纳和/或支撑,主体结构外部设置显示单元;
图像处理单元包括图像获取模图像识别模块,姿势和手势识别模块;用于识别具有听障碍的对话成员的表情、姿势、和/或手势,并返回识别结果;
中央处理器用于基于获取到的不同识别结果作不同类型的“助听”处理;
语音识别单元,用于获取另一对话成员上一句话/话语组,在另一对话成员完成一句话/话语组时,将获取到的语音进行实时处理得到文本形式的识别结果,并将获取到的语音和文本形式的识别结果关联起来保存到存储器;在对话成员完成一句话/话语组后,持续获取并识别对话成员的回答;
语音输出单元,在中央处理器的控制下将语音识别结果输出。
2.根据权利要求1所述的机器人,其特征在于,传话家用服务机器人中还设置听力障碍成员设置和识别模块,用于设置具有听力障碍的对话成员的标识并记录其特征信息,以快速识别出听力障碍成员。
3.根据权利要求1所述的机器人,其特征在于,图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像,并将所获取的脸部图像信息传送给图像识别模块,将姿势图像和/或手势图像传送给姿势和手势识别模块。
4.根据权利要求1所述的机器人,其特征在于,图像识别模块对获取到的面部图像进行初步处理,形成表情图像,识别对话成员的表情,并将表情识别结果发送给中央处理器;姿势和手势识别模块对获取到的姿势图像和手势图像进行处理,识别对话成员的手势和/或姿势,并将手势和/或姿势识别结果发送给中央处理器。
5.根据权利要求1所述的机器人,其特征在于,图像识别模块还包含图像样本模块,图像样本模块在特定模式下,录入家庭成员的表情样本图像;表情样本图像和被采集对话成员标识作关联存储,该对话成员的特定类型表情能够和多张表情样本关联存储。
6.根据权利要求5所述的机器人,其特征在于,图像样本模块基于采集到的对话成员的表情样本图像进行识别,具体方式为:将当前获取的对话成员A的表情图像C和该对话成员A的所有类型表情进行比较,直到得到识别结果或者所有表情类型均对比过为止;
如当次针对微笑类型表情Tsmile作对比,假设对应于对话成员A的微笑类型表情Tsmile,保存有n张表情样本图像P1~Pn,当前获取的表情图像为C,根据公式(1)计算表情偏差熵S,将表情偏差熵和熵阈值Ts进行比较,表
情偏差熵小于熵阈值Ts时,判定该表情图像C对应的对话成员表情为微笑表情类型Tsmile,将微笑表情Tsmile作为识别结果返回;如果表情偏差熵大于等于熵阈值Ts时,则继续对比下一表情类型Tx,依次对比所有表情类型,直到得到识别结果或者所有表情类型均对比过为止;如果对比结束,仍然没有得到识别结果,则将“无识别结果”作为识别结果返回。
7.根据权 利要求6 所述的 机器人 ,其特征 在于 ,采 用加权公 式(2)计算表情偏差熵S,其中wi表示表情样本图像Pi对应的权
值。
8.根据权利要求1-5任意一项所述的机器人,其特征在于,中央处理器针对表情识别结果的处理为:如果识别结果为困惑表情、或者注视传话家用服务机器人表情时,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复;
如果识别结果为态度明确表情,此时不做处理;
如果识别结果为其他类型表情或者“无识别结果”,则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上。
9.根据权利要求1-5任意一项所述的机器人,其特征在于,中央处理器针对姿势/手势识别结果的处理为:如果识别头部姿势为点头时,不做处理;如果识别结果为第一特定姿势/手势,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复。

说明书全文

一种传话家用服务机器人

技术领域

[0001] 本发明属于智能家居和计算机领域,尤其涉及一种传话家用服务机器人。

背景技术

[0002] 中国人口老龄化问题日益突出、人工成本急剧上升以及整体经济结构面临转型,机器人未来的崛起及其巨大的市场规模已经被各大机构认可。此外,随着经济平的上升,人们可支配收入的增加,使得人们能够购买服务机器人来解放简单的重复劳动,获得更多的空闲时间。而更可喜的是进入互联网时代后人类的科学技术迅猛发展,得益于计算机和微芯片的发展,智能服务机器人更新换代的速度将越来越快,成本下降,能实现的功能越来越多,实现更便捷更安全更精确。可见,未来无论短期或是长期,机器人行业的投资机遇巨大,服务机器人有着十分可观的市场规模。
[0003] 由于在人机交互领域有深厚的技术积累,家用服务机器人首先在聊天机器人领域取得了突破,目前市场上有大量的聊天机器人产品,但是这些利用语音交互技术的机器人通常仅仅是从屏幕上走了下来(例如,siri和小i),能够和某个人或者某些人进行简单的对话,这类机器人在技术的改进也多数集中在知识库、学习能定位等方面,但由于机器人的理解能力有限,往往不能达到很好的效果。家用服务机器人因为价钱昂贵,效果一般,经历了近几年的发展仍然没有走进寻常百姓家。
[0004] 因此,需要针对特定的家用需求,来细化家用服务机器人的功能,使机器人真正的找到在家庭中的位置。随着社会老龄化的进展,越来越多的家庭出现了有听力障碍的老人,他们的听力出现不同程度的减退,但是往往并不是完全丧失了听力,暂时没有安装蜗的必要性,而选择助听设备有可能加速听力下降。但是家庭中普通的对话都可能频繁的出现“打岔”,会引起和其他家庭成员之间存在交流不畅的问题,容易引起家庭之间误解和矛盾。

发明内容

[0005] 为了解决现有技术中的上述问题,本发明提出了一种传话家用服务机器人。
[0006] 本发明采用的技术方案如下:一种传话家用服务机器人,其特征在于,该机器人包括:主体结构,中央处理器存储器图像处理单元,语音识别单元,语音输出单元,显示单元,行走单元,电源,这些组件通信连接:
[0007] 主体结构用于进行收纳和/或支撑,主体结构外部设置显示单元;
[0008] 图像处理单元包括图像获取模图像识别模块,姿势和手势识别模块;用于识别具有听力障碍的对话成员的表情、姿势、和/或手势,并返回识别结果;
[0009] 中央处理器用于基于获取到的不同识别结果作不同类型的“助听”处理;
[0010] 语音识别单元,用于获取另一对话成员上一句话/话语组,在另一对话成员完成一句话/话语组时,将获取到的语音进行实时处理得到文本形式的识别结果,并将获取到的语音和文本形式的识别结果关联起来保存到存储器;在对话成员完成一句话/话语组后,持续获取并识别对话成员的回答;
[0011] 语音输出单元,在中央处理器的控制下将语音识别结果输出。
[0012] 进一步的,传话家用服务机器人中还可以设置听力障碍成员设置和识别模块,用于设置具有听力障碍的对话成员的标识并记录其特征信息,以快速识别出听力障碍成员。
[0013] 进一步的,图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像,并将所获取的脸部图像信息传送给图像识别模块,将姿势图像和/手势图像传送给姿势和手势识别模块。
[0014] 进一步的,图像识别模块对获取到的面部图像进行初步处理,形成表情图像,识别对话成员的表情,并将表情识别结果发送给中央处理器;姿势和手势识别模块对获取到的姿势图像和手势图像进行处理,识别对话成员的手势和/或姿势,并将手势和/或姿势识别结果发送给中央处理器。
[0015] 进一步的,图像识别模块还包含图像样本模块,图像样本模块在特定模式下,录入家庭成员的表情样本图像;表情样本图像和被采集对话成员标识作关联存储,该对话成员的特定类型表情可以和多张表情样本关联存储。
[0016] 进一步的,图像样本模块基于采集到的对话成员的表情样本图像进行识别,具体方式为:将当前获取的对话成员A的表情图像C和该对话成员A的所有类型表情进行比较,直到得到识别结果或者所有表情类型均对比过为止;
[0017] 如当次针对微笑类型表情Tsmile作对比,假设对应于对话成员A的微笑类型表情Tsmile,保存有n张表情样本图像P1~Pn,当前获取的表情图像为C,根据公式(1)计算表情偏差熵S,将表情偏差熵和熵阈值Ts进行比较,表情偏差熵小于熵阈值Ts时,判定该表情图像C对应的对话成员表情为微笑表情类型Tsmile,将微笑表情Tsmile作为识别结果返回;如果表情偏差熵大于等于熵阈值Ts时,则继续对比下一表情类型Tx,依次对比所有表情类型,直到得到识别结果或者所有表情类型均对比过为止;如果对比结束,仍然没有得到识别结果,则将“无识别结果”作为识别结果返回。
[0018]
[0019] 进一步的,采用加权公式(2)计算表情偏差熵S,其中wi表示表情样本图像Pi对应的权值;
[0020]
[0021] 进一步的,中央处理器针对表情识别结果的处理为:如果识别结果为困惑表情、或者注视传话家用机器人表情时,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复;
[0022] 如果识别结果为态度明确表情,此时不做处理;
[0023] 如果识别结果为其他类型表情或者“无识别结果”,则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上。
[0024] 进一步的,中央处理器针对姿势/手势识别结果的处理为:如果识别头部姿势为点头时,不做处理;如果识别结果为第一特定姿势/手势,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复。
[0025] 本发明的有益效果包括:提供一种传话家用服务机器人,针对有听力障碍的家庭成员使用,能够帮助他们顺畅的和家人聊天、对话,轻松化解听力障碍人士的尴尬和痛苦。附图说明
[0026] 此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
[0027] 图1是本发明传话家用服务机器人的总体架构图。

具体实施方式

[0028] 下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
[0029] 参见附图1,其示出了本发明所应用的传话家用服务机器人,该传话机器人包括:主体结构,中央处理器,存储器,图像处理单元,语音识别单元,语音输出单元,显示单元,行走单元,电源,这些组件通信连接。
[0030] 主体结构外部设置显示单元;主体结构内部容纳中央处理器,存储器,显示单元,电源模块;行走单元设置于主体结构底部;主体结构也可设置为可自移动的形式(行走单元就是主体结构本身),例如:球形,从而可以自行移动。主体机构可以为任何形状,例如:人形,类人形,宠物形象,球形等。
[0031] 图像处理单元包括图像获取模块,图像识别模块,姿势和手势识别模块;图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像,并将所获取的脸部图像信息传送给图像识别模块,将姿势图像和/手势图像传送给姿势和手势识别模块;图像获取模块置于主体结构外部,可以360度转动以对准图像获取对象;图像识别模块对获取到的面部图像进行初步处理,形成表情图像,识别对话成员的表情,并将表情识别结果发送给中央处理器;姿势和手势识别模块对获取到的姿势图像和手势图像进行处理,识别对话成员的手势和/或姿势,并将手势和/或姿势识别结果发送给中央处理器。
[0032] 图像识别模块可以基于现有的表情识别方法作识别;图像识别模块还可以包含图像样本模块,图像样本模块基于采集到的特定对话成员的表情样本图像进行识别,在特定模式(例如:初始设定模式,家庭成员录入模式等)下,录入家庭成员的表情样本图像,例如:困惑表情、微笑表情、伤心表情等;图像样本模块还可以在图像识别的过程中不断学习,更新样本库。图像识别模块将表情样本图像和被采集对话成员标识作关联存储,该家庭成员的特定表情可以和多张表情样本关联存储,这些表情样本图像被保存在样本库中,样本库可以保存在图像识别模块内置的存储空间中,或者保存在存储器中。
[0033] 基于图像样本模块进行识别的方式如下:以微笑表情识别为例,假设对应于对话成员A的微笑表情,保存有n张表情样本图像P1~Pn,当前获取的表情图像为C,根据公式(1)计算表情偏差熵S,将表情偏差熵和熵阈值Ts进行比较,表情偏差熵小于熵阈值Ts时,判定该表情图像C对应的对话成员表情为微笑表情,将微笑表情作为识别结果返回;如果表情偏差熵大于等于熵阈值Ts时,则继续对比下一表情类型,依次对比所有表情类型,直到得到识别结果或者所有表情类型均对比过为止。
[0034]
[0035] 也可以采用加权公式(2)计算表情偏差熵S,其中wi表示表情样本图像Pi对应的权值;
[0036]
[0037] 如果对比结束,仍然没有得到识别结果,则将“无识别结果”作为识别结果返回。
[0038] 对于在更新过程中命中率高的表情赋予较高的权值,反之赋予较低的权值,并基于该权值进行表情样本图像的更新。可以在表情识别的过程中同时进行表情样本图像的更新,每次识别过程中,和当前表情图像相比,差异最小的表情样本图像命中率加1,在一种表情样本图像的个数超过设定值时,将命中率最低表情样本图像删除,设定值可以是机器人默认设置,也可以用户设置。
[0039] 姿势和手势识别模块用于对手势和姿势进行识别,可以基于现有的识别方法进行识别,例如,基于kidnet技术进行姿势识别。还可以包含姿势和手势样本模块,姿势和手势样本模块基于收集到的特定家庭成员的样本进行识别。在识别完毕后返回识别结果。
[0040] 中央处理器用于对获取到的识别结果进行处理。针对表情识别结果:如果识别结果为困惑表情、或者注视传话家用机器人表情时,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复;如果对话成员表情困惑,可以确定对话用户因为没有听清楚而不知道如何作答,此时同时用文本和声音的方式提醒对话成员对方所说的内容,一方面可以帮助对话成员快速了解对话内容,另一方面也是对另一对话成语的提醒,提醒其降低语速。当对话成员注视传化家用机器人时,也可以确定他很希望得到帮助,因此采用语音和文本的同时提示。如果识别结果为高兴、悲伤、惊讶等态度明确表情,则认为听力障碍者已经知道了对方的谈话内容,此时不做处理;这种情况下可以确定对话成员基本上听懂了,因此不做处理(也可以在屏幕上显示“你很棒”等鼓励性语言),从而让对话成员有成就感的同时,不打扰对话的进行。如果识别结果为其他,则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,此时对话成员可能听到对话内容,也可能没有听到对话内容,因此仅仅进行文本提示,可以不打扰对话的进行,另一对话成员可以继续进行对话。
[0041] 针对姿势/手势识别结果;如果识别头部姿势为点头,则认为听力障碍者已经知道了对方的谈话内容,此时不做处理;如果识别结果为第一特定姿势/手势,则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上,同时,将该上一句话/话语组通过语音输出单元输出以进行重复。考虑到对话成员有时候可能会主动向传话家用机器人求助,此时可借助约定手势或者姿势完成,通过建立特定手势/姿势和其含义的对应关系,达到帮助对话成员的目的。例如:设置“剪刀手”手势表示“我听不清”,当对话成员给出“剪刀手”手势时,同时给予语音和文本提示帮助。
[0042] 针对“重复”通知消息,立即将另一对话成员(非听力障碍成员)上一句话/话语组的语音识别结果显示在显示单元上,此时无需做语音提示以避免对另一对话成员的打扰。
[0043] 语音识别单元,用于获取另一对话成员上一句话/话语组,在另一对话成员完成一句话/话语组时,将获取到的语音进行实时处理得到文本形式的识别结果,并将获取到的语音和识别结果关联起来保存到存储器。在对话成员完成一句话/话语组后,持续识别对话成员的回答,当对话成员的回答为表示他没有听懂的语句时(例如:啥,再说一遍!等),发送“重复”通知消息给中央处理器。
[0044] 语音输出单元,将语音识别结果输出,优选用另一对话成员的声音样式进行输出。
[0045] 传话家用机器人中还可以设置听力障碍成员设置和识别模块,用于设置听力障碍成员特征信息并标识,例如:手工设置听力障碍成员为A,并记录该成员特征,身高,外形等;也可以在对话过程中通过学习来识别A,并更新该成员特征。特征信息和标识A关联存储于成员特征库,该成员特征库可以保存在听力障碍成员设置和识别模块中,也可以保存在存储器中。通过该成员特征,传话家用机器人在成员对话的过程中,快速识别出该成员A,在对话过程中,自动将显示单元对准于A的最佳视,并通过传话功能“助听”。听力障碍成员可以为一个或者多个。在对话成员超过3个时,对话并不仅仅针对听力障碍成员,听力障碍成员听的压力不大,而且由于多人共同对话,语音提示会表现出很强的打断感,因此,默认设置为静音模式,此时仅仅进行文本提示,而不进行语音提示,用户可以手动更改静音模式为正常模式。
[0046] 以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈