一种传话家用服务机器人专利检索-构音障碍心理学与精神病学专利检索查询-专利查询网

一种传话家用服务 机器人

阅读：895发布：2020-05-13

专利汇可以提供一种传话家用服务机器人专利检索，专利查询，专利分析的服务。并且本发明涉及一种传话家用服务机器人，该传话家用服务机器人针对有听力障碍的家庭成员使用，包括：主体结构，中央处理器，存储器，图像处理单元，语音识别单元，语音输出单元，显示单元，行走单元，电源，这些组件通信连接；该传话家用服务机器人在传话的过程中，始终将显示单元面向具有听力障碍的对话成员，通过对具有听力障碍的对话成员的表情、姿势、和/或手势的识别，作不同类型的“助听”处理；能够帮助具有听力障碍的对话成员顺畅的和家人聊天、对话，轻松化解听力障碍人士的尴尬和痛苦。，下面是一种传话家用服务机器人专利的具体信息内容。

权利要求

1.一种传话家用服务机器人，其特征在于，该机器人包括：主体结构，中央处理器，存储器，图像处理单元，语音识别单元，语音输出单元，显示单元，行走单元，电源，这些组件通信连接：
主体结构用于进行收纳和/或支撑，主体结构外部设置显示单元；
图像处理单元包括图像获取模块，图像识别模块，姿势和手势识别模块；用于识别具有听力障碍的对话成员的表情、姿势、和/或手势，并返回识别结果；
中央处理器用于基于获取到的不同识别结果作不同类型的“助听”处理；
语音识别单元，用于获取另一对话成员上一句话/话语组，在另一对话成员完成一句话/话语组时，将获取到的语音进行实时处理得到文本形式的识别结果，并将获取到的语音和文本形式的识别结果关联起来保存到存储器；在对话成员完成一句话/话语组后，持续获取并识别对话成员的回答；
语音输出单元，在中央处理器的控制下将语音识别结果输出。
2.根据权利要求1所述的机器人，其特征在于，传话家用服务机器人中还设置听力障碍成员设置和识别模块，用于设置具有听力障碍的对话成员的标识并记录其特征信息，以快速识别出听力障碍成员。
3.根据权利要求1所述的机器人，其特征在于，图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像，并将所获取的脸部图像信息传送给图像识别模块，将姿势图像和/或手势图像传送给姿势和手势识别模块。
4.根据权利要求1所述的机器人，其特征在于，图像识别模块对获取到的面部图像进行初步处理，形成表情图像，识别对话成员的表情，并将表情识别结果发送给中央处理器；姿势和手势识别模块对获取到的姿势图像和手势图像进行处理，识别对话成员的手势和/或姿势，并将手势和/或姿势识别结果发送给中央处理器。
5.根据权利要求1所述的机器人，其特征在于，图像识别模块还包含图像样本模块，图像样本模块在特定模式下，录入家庭成员的表情样本图像；表情样本图像和被采集对话成员标识作关联存储，该对话成员的特定类型表情能够和多张表情样本关联存储。
6.根据权利要求5所述的机器人，其特征在于，图像样本模块基于采集到的对话成员的表情样本图像进行识别，具体方式为：将当前获取的对话成员A的表情图像C和该对话成员A的所有类型表情进行比较，直到得到识别结果或者所有表情类型均对比过为止；
如当次针对微笑类型表情Tsmile作对比，假设对应于对话成员A的微笑类型表情Tsmile，保存有n张表情样本图像P1～Pn，当前获取的表情图像为C，根据公式（1）计算表情偏差熵S，将表情偏差熵和熵阈值Ts进行比较，表
情偏差熵小于熵阈值Ts时，判定该表情图像C对应的对话成员表情为微笑表情类型Tsmile，将微笑表情Tsmile作为识别结果返回；如果表情偏差熵大于等于熵阈值Ts时，则继续对比下一表情类型Tx，依次对比所有表情类型，直到得到识别结果或者所有表情类型均对比过为止；如果对比结束，仍然没有得到识别结果，则将“无识别结果”作为识别结果返回。
7.根据权利要求6 所述的机器人，其特征在于，采用加权公式（2）计算表情偏差熵S，其中wi表示表情样本图像Pi对应的权
值。
8.根据权利要求1-5任意一项所述的机器人，其特征在于，中央处理器针对表情识别结果的处理为：如果识别结果为困惑表情、或者注视传话家用服务机器人表情时，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复；
如果识别结果为态度明确表情，此时不做处理；
如果识别结果为其他类型表情或者“无识别结果”，则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上。
9.根据权利要求1-5任意一项所述的机器人，其特征在于，中央处理器针对姿势/手势识别结果的处理为：如果识别头部姿势为点头时，不做处理；如果识别结果为第一特定姿势/手势，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复。

说明书全文

一种传话家用服务机器人

技术领域

[0001] 本发明属于智能家居和计算机领域，尤其涉及一种传话家用服务机器人。

背景技术

[0002] 中国人口老龄化问题日益突出、人工成本急剧上升以及整体经济结构面临转型，机器人未来的崛起及其巨大的市场规模已经被各大机构认可。此外，随着经济水平的上升，人们可支配收入的增加，使得人们能够购买服务机器人来解放简单的重复劳动，获得更多的空闲时间。而更可喜的是进入互联网时代后人类的科学技术迅猛发展，得益于计算机和微芯片的发展，智能服务机器人更新换代的速度将越来越快，成本下降，能实现的功能越来越多，实现更便捷更安全更精确。可见，未来无论短期或是长期，机器人行业的投资机遇巨大，服务机器人有着十分可观的市场规模。

[0003] 由于在人机交互领域有深厚的技术积累，家用服务机器人首先在聊天机器人领域取得了突破，目前市场上有大量的聊天机器人产品，但是这些利用语音交互技术的机器人通常仅仅是从屏幕上走了下来（例如，siri和小i），能够和某个人或者某些人进行简单的对话，这类机器人在技术的改进也多数集中在知识库、学习能力和定位等方面，但由于机器人的理解能力有限，往往不能达到很好的效果。家用服务机器人因为价钱昂贵，效果一般，经历了近几年的发展仍然没有走进寻常百姓家。

[0004] 因此，需要针对特定的家用需求，来细化家用服务机器人的功能，使机器人真正的找到在家庭中的位置。随着社会老龄化的进展，越来越多的家庭出现了有听力障碍的老人，他们的听力出现不同程度的减退，但是往往并不是完全丧失了听力，暂时没有安装耳蜗的必要性，而选择助听设备有可能加速听力下降。但是家庭中普通的对话都可能频繁的出现“打岔”，会引起和其他家庭成员之间存在交流不畅的问题，容易引起家庭之间误解和矛盾。

发明内容

[0005] 为了解决现有技术中的上述问题，本发明提出了一种传话家用服务机器人。

[0006] 本发明采用的技术方案如下：一种传话家用服务机器人，其特征在于，该机器人包括：主体结构，中央处理器，存储器，图像处理单元，语音识别单元，语音输出单元，显示单元，行走单元，电源，这些组件通信连接：

[0007] 主体结构用于进行收纳和/或支撑，主体结构外部设置显示单元；

[0008] 图像处理单元包括图像获取模块，图像识别模块，姿势和手势识别模块；用于识别具有听力障碍的对话成员的表情、姿势、和/或手势，并返回识别结果；

[0009] 中央处理器用于基于获取到的不同识别结果作不同类型的“助听”处理；

[0010] 语音识别单元，用于获取另一对话成员上一句话/话语组，在另一对话成员完成一句话/话语组时，将获取到的语音进行实时处理得到文本形式的识别结果，并将获取到的语音和文本形式的识别结果关联起来保存到存储器；在对话成员完成一句话/话语组后，持续获取并识别对话成员的回答；

[0011] 语音输出单元，在中央处理器的控制下将语音识别结果输出。

[0012] 进一步的，传话家用服务机器人中还可以设置听力障碍成员设置和识别模块，用于设置具有听力障碍的对话成员的标识并记录其特征信息，以快速识别出听力障碍成员。

[0013] 进一步的，图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像，并将所获取的脸部图像信息传送给图像识别模块，将姿势图像和/手势图像传送给姿势和手势识别模块。

[0014] 进一步的，图像识别模块对获取到的面部图像进行初步处理，形成表情图像，识别对话成员的表情，并将表情识别结果发送给中央处理器；姿势和手势识别模块对获取到的姿势图像和手势图像进行处理，识别对话成员的手势和/或姿势，并将手势和/或姿势识别结果发送给中央处理器。

[0015] 进一步的，图像识别模块还包含图像样本模块，图像样本模块在特定模式下，录入家庭成员的表情样本图像；表情样本图像和被采集对话成员标识作关联存储，该对话成员的特定类型表情可以和多张表情样本关联存储。

[0016] 进一步的，图像样本模块基于采集到的对话成员的表情样本图像进行识别，具体方式为：将当前获取的对话成员A的表情图像C和该对话成员A的所有类型表情进行比较，直到得到识别结果或者所有表情类型均对比过为止；

[0017] 如当次针对微笑类型表情Tsmile作对比，假设对应于对话成员A的微笑类型表情Tsmile，保存有n张表情样本图像P1～Pn，当前获取的表情图像为C，根据公式（1）计算表情偏差熵S，将表情偏差熵和熵阈值Ts进行比较，表情偏差熵小于熵阈值Ts时，判定该表情图像C对应的对话成员表情为微笑表情类型Tsmile，将微笑表情Tsmile作为识别结果返回；如果表情偏差熵大于等于熵阈值Ts时，则继续对比下一表情类型Tx，依次对比所有表情类型，直到得到识别结果或者所有表情类型均对比过为止；如果对比结束，仍然没有得到识别结果，则将“无识别结果”作为识别结果返回。

[0018]

[0019] 进一步的，采用加权公式（2）计算表情偏差熵S，其中wi表示表情样本图像Pi对应的权值；

[0020]

[0021] 进一步的，中央处理器针对表情识别结果的处理为：如果识别结果为困惑表情、或者注视传话家用机器人表情时，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复；

[0022] 如果识别结果为态度明确表情，此时不做处理；

[0023] 如果识别结果为其他类型表情或者“无识别结果”，则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上。

[0024] 进一步的，中央处理器针对姿势/手势识别结果的处理为：如果识别头部姿势为点头时，不做处理；如果识别结果为第一特定姿势/手势，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复。

[0025] 本发明的有益效果包括：提供一种传话家用服务机器人，针对有听力障碍的家庭成员使用，能够帮助他们顺畅的和家人聊天、对话，轻松化解听力障碍人士的尴尬和痛苦。附图说明

[0026] 此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

[0027] 图1是本发明传话家用服务机器人的总体架构图。

具体实施方式

[0028] 下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

[0029] 参见附图1，其示出了本发明所应用的传话家用服务机器人，该传话机器人包括：主体结构，中央处理器，存储器，图像处理单元，语音识别单元，语音输出单元，显示单元，行走单元，电源，这些组件通信连接。

[0030] 主体结构外部设置显示单元；主体结构内部容纳中央处理器，存储器，显示单元，电源模块；行走单元设置于主体结构底部；主体结构也可设置为可自移动的形式（行走单元就是主体结构本身），例如：球形，从而可以自行移动。主体机构可以为任何形状，例如：人形，类人形，宠物形象，球形等。

[0031] 图像处理单元包括图像获取模块，图像识别模块，姿势和手势识别模块；图像获取模块获取对话成员脸部图像、和/或对话成员的姿势图像、和/或对话成员的手势图像，并将所获取的脸部图像信息传送给图像识别模块，将姿势图像和/手势图像传送给姿势和手势识别模块；图像获取模块置于主体结构外部，可以360度转动以对准图像获取对象；图像识别模块对获取到的面部图像进行初步处理，形成表情图像，识别对话成员的表情，并将表情识别结果发送给中央处理器；姿势和手势识别模块对获取到的姿势图像和手势图像进行处理，识别对话成员的手势和/或姿势，并将手势和/或姿势识别结果发送给中央处理器。

[0032] 图像识别模块可以基于现有的表情识别方法作识别；图像识别模块还可以包含图像样本模块，图像样本模块基于采集到的特定对话成员的表情样本图像进行识别，在特定模式（例如：初始设定模式，家庭成员录入模式等）下，录入家庭成员的表情样本图像，例如：困惑表情、微笑表情、伤心表情等；图像样本模块还可以在图像识别的过程中不断学习，更新样本库。图像识别模块将表情样本图像和被采集对话成员标识作关联存储，该家庭成员的特定表情可以和多张表情样本关联存储，这些表情样本图像被保存在样本库中，样本库可以保存在图像识别模块内置的存储空间中，或者保存在存储器中。

[0033] 基于图像样本模块进行识别的方式如下：以微笑表情识别为例，假设对应于对话成员A的微笑表情，保存有n张表情样本图像P1～Pn，当前获取的表情图像为C，根据公式（1）计算表情偏差熵S，将表情偏差熵和熵阈值Ts进行比较，表情偏差熵小于熵阈值Ts时，判定该表情图像C对应的对话成员表情为微笑表情，将微笑表情作为识别结果返回；如果表情偏差熵大于等于熵阈值Ts时，则继续对比下一表情类型，依次对比所有表情类型，直到得到识别结果或者所有表情类型均对比过为止。

[0034]

[0035] 也可以采用加权公式（2）计算表情偏差熵S，其中wi表示表情样本图像Pi对应的权值；

[0036]

[0037] 如果对比结束，仍然没有得到识别结果，则将“无识别结果”作为识别结果返回。

[0038] 对于在更新过程中命中率高的表情赋予较高的权值，反之赋予较低的权值，并基于该权值进行表情样本图像的更新。可以在表情识别的过程中同时进行表情样本图像的更新，每次识别过程中，和当前表情图像相比，差异最小的表情样本图像命中率加1，在一种表情样本图像的个数超过设定值时，将命中率最低表情样本图像删除，设定值可以是机器人默认设置，也可以用户设置。

[0039] 姿势和手势识别模块用于对手势和姿势进行识别，可以基于现有的识别方法进行识别，例如，基于kidnet技术进行姿势识别。还可以包含姿势和手势样本模块，姿势和手势样本模块基于收集到的特定家庭成员的样本进行识别。在识别完毕后返回识别结果。

[0040] 中央处理器用于对获取到的识别结果进行处理。针对表情识别结果：如果识别结果为困惑表情、或者注视传话家用机器人表情时，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复；如果对话成员表情困惑，可以确定对话用户因为没有听清楚而不知道如何作答，此时同时用文本和声音的方式提醒对话成员对方所说的内容，一方面可以帮助对话成员快速了解对话内容，另一方面也是对另一对话成语的提醒，提醒其降低语速。当对话成员注视传化家用机器人时，也可以确定他很希望得到帮助，因此采用语音和文本的同时提示。如果识别结果为高兴、悲伤、惊讶等态度明确表情，则认为听力障碍者已经知道了对方的谈话内容，此时不做处理；这种情况下可以确定对话成员基本上听懂了，因此不做处理（也可以在屏幕上显示“你很棒”等鼓励性语言），从而让对话成员有成就感的同时，不打扰对话的进行。如果识别结果为其他，则仅将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，此时对话成员可能听到对话内容，也可能没有听到对话内容，因此仅仅进行文本提示，可以不打扰对话的进行，另一对话成员可以继续进行对话。

[0041] 针对姿势/手势识别结果；如果识别头部姿势为点头，则认为听力障碍者已经知道了对方的谈话内容，此时不做处理；如果识别结果为第一特定姿势/手势，则将另一对话成员上一句话/话语组的语音识别结果显示在显示单元上，同时，将该上一句话/话语组通过语音输出单元输出以进行重复。考虑到对话成员有时候可能会主动向传话家用机器人求助，此时可借助约定手势或者姿势完成，通过建立特定手势/姿势和其含义的对应关系，达到帮助对话成员的目的。例如：设置“剪刀手”手势表示“我听不清”，当对话成员给出“剪刀手”手势时，同时给予语音和文本提示帮助。

[0042] 针对“重复”通知消息，立即将另一对话成员（非听力障碍成员）上一句话/话语组的语音识别结果显示在显示单元上，此时无需做语音提示以避免对另一对话成员的打扰。

[0043] 语音识别单元，用于获取另一对话成员上一句话/话语组，在另一对话成员完成一句话/话语组时，将获取到的语音进行实时处理得到文本形式的识别结果，并将获取到的语音和识别结果关联起来保存到存储器。在对话成员完成一句话/话语组后，持续识别对话成员的回答，当对话成员的回答为表示他没有听懂的语句时（例如：啥，再说一遍！等），发送“重复”通知消息给中央处理器。

[0044] 语音输出单元，将语音识别结果输出，优选用另一对话成员的声音样式进行输出。

[0045] 传话家用机器人中还可以设置听力障碍成员设置和识别模块，用于设置听力障碍成员特征信息并标识，例如：手工设置听力障碍成员为A，并记录该成员特征，身高，外形等；也可以在对话过程中通过学习来识别A，并更新该成员特征。特征信息和标识A关联存储于成员特征库，该成员特征库可以保存在听力障碍成员设置和识别模块中，也可以保存在存储器中。通过该成员特征，传话家用机器人在成员对话的过程中，快速识别出该成员A，在对话过程中，自动将显示单元对准于A的最佳视角，并通过传话功能“助听”。听力障碍成员可以为一个或者多个。在对话成员超过3个时，对话并不仅仅针对听力障碍成员，听力障碍成员听的压力不大，而且由于多人共同对话，语音提示会表现出很强的打断感，因此，默认设置为静音模式，此时仅仅进行文本提示，而不进行语音提示，用户可以手动更改静音模式为正常模式。

[0046] 以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

标题	发布/更新时间	阅读量
基于实时声道形状修正的构音障碍多维测量系统及其方法	2020-05-12	947
老年人手机助听器	2020-05-15	570
训练构音障碍的说话者的系统和方法	2020-05-11	502
一种智能导盲距离提示装置	2020-05-14	277
一种成人听力言语康复系统	2020-05-13	146
一种评测言语状态的方法及装置	2020-05-13	499
具有求助功能的障碍物检测提示装置	2020-05-15	160
基于超声相控阵的盲人用拐杖	2020-05-14	85
一种脑卒中后构音障碍患者言语康复训练和疗效评估系统及方法	2020-05-12	475
一种构音障碍元音评估模板及评估方法	2020-05-11	498

一种传话家用服务机器人

一种传话家用服务机器人

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：