首页 / 专利库 / 人工智能 / 人工神经网络 / 递归神经网络 / 基于同义多语境分析的机器人知识库构建系统及方法

基于同义多语境分析的机器人知识库构建系统及方法

阅读:1013发布:2020-05-22

专利汇可以提供基于同义多语境分析的机器人知识库构建系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于同义多语境分析的 机器人 知识库 构建系统及方法,从“传统知识库 整理 、提问库分词、应答库分词、同义扩充、语境分析、知识库索引、新知识库构建”七个方面来实现此方案,首先整理原有知识库;接着将知识库中的提问语句和应答语句分别做分词处理,提取关键词;然后对关键词进行相似度计算,同义扩充;接着通过语境分析,确定语句中各个关键词同时出现的适配评分,同时构建多叉树索引关键词;最后构建新的知识库,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。,下面是基于同义多语境分析的机器人知识库构建系统及方法专利的具体信息内容。

1.一种基于同义多语境分析的机器人知识库构建方法,其特征在于包括如下步骤:
步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库真中包括提问用语语句和应答用语语句;
步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S4、同义扩充:将步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间;
步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配;
步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语;
步骤S7、新知识库构建:将前述步骤构建的电客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
2.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S1具体包括:
1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
6)将整理后的数据重新导入至知识库所选用的数据库。
3.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S2具体包括:
1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
2)搭建卷积神经网络递归神经网络混合训练框架,用于后续分词模型的训练;
3)制作深度训练样本集,样本集的制作方法为:
a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
c.将从知识库中选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
a.根据步骤3)中步骤c的分词结果,建立样本数据库;
b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层
c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对;
d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
a.人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
4.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S4具体包括:
1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。
5.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S5具体包括:
1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性;
b.对于数据库中些常用的敬语归为褒义词一类;
c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词;
d.对于样本集中可能出现的不文明用语,归为贬义词一类;
2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词;
3)将同义词替换至原词所在语句中,生成新的测试语句;
4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
6.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S6具体包括:
1)对用户提问语句,首先提取关键词,具体实现方法为:
a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语;
b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词;
c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库;
d.输出提取的全部关键字;
2)根据提问关键词,匹配提问库;
3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理;
b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词:
c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句;
d.将随机组合生成的新的应答语句,作为最终结果;
6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
7.一种基于同义多语境分析的机器人知识库构建系统,其特征在于包括:
知识库整理模,用于实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库真中包括提问用语语句和应答用语语句,分词模块,用于实现提问库和应答库语句内容的分词处理,具体的,语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
同义扩充模块,用于将分词模块分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持;
语境分析模块,用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;
索引模块,用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应;
新知识库构建模块,用于根据构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
8.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:所述知识库整理模块具体实现功能为:将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
9.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:所述同义扩充模块具体实现功能为:根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项,扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
10.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:
所述语境分析模块还用于截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;
否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。

说明书全文

基于同义多语境分析的机器人知识库构建系统及方法

技术领域

[0001] 本发明涉及电子信息技术领域,具体是一种基于同义多语境分析的机器人知识库构建系统及方法,其通过建立一套自动语义关联的机器人知识库系统,以支持应答机器人用语多样化、拟人化的提问应答,实现电客服的全自动、精确的客户提问响应。

背景技术

[0002] 响应网络用户的咨询、提问,是电力客服日常工作的重要环节,是提升服务质量、集聚用户口碑的主要窗口。传统人工的用户应答方式,已不能满足广大电力用户的服务需求,主要体现在:
[0003] 1)由于业务量较大,需要多人协同完成广大电力用户的咨询服务,无法以绝对相同的标准实现无差别服务;
[0004] 2)人工应答服务的方式,受个体情绪影响、工作状态影响,应答内容无法做到精确无误;
[0005] 3)无法高质高量的提供24小时全天候服务。与此同时,随着服务要求的提升与服务内容的拓展,人工客服的培训成本、应答成本也日益提升,电力企业需要招聘并培训大量人员,从事客户的提问应答服务。
[0006] 基于以上几点,电力客户提问的机器人自动应答系统应运而生。近年来,伴随着人工智能技术、大数据技术等的快速发展,传统的电力客服机器人的应答质量也不断提升,部分地区电力企业的网络服务窗口,已能够提供常用的业务咨询及提问应答,部分取代了传统的人工客服服务;另一方面,传统的电力客服机器人通常采用知识库检索的方式,根据用户提问的关键字,计算相似度,进而匹配知识库中预先存储的答案,输出结果至用户。这种知识库匹配的方式,由于输出结果为匹配率最高的知识库内容,因此对于任何相同的提问,均会产生唯一的结果,应答方式机械且单调,无法完全实现人工应答用语的多样性与丰富性。

发明内容

[0007] 针对现有技术存在的上述问题,本发明提供一种基于同义多语境分析的机器人知识库构建系统及方法,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。
[0008] 一种基于同义多语境分析的机器人知识库构建系统,包括如下步骤:
[0009] 步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库真中包括提问用语语句和应答用语语句;
[0010] 步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
[0011] 步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
[0012] 步骤S4、同义扩充:将步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间;
[0013] 步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配;
[0014] 步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语;
[0015] 步骤S7、新知识库构建:将前述步骤构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
[0016] 进一步的,所述步骤S1具体包括:
[0017] 1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
[0018] 2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
[0019] 3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
[0020] 4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
[0021] 5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
[0022] 6)将整理后的数据重新导入至知识库所选用的数据库。
[0023] 进一步的,所述步骤S2具体包括:
[0024] 1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
[0025] 2)搭建卷积神经网络递归神经网络混合训练框架,用于后续分词模型的训练;
[0026] 3)制作深度训练样本集,样本集的制作方法为:
[0027] a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
[0028] b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
[0029] c.将从知识库中选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
[0030] 4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
[0031] a.根据步骤3)中步骤c的分词结果,建立样本数据库;
[0032] b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层
[0033] c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对;
[0034] d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
[0035] 5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
[0036] 6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
[0037] 7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
[0038] a.人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
[0039] b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
[0040] c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
[0041] d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
[0042] 进一步的,所述步骤S4具体包括:
[0043] 1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
[0044] 2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。
[0045] 进一步的,所述步骤S5具体包括:
[0046] 1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
[0047] a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性;
[0048] b.对于数据库中些常用的敬语归为褒义词一类;
[0049] c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词;
[0050] d.对于样本集中可能出现的不文明用语,归为贬义词一类;
[0051] 2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词;
[0052] 4)将同义词替换至原词所在语句中,生成新的测试语句;
[0053] 4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
[0054] 进一步的,所述步骤S6具体包括:
[0055] 1)对用户提问语句,首先提取关键词,具体实现方法为:
[0056] a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语;
[0057] b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词;
[0058] c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库;
[0059] d.输出提取的全部关键字;
[0060] 2)根据提问关键词,匹配提问库;
[0061] 3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
[0062] 4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
[0063] 5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
[0064] a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理;
[0065] b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词:
[0066] c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句;
[0067] d.将随机组合生成的新的应答语句,作为最终结果;
[0068] 6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
[0069] 一种基于同义多语境分析的机器人知识库构建系统,包括:
[0070] 知识库整理模,用于实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库真中包括提问用语语句和应答用语语句,[0071] 分词模块,用于实现提问库和应答库语句内容的分词处理,具体的,语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
[0072] 同义扩充模块,用于将分词模块分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持;
[0073] 语境分析模块,用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;
[0074] 索引模块,用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应;
[0075] 新知识库构建模块,用于根据构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
[0076] 进一步的,所述知识库整理模块具体实现功能为:将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
[0077] 进一步的,所述同义扩充模块具体实现功能为:根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项,扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
[0078] 进一步的,所述语境分析模块还用于截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
[0079] 本发明从“传统知识库整理、提问库分词、应答库分词、同义扩充、语境分析、知识库索引、新知识库构建”七个方面来实现此方案,首先整理原有知识库;接着将知识库中的提问语句和应答语句分别做分词处理,提取关键词;然后对关键词进行相似度计算,同义扩充;接着通过语境分析,确定语句中各个关键词同时出现的适配评分,同时构建多叉树索引关键词;最后构建新的知识库,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。附图说明
[0080] 图1是本发明基于同义多语境分析的机器人知识库构建系统工作时的流程示意图;
[0081] 图2是本发明基于同义多语境分析的机器人知识库构建系统的模块框图

具体实施方式

[0082] 下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
[0083] 如图1所示,本发明实施例提供一种基于同义多语境分析的机器人知识库构建方法,包括以下步骤:
[0084] 步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库真中包括提问用语语句和应答用语语句。具体实现方法为:
[0085] 1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
[0086] 2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
[0087] 3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
[0088] 4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
[0089] 5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
[0090] 6)将整理后的数据重新导入至知识库所选用的数据库。
[0091] 步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现,具体方法为:
[0092] 1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
[0093] 2)搭建卷积神经网络和递归神经网络混合训练框架,用于后续分词模型的训练;
[0094] 3)制作深度训练样本集,样本集的制作方法为:
[0095] a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
[0096] b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
[0097] c.将知识库中提问库中的内容,由于语句条数较多,仅选取部分条数人工制作样本,便于后续模型训练,实现自动化分解。可选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
[0098] 4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
[0099] a.根据步骤3)中步骤c的分词结果,建立样本数据库,如提问语句为“我怎样缴纳电费”,则将“我”加入主语数据库,“怎样”加入状语数据库,“缴纳”加入谓语数据库,“电费”加入宾语数据库;
[0100] b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层;
[0101] c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对,便于后续步骤的训练;例如:对于样本“我怎样缴纳电费”,其标签为多标签结构,为:“我”、“怎样”、“缴纳”、“电费”4个标签;
[0102] d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
[0103] 5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
[0104] 6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
[0105] 7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
[0106] a.由于知识库中语句条数较多,人工处理起来耗时耗力,并且不利于后续样本的增量更新,因此采用的方法是:仅人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
[0107] b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
[0108] c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
[0109] d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
[0110] 步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,分解方法与提问库分词方法类似。
[0111] 步骤S4、同义扩充:将前述步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持。具体实现方法为:
[0112] 1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
[0113] 2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项;
[0114] 本发明的同义词扩充方法,可接入第三方同义词库进行自动扩充为主,用人工核定的方式扩充同义词库。
[0115] 步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配。
[0116] 具体实现方法为:
[0117] 1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
[0118] a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性,如“恰当”、“尊敬”等形容词直接标定为褒义词;
[0119] b.对于数据库中,一些常用的敬语,也归为褒义词一类,如“您”、“您好”、“请”等;
[0120] c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词,如“必须”、“应该”、“是”、“不是”等;
[0121] d.对于样本集中可能出现的不文明用语,归为贬义词一类;
[0122] e.特别说明:本发明所涉及的褒义词、贬义词、中性词,并非传统意义上的概念,而是根据电力客服业务环境,界定范围做了适应性的调整;
[0123] 2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词,具体实现细节为:
[0124] a.对于输出应答回复,同义词替换保证了应答内容相同的情形下,回复语句的多样化,为使语句回复更加自然、贴近原始语句,应保持用词用语的词性相同;需对同义词进行筛选过滤;
[0125] b.如表示肯定的回复用语“好的”,其归类为褒义词,其同义词包括“行”、“可以”、“行吧”、“那行吧”、“ok”、“没问题”、“就这样吧”等等;
[0126] c.其中,同义词“行”、“ok”、“没问题”回复态度较为积极,归为褒义词类,可作为同情感属性的同义词予以保留;
[0127] d.同义词“可以”无法确定其词性属性,前述处理步骤中,应已归为中性词,予以剔除;
[0128] e.同义词“行吧”、“那行吧”、“就这样吧”回复较为消极,为贬义词词性,予以剔除;
[0129] 3)将同义词替换至原词所在语句中,生成新的测试语句;
[0130] 4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
[0131] 步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语。具体实现方法为:
[0132] 1)对用户提问语句,首先提取关键词,具体实现方法为:
[0133] a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语,如“电费”、“用电”、“电量”、“停电”等;
[0134] b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词,如用户提问语句为:“请问如何缴纳电费”,则首先提取关键词“电费”;
[0135] c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库,如在用户提问语句“请问如何缴纳电费”中,则匹配到状语“如何”和谓语“缴纳”;
[0136] d.输出提取的全部关键字,此例中包括3个关键字,分别为:电费、如何、缴纳;
[0137] 2)根据提问关键词,匹配提问库,具体实现方法为:
[0138] a.原始提问库中包含:所有用户提问的样本,采用分级匹配的方式实现用语原始提问语句的检索;
[0139] b.首先根据前述步骤提取的电力客服专业词汇,进行业务层次的初次检索,如用户提问“请问如何缴纳电费”,首先检索所有包含“电费”词语的用户提问语句,假设为集合A;
[0140] c.接着通过该语句提取的其它关键词,做多次检索,如继续在集合A中检索“如何”关键词,找到A中所有包含“如何”的提问语句,也即A的子集B;
[0141] d.继续c步骤,直至所有关键词检索完成,在本例中,将继续在B集合中检索关键词“缴纳”,得到B集合的子集C;
[0142] e.对于集合C,若C中仅1条记录,则直接作为匹配结果输出;
[0143] f.若C中无记录,则返回用户:匹配失败;
[0144] g.若C中多于一条记录,则随机输出一条记录作为匹配结果,其它匹配记录作为“相似提问”返回;
[0145] 3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
[0146] 4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
[0147] 5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
[0148] a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理,如应答语句“好的,我上将您的反映的情况记录并通知检修部同事。”,分词结果如下表1所示:
[0149] 表1
[0150]
[0151] b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词,扩充结果如下表2所示:
[0152] 表2
[0153]
[0154]
[0155] c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句,如应答语句可为:“ok,我立刻把您提到的问题记下来并提交检修部门同事”、“没问题,我这就将您反馈的情况备注并发给检修部门同事”等等。
[0156] d.将随机组合生成的新的应答语句,作为最终结果。
[0157] 6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
[0158] 步骤S7、新知识库构建:新知识库的构建,包括将前述步骤构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,还包括扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
[0159] 如图2所示,本发明实施例提供的一种基于同义多语境分析的机器人知识库构建系统,其包括:
[0160] 知识库整理模块10,此模块的主要功能为实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正等。将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
[0161] 分词模块20,此模块的主要功能为实现提问库和应答库语句内容的分词处理。语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式,综合实现。
[0162] 同义扩充模块30,此模块的主要功能为将前述步骤分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持。根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。此模块的扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
[0163] 语境分析模块40,此模块的主要功能用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
[0164] 索引模块50,此模块的主要功能用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
[0165] 新知识库构建模块60,此模块用于根据前述构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
[0166] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈