一种语料数据处理方法、装置、电子设备及介质专利检索-过滤器无土农业专利检索查询-专利查询网

一种语料 数据处理方法、装置、电子设备及介质

阅读：171发布：2024-01-05

专利汇可以提供一种语料数据处理方法、装置、电子设备及介质专利检索，专利查询，专利分析的服务。并且本发明公开了一种语料数据处理方法、装置、电子设备及介质。所述方法包括：获取目标领域的待处理语料数据；根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；其中，所述目标实体映射关系基于所述知识图谱设置。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图，进而可以提高以目标语料数据为输入进行训练的模型的质量。，下面是一种语料数据处理方法、装置、电子设备及介质专利的具体信息内容。

权利要求

1.一种语料数据处理方法，其特征在于，所述方法包括：
获取目标领域的待处理语料数据；
根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；
基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；
其中，所述目标实体映射关系基于所述知识图谱设置。
2.根据权利要求1所述的方法，其特征在于，所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到目标语料数据，包括：
基于每个所述目标实体映射关系对应的数据，分别构建对应的布隆过滤器；
根据所述布隆过滤器对应的哈希函数，对所述待匹配实体映射关系对应的数据进行处理，得到待匹配位数组；
根据所述布隆过滤器对应的参考位数组和所述待匹配位数组，确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度；
其中，所述待匹配位数组和所述参考位数组的数组长度相同。
3.根据权利要求1所述的方法，其特征在于，所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据，包括：
使用布隆过滤器过滤所述待处理语料数据，得到具有目标意图的所述目标语料数据；
根据所述目标语料数据具有所述目标意图的概率与预设阈值之间的关系，或者所述目标语料数据的数量，调整所述布隆过滤器的性能参数；
其中，所述性能参数包括从所述布隆过滤器对应的哈希函数的类型、哈希函数的数量、位数组的数组长度组成的群组中选择的至少一个。
4.根据权利要求1所述的方法，其特征在于，所述根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系，包括：
根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系；
根据所述待匹配实体类别映射关系与目标实体类别映射关系之间的匹配程度，对所述待处理语料数据进行过滤处理，得到中间语料数据；
基于所述中间语料数据，生成所述待匹配实体映射关系；
其中，所述目标实体类别映射关系基于所述知识图谱设置。
5.根据权利要求4所述的方法，其特征在于，所述根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系，包括：
根据所述知识图谱中包含的实体，从所述待处理语料数据中抽取得到所述目标实体；
根据所述知识图谱和所述目标实体，确定所述目标实体所属的所述目标实体类别；
根据所述知识图谱中包含的谓词，从所述处理语料数据中抽取得到所述目标谓词；
根据所述知识图谱和所述目标谓词，确定所述目标谓词对应的目标谓词标识；
根据所述目标实体类别和所述目标谓词标识，生成所述待匹配实体类别映射关系。
6.根据权利要求1所述的方法，其特征在于，所述获取目标领域的待处理语料数据，包括：
获取候选语料数据；
选取指向所述目标领域的筛选信息；
根据所述筛选信息，从所述候选语料数据中筛选得到所述待处理语料数据；
其中，所述筛选信息包括从目标领域关键词、目标领域统一资源定位符、目标领域黑名单组成的群组中选择的至少一个。
7.根据权利要求1所述的方法，其特征在于，所述方法还包括：
将所述目标语料数据输入机器学习模型进行意图识别训练；
在训练过程中，调整所述机器学习模型的模型参数至所述机器学习模型输出的意图类型与输入的所述目标语料数据对应的意图类型相匹配；
将所述模型参数的当前值对应的所述机器学习模型作为意图识别模型。
8.一种语料数据处理装置，其特征在于，所述装置包括：
获取模块：用于获取目标领域的待处理语料数据；
生成模块：用于根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；
过滤模块：用于基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，使用布隆过滤器过滤所述待处理语料数据以得到具有目标意图的目标语料数据；
其中，所述目标实体映射关系基于所述知识图谱设置。
9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一所述的语料数据处理方法。
10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的语料数据处理方法。

说明书全文

一种语料数据处理方法、装置、电子设备及介质

技术领域

[0001] 本发明涉及互联网通信技术领域，尤其涉及一种语料数据处理方法、装置、电子设备及介质。

背景技术

[0002] 智能问答系统是一种新型的信息服务系统，可以根据用户的输入分析意图，为用户解答问题。目前，智能问答系统在智能客服、智能家电等场景得到了广泛的应用，也受到了广大用户的喜爱。对于用户输入的来自于不同领域(比如医疗、教育、法律领域等)的查询语料数据，智能问答系统作出有效的应答。

[0003] 现有技术中，往往以人工的方式从待处理语料数据中选择出目标语料数据，基于这些目标语料数据构建智能问答系统中对应领域的模型。然而，这样人力成本消耗大，处理效率低；同时对于对应领域，获取得到的目标语料数据针对性差、噪声大，进而影响构建的智能问答系统的质量。

发明内容

[0004] 为了解决现有技术应用在对待处理语料数据进行处理时处理效率低、处理效果较差等问题，本发明提供了一种语料数据处理方法、装置、电子设备及介质：

[0005] 一方面，本发明提供了一种语料数据处理方法，所述方法包括：

[0006] 获取目标领域的待处理语料数据；

[0007] 根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；

[0008] 基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；

[0009] 其中，所述目标实体映射关系基于所述知识图谱设置。

[0010] 另一方面提供了一种语料数据处理装置，所述装置包括：

[0011] 获取模块：用于获取目标领域的待处理语料数据；

[0012] 生成模块：用于根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；

[0013] 过滤模块：用于基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，使用布隆过滤器过滤所述待处理语料数据以得到具有目标意图的目标语料数据；

[0014] 其中，所述目标实体映射关系基于所述知识图谱设置。

[0015] 另一方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的语料数据处理方法。

[0016] 另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的语料数据处理方法。

[0017] 本发明提供的一种语料数据处理方法、装置、电子设备及介质，具有如下技术效果：

[0018] 本发明基于目标领域的知识图谱，利用SPO(Subject Predicate Object，主谓宾)三元组中的实体和谓词关系，对待处理语料数据进行处理得到具有目标意图的目标语料数据。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图，进而可以提高以目标语料数据为输入进行训练的模型的质量。附图说明

[0019] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

[0020] 图1是本发明实施例提供的一种应用环境的示意图；

[0021] 图2是本发明实施例提供的一种语料数据处理方法的流程示意图；

[0022] 图3是本发明实施例提供的根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系的一种的流程示意图；

[0023] 图4是本发明实施例提供的根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系的一种流程示意图；

[0024] 图5是本发明实施例提供的基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到目标语料数据的一种流程示意图；

[0025] 图6也是本发明实施例提供的一种语料数据处理方法的流程示意图；

[0026] 图7是本发明实施例提供的一种意图识别模型的应用场景的示意图；

[0027] 图8是本发明实施例提供的一种输入查询语料数据的应用场景的示意图；

[0028] 图9也是本发明实施例提供的一种输入查询语料数据的应用场景的示意图；

[0029] 图10是本发明实施例提供的一种语料数据处理装置的组成框图；

[0030] 图11是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

[0031] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0032] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0033] 请参阅图1，图1是本发明实施例提供的一种应用环境的示意图，智能问答系统可以包括客户端01和服务器02，客户端与服务器通过网络连接。用户通过客户端将查询语料数据发送至服务器，服务器对接收到的查询语料数据作处理以识别其意图，进而得到对应的应答语料数据。需要说明的是，图1仅仅是一种示例。

[0034] 具体的，客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。

[0035] 具体的，本说明书实施例中，所述服务器02可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器02可以为上述客户端提供后台服务。

[0036] 在实际应用中，通过意图识别，可以以意图类型来确定查询语料数据所属的领域，比如人物、植物、动物领域等。尤其对于一些相似领域(比如小说、漫画、电影、视频等)，可以基于对查询语料数据的意图识别有效的进行领域区分，进而得到更准确的应答语料数据。

[0037] 以下介绍本发明一种语料数据处理方法的具体实施例，图2是本发明实施例提供的一种语料数据处理方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

[0038] S201：获取目标领域的待处理语料数据；

[0039] 在本发明实施例中，获取目标领域的待处理语料数据的过程可以包括：首先，获取候选语料数据。所述候选语料数据可以是来自全领域的。比如目标领域为人物领域，候选语料数据可以不局限于人物领域。所述候选语料数据可以是来自某线上应用一定时间段(比如一天、一周)内的用户搜索日志。然后，选取指向所述目标领域的筛选信息。所述筛选信息包括从目标领域关键词、目标领域统一资源定位符、目标领域黑名单组成的群组中选择的至少一个。接着，根据所述筛选信息，从所述候选语料数据中筛选得到所述待处理语料数据。这样可以有效的从数量较多甚至海量的候选语料数据中筛选得到待处理语料数据，待处理语料数据的数量级别小于候选语料数据的数量级别，待处理语料数据能够能精准的指向目标领域。

[0040] 具体的，当以目标领域关键词作为筛选信息时，可以选择目标领域的实体(实体指表示一个概念的基本单位；具体的，实体可以是具有可区别性且独立存在的特定对象，比如实体可以是人名、地名、机构名、日期、时间、百分数、货币等)作为目标领域关键词。目标领域关键词可以只由一个实体构成。目标领域关键词也可以由至少两个实体以逻辑与(&&、and)的关系组成。比如以体育领域作为目标领域，可以选取“姚明”、“柯洁”、“世界杯”、“乒协”、“达喀尔”、“A国&&女排”、“第N届&&花样滑冰世锦赛&&双人短节目”等作为目标领域关键词。进一步的，根据目标领域关键词作为筛选信息过滤得到的待处理语料数据的数量，可以对该目标领域关键词作调整。比如，当使用“姚明”作为当前的目标领域关键词过滤得到的待处理语料数据的数量较多时，可以将该目标领域关键词调整至“姚明&&NBA”。当使用“第N届花样滑冰世锦赛双人短节目”作为当前的目标领域关键词过滤得到的待处理语料数据的数量较少时，可以将该目标领域关键词调整至“第N届&&花样滑冰世锦赛”。

[0041] 当以目标领域统一资源定位符(URL，Uniform Resource Locator；可以作为一种对可以从互联网上得到的资源的位置和访问方法的简洁的表示，是互联网上标准资源的地址)作为筛选信息时，可以选择目标领域的目标网址作为目标领域统一资源定位符。选择目标网址时，可以以与目标领域的相关性为参考，或者可以以相关网址的点击热度为参考。当然，选择目标网址的参考维度不限于上述及其结合。进一步的，还可以对该目标网址进行处理(比如去掉居于前端的“www”、去掉居于后端的无用后缀)以得到所述目标领域统一资源定位符。比如，以体育领域作为目标领域，可以选取“sports.qq.com”、“sports.sohu.com”、“sports.sina.com.cn”、“sports.163.com”、“hupu.com”等作为目标领域统一资源定位符。在实际应用中，用户A输入候选语料数据A，根据候选语料数据A向用户返回至少一个待选链接，用户A点击待选链接B且在待选链接B打开的页面停留超过阈值，或者用户A点击待选链接B且以待选链接B打开的页面作为最终停留页面。当待选链接B对应的字符串(比如“movie.douban.com/subject/1291572/”)包括有目标领域统一资源定位符(比如“douban.com”)时，那么候选语料数据A可以作为目标领域的待处理语料数据。

[0042] 当以目标领域黑名单作为筛选信息时，可以选择一些敏感政治词汇作为目标领域黑名单，可以选择一些色情类词汇作为目标领域黑名单，可以选择非目标领域的实体作为目标领域黑名单。比如，以体育领域作为目标领域，可以选取计算机领域的实体“云计算”、“大数据”等作为目标领域黑名单，可以选取生物领域的实体“碱基”、“脱氧核糖核酸”等作为目标领域黑名单。

[0043] 根据上述筛选信息，从所述候选语料数据中筛选得到所述待处理语料数据时，可以先通过目标领域黑名单对候选语料数据作对应排除，再依次通过目标领域统一资源定位符和目标领域关键词对候选语料数据作相应提取。

[0044] 当然，也可以将来自全领域的候选语料数据直接作为目标领域的待处理语料数据，通过后续步骤S202-S203进行处理得到目标语料数据。

[0045] 在一个具体的实施例中，获取目标领域的待处理语料数据以查询句式(query)呈现。比如，“歌手A的女儿是谁”、“你知道电影B的上映年份吗”、“港珠澳大桥解决的技术难题有哪些”。

[0046] 在另一个具体的实施例中，获取目标领域的待处理语料数据可以以语音、文本、图像等形式呈现。

[0047] S202：根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；

[0048] 在本发明实施例中，智能问答系统提供的可以是基于知识库(KB，knowledge base；通常是把数据存为结构化的知识，比如以SPO三元组形式存储知识)的知识库问答(KBQA，knowledge base question answering)。不同领域的知识可以有对应的知识图谱(Knowledge Graph/Vault；又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系)。根据所述目标领域对应的知识图谱，利用SPO三元组中的实体(可参见步骤S201中的相关描述，这里不再赘述)和谓词(谓词可以表征主语实体与宾语实体间的关系；比如一个SPO三元组“歌手A-妻子-演员B”，那么歌手A为主语实体，妻子是谓词，演员B为宾语实体)关系，从所述待处理语料数据中获取目标实体和目标谓词，根据目标实体和目标谓词生成的待匹配实体映射关系能够更直接的反映待处理语料数据的意图，对于后续得到具有目标意图的目标语料数据提供了更准确的判断依据。

[0049] 在一个具体的实施例中，如图3所示，所述根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系，包括：

[0050] S301：根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系；

[0051] 具体的，如图4所示，所述根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系，包括：

[0052] S401：根据所述知识图谱中包含的实体，从所述待处理语料数据中抽取得到所述目标实体；

[0053] 目标领域对应的知识图谱中以结构化的形式(比如关系映射对)存储着知识。所述知识图谱中可以包含有多个实体对应的实体字符串，在所有实体字符串中，查找属于所述待处理语料数据的实体字符串，以得到目标实体。

[0054] S402：根据所述知识图谱和所述目标实体，确定所述目标实体所属的所述目标实体类别；

[0055] 根据所述知识图谱中的关系映射对可以建立实体AC自动机(AC自动机可以在Trie树上实现KMP，以完成多模式串的匹配；Trie树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种；KMP，一种改进的字符串匹配算法)。可以在实体AC自动机中，设置如下格式：实体加上实体所属的实体类别。实体类别可以以约定的数字表示。比如：“人名A|15，21，33”，其中15表征歌手的实体类别，21表征演员的实体类别，33表征导演的实体类别。
这样通过实体AC自动机可以确定目标实体(比如人名A)所属的所述目标实体类别(比如15，
21，33)。

[0056] S403：根据所述知识图谱中包含的谓词，从所述处理语料数据中抽取得到所述目标谓词；

[0057] 所述知识图谱中可以包含有多个谓词对应的谓词字符串，在所有谓词字符串中，查找属于所述待处理语料数据的谓词字符串，以得到目标谓词。

[0058] S404：根据所述知识图谱和所述目标谓词，确定所述目标谓词对应的目标谓词标识；

[0059] 根据所述知识图谱中的关系映射对可以建立谓词AC自动机。可以在谓词AC自动机中，设置如下格式：谓词加上谓词对应的谓词标识。谓词标识可以以谓词对应的英文单词表示。比如：“女儿|Daughter”。这样通过谓词AC自动机可以确定目标谓词(比如女儿)所属的所述目标谓词标识(比如Daughter)。

[0060] S405：根据所述目标实体类别和所述目标谓词标识，生成所述待匹配实体类别映射关系。

[0061] 这样可以得到待匹配实体类别映射关系(比如15|Daughter，21|Daughter，33|Daughter)。

[0062] S302：根据所述待匹配实体类别映射关系与目标实体类别映射关系之间的匹配程度，对所述待处理语料数据进行过滤处理，得到中间语料数据；

[0063] 所述目标实体类别映射关系基于所述知识图谱设置，根据所述目标实体类别映射关系可以建立实体类别-谓词AC自动机。可以在实体类别-谓词AC自动机中，设置如下格式：实体类别加上谓词标识。比如：“15|Album，Song，Wife，Daughter，Son”。这样通过实体类别-谓词AC自动机可以对上述待匹配实体类别映射关系(比如15|Daughter)与目标实体类别映射关系之间的匹配程度进行校验。如果目标实体所属的所述目标实体类别(比如15)与谓词标识(比如Daughter)不存在映射关系，则说明匹配程度低。如果目标实体所属的所述目标实体类别(比如15)与谓词标识(比如Daughter)存在映射关系，则说明匹配程度高，进而对所述待处理语料数据进行过滤处理，得到中间语料数据。

[0064] S303：基于所述中间语料数据，生成所述待匹配实体映射关系；

[0065] 这样可以得到待匹配实体映射关系(比如人名A|Daughter)。

[0066] S203：基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；

[0067] 在一个具体的实施例中，所述目标实体映射关系基于所述知识图谱设置，根据所述目标实体映射关系可以建立实体-谓词AC自动机。可以在实体-谓词AC自动机中，设置如下格式：实体加上谓词标识。比如：“人名A|Album，Song，Wife，Daughter，Son”。这样通过实体-谓词AC自动机可以对上述待匹配实体映射关系(比如人名A|Daughter)与目标实体映射关系之间的匹配程度进行校验。如果目标实体(比如人名A)与谓词标识(比如Daughter)不存在映射关系，则说明匹配程度低。如果目标实体(比如人名A)与谓词标识(比如Daughter)存在映射关系，则说明匹配程度高，进而对所述待处理语料数据进行过滤处理，得到具有目标意图的目标语料数据。

[0068] 在另一个具体的实施例中，如图5所示，所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到目标语料数据，包括：

[0069] S501：基于每个所述目标实体映射关系对应的数据，分别构建对应的布隆过滤器(bloom filter)；

[0070] 所述目标实体映射关系基于所述知识图谱设置。基于每个目标实体映射关系对应的数据，分别构建对应的布隆过滤器。比如对于目标实体映射关系1(人名A|生日)对应的数据构建布隆过滤器1，对于目标实体映射关系2(人名A|职业)对应的数据构建布隆过滤器2，对于目标实体映射关系3(人名A|毕业学校)对应的数据构建布隆过滤器3。

[0071] S502：根据所述布隆过滤器对应的哈希函数，对所述待匹配实体映射关系对应的数据进行处理，得到待匹配位数组；

[0072] 布隆过滤器对应一个长度为m的基准位(比特位，bit)数组，其中，m为正整数，m大于等于1。初始化时，该基准位数组的每个比特位为0。布隆过滤器对应k个哈希函数，其中，k为正整数，k大于等于1。在根据所述布隆过滤器对应的哈希函数，对所述待匹配实体映射关系对应的数据进行处理时，使用k个哈希函数对所述待匹配实体映射关系对应的数据进行计算以得到k个散列值；再根据得到的k个散列值，按照预设规则将上述基准位数组中对应的比特位设置为1，进而得到待匹配位数组。当然，也可以利用得到的待匹配实体映射关系对应的k个散列值与参考位数组进行匹配。

[0073] S503：根据所述布隆过滤器对应的参考位数组和所述待匹配位数组，确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度；

[0074] 得到所述布隆过滤器对应的参考位数组的过程如下：使用k个哈希函数对所述目标实体映射关系对应的数据进行计算以得到k个散列值；再根据得到的k个散列值，按照预设规则将上述基准位数组中对应的比特位设置为1，进而得到参考位数组。所述待匹配位数组的数组长度和所述参考位数组的数组长度均与基准位数组的数组长度相同。当然，利用得到的待匹配实体映射关系对应的k个散列值与参考位数组进行匹配时，可以根据待匹配实体映射关系对应的k个散列值查询参考位数组中对应的比特位是否为1，如果待匹配实体映射关系对应的k个散列值指向的所有的比特位都是1，则可以确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度高。

[0075] 布隆过滤器利用哈希函数对所有数据进行编码存储，它能够有效的判断一个数据是否在一个集合之中，对于不在集合中的数据判断准确性高。对于实体数量级以亿计的知识图谱，目标实体映射关系(实体-谓词)的数量级往往以10～100亿计，若建立对应的AC自动机、map(映射，字典映射)或者set(集合)，容易出现处理机内存不足的情形。以布隆过滤器存放海量数据占用的内存小，不会造成内存溢出。通过对目标实体映射关系构造对应的布隆过滤器，实现在海量数据中有效过滤得到具有目标意图的目标语料数据，减少人工检查的数据量。

[0076] 在另一个具体的实施例中，可以使用布隆过滤器过滤所述待处理语料数据，得到具有目标意图的所述目标语料数据；根据所述目标语料数据具有所述目标意图的概率与预设阈值之间的关系，或者所述目标语料数据的数量(不同领域就目标语料数据的最低数量设置可以不同，比如热门领域设置为2000)，调整所述布隆过滤器的性能参数；其中，所述性能参数包括从所述布隆过滤器对应的哈希函数的类型、哈希函数的数量、位数组的数组长度组成的群组中选择的至少一个。比如当所述目标语料数据具有所述目标意图的概率小于预设阈值，也就是目标语料数据与目标意图的相关性小，可以将对应的哈希函数的数量增多和/或将对应的位数组的数组长度增加，提高对应布隆过滤器占用的内存空间。

[0077] 如图6所示，所述方法还包括：

[0078] S204：将所述目标语料数据输入机器学习模型进行意图识别训练；

[0079] 可以采用LSTM模型(Long-Short Term Memory，长短期记忆模型)、LR模型(Logistic Regression，逻辑回归模型)作为机器学习模型进行训练，当然用于训练的机器学习模型并不仅限于此，还可以包括决策树机器学习模型等。具体的，当训练用于识别体育领域相关意图的意图识别模型时，对于输入的正例样本数据可以为体育领域的目标语料数据，负例样本数据可以为非体育领域(比如医疗领域、教育领域、法律领域)的语料数据。

[0080] 输入机器学习模型的目标语料数据不限于当前阶段对待处理语料数据进行处理得到的目标语料数据，还可以包括当前阶段之前对待处理语料数据进行处理得到的目标语料数据。

[0081] S205：在训练过程中，调整所述机器学习模型的模型参数至所述机器学习模型输出的意图类型与输入的所述目标语料数据对应的意图类型相匹配；

[0082] 可以计算所述机器学习模型输出的中间值(作为训练中间结果的意图类型)与所述目标语料数据对应的参考值(作为正确答案的意图类型)之间的损失值，根据所述损失值调整所述模型参数。具体的，可以采用梯度下降法对所述初始网络模型进行训练，设置学习率的初始值为0.0005至0.0015，每隔1000至3000次迭代调整所述学习率的取值。比如可以设置学习率的初始值为0.001，每隔2000次迭代调整所述学习率的取值。当然，对学习率的设置方式不限于此。

[0083] S206：将所述模型参数的当前值对应的所述机器学习模型作为意图识别模型。

[0084] 图7是本发明实施例提供的一种意图识别模型的应用场景的示意图。图7中训练数据为目标语料数据，每个所述样本数据可以标注有对应的意图类型；相应的，后续训练出来的意图识别模型可以对查询语料数据进行意图类型的识别。

[0085] 在一个具体的实施例中，将查询语料数据输入意图识别模型，得到对应的意图类型，包括：根据每个目标领域对应的所述意图识别模型，分别得到所述查询语料数据对应各目标领域相关的意图类型的预测值。每个目标领域可以有对应的意图识别模型，比如识别体育领域相关意图的意图识别模型，识别医疗领域相关意图的意图识别模型。查询语料数据分别输入各个目标领域对应的意图识别模型，进而得到所述查询语料数据对应各目标领域相关的意图类型的预测值，比如用户A对应的查询语料数据在识别体育领域相关意图的意图识别模型得到的预测值为90分(也可以以概率等形式表示)、在识别医疗领域相关意图的意图识别模型得到的预测值为50分以及在识别教育领域相关意图的意图识别模型得到的预测值为20分。然后，比较得到所述查询语料数据对应各目标领域相关的意图类型的预测值的最大值，确定所述查询语料数据属于所述最大值对应的目标领域相关的意图类型。查询语料数据在多个不同目标领域对应的意图识别模型中进行识别，再综合各个识别得到的预测值，可以保证对查询语料数据的识别结果的准确度。进而基于识别得到的意图类型，向用户返回更精准的应答语料数据，可参考图8、9。应答语料数据的呈现形式可以不限于语音、文本、图像、链接。

[0086] 使用目标语料数据进行机器学习训练得到意图识别模型，由此得到的意图识别模型具有高泛化能力，在利用意图识别模型进行意图识别时可以提高对用户输入的查询语料数据的识别适应能力，进而可以大大提高意图识别的可靠性和有效性。当前阶段训练得到的意图识别模型可以作为中间模型，向中间模型输入本轮训练的目标语料数据进行训练。智能问答系统中使用的意图识别模型可以随着训练的进行以新模型替换老模型。

[0087] 由以上本说明书实施例提供的技术方案可见，本说明书实施例中基于目标领域的知识图谱，利用SPO(Subject Predicate Object，主谓宾)三元组中的实体和谓词关系，对待处理语料数据进行处理得到具有目标意图的目标语料数据。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图，进而可以提高以目标语料数据为输入进行训练的模型的质量。通过意图识别，可以以意图类型来确定查询语料数据所属的领域，可以更有效的对一些相似领域(比如小说、漫画、电影、视频等)作区分，进而得到更准确的应答语料数据。

[0088] 本发明实施例还提供了一种语料数据处理装置，如图10所示，所述装置包括：

[0089] 获取模块1010：用于获取目标领域的待处理语料数据；

[0090] 生成模块1020：用于根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；

[0091] 过滤模块1030：用于基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，使用布隆过滤器过滤所述待处理语料数据以得到具有目标意图的目标语料数据，所述目标实体映射关系基于所述知识图谱设置。所述过滤模块1030包括：构建单元：用于基于每个所述目标实体映射关系对应的数据，分别构建对应的布隆过滤器；处理单元：用于根据所述布隆过滤器对应的哈希函数，对所述待匹配实体映射关系对应的数据进行处理，得到待匹配位数组；匹配单元：用于根据所述布隆过滤器对应的参考位数组和所述待匹配位数组，确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度，所述待匹配位数组和所述参考位数组的数组长度相同。

[0092] 所述装置还包括：

[0093] 输入模块：用于将所述目标语料数据输入机器学习模型进行意图识别训练；

[0094] 模型训练模块：用于在训练过程中，调整所述机器学习模型的模型参数至所述机器学习模型输出的意图类型与输入的所述目标语料数据对应的意图类型相匹配；

[0095] 模型更新模块：用于将所述模型参数的当前值对应的所述机器学习模型作为意图识别模型。

[0096] 需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

[0097] 本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的语料数据处理方法。

[0098] 存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

[0099] 所述电子设备可以为服务器，本发明实施例还提供了一种服务器的结构示意图，请参阅图11，该服务器1100用于实施上述实施例中提供的语料数据处理方法，具体来讲，所述服务器结构可以包括上述语料数据处理装置。该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1110(例如，一个或一个以上处理器)和存储器1130，一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中，存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1110可以设置为与存储介质1120通信，在服务器1100上执行存储介质1120中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1160，一个或一个以上有线或无线网络接口
1150，一个或一个以上输入输出接口1140，和/或，一个或一个以上操作系统1121，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

[0100] 本发明的实施例还提供了一种存储介质，所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种语料数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的语料数据处理方法。

[0101] 可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0102] 需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

[0103] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0104] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

[0105] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
一种用于压铸机电器控制柜外壳制作方法	2020-05-08	929
一种涡旋式排污前置过滤器	2020-05-11	598
一种高效生产富氧水的曝气装置	2020-05-08	488
一种电动真空上料机	2020-05-08	861
一种滤筒式气液分离器	2020-05-11	324
用于治疗干眼症的含有瑞巴派特的新型滴眼剂组合物及其增溶和稳定化方法	2020-05-08	827
一种除湿、干燥、二段送料一体化设备	2020-05-08	777
一种真空进气系统及进气控制方法	2020-05-08	583
一种气动真空上料机	2020-05-08	255
一种氧化钇分散液的制备方法	2020-05-08	437

一种语料数据处理方法、装置、电子设备及介质

一种语料数据处理方法、装置、电子设备及介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：