首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 一种数据处理方法和装置

一种数据处理方法和装置

阅读:993发布:2020-05-12

专利汇可以提供一种数据处理方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种 数据处理 方法和装置,其中,该方法包括:获取文本和需要进行 共指消解 的词语;根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。通过本发明 实施例 提供的数据处理方法和装置,能够以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。,下面是一种数据处理方法和装置专利的具体信息内容。

1.一种数据处理方法,其特征在于,包括:
获取文本和需要进行共指消解的词语;
根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
2.根据权利要求1所述的方法,其特征在于,根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
利用预训练模型BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
3.根据权利要求2所述的方法,其特征在于,从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
4.一种数据处理装置,其特征在于,包括:
获取模,用于获取文本和需要进行共指消解的词语;
处理模块,用于根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
提取模块,用于利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
5.根据权利要求4所述的装置,其特征在于,所述处理模块,具体用于:
获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
利用预训练模型BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,用于从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-3任一项所述的方法的步骤。
8.一种数据处理装置,其特征在于,所述数据处理装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-3任一项所述的方法的步骤。

说明书全文

一种数据处理方法和装置

技术领域

[0001] 本发明涉及计算机技术领域,具体而言,涉及一种数据处理方法和装置。

背景技术

[0002] 目前,为了避免重复,习惯在文本中使用代词、称谓和缩略语来指代前面提到的词语。例如,在文本开始处会写“哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等;这种现象称为共指现象。对于计算机进行自然语言处理来说,从文本中识别出具有共指现象的词语是非常困难的。计算机可以对文本进行共指消解,才可以从文本中识别出具有共指现象的词语。所谓共指消解,就是从文本中找到同一词语的所有指代词。
[0003] 相关技术中,共指消解方法往往是基于元组的相似性比较来获取结果。导致共指消解的准确率低。

发明内容

[0004] 为解决上述问题,本发明实施例的目的在于提供一种数据处理方法和装置。
[0005] 第一方面,本发明实施例提供了一种数据处理方法,包括:
[0006] 获取文本和需要进行共指消解的词语;
[0007] 根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
[0008] 利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
[0009] 第二方面,本发明实施例还提供了一种数据处理装置,包括:
[0010] 获取模,用于获取文本和需要进行共指消解的词语;
[0011] 处理模块,用于根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
[0012] 提取模块,用于利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
[0013] 第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
[0014] 第四方面,本发明实施例还提供了一种数据处理装置,所述数据处理装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。
[0015] 本发明实施例上述第一方面至第四方面提供的方案中,根据获取到的词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,与相关技术中基于元组的相似性比较来进行共指消解的方式相比,可以通过词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
[0016] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0017] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1示出了本发明实施例1所提供的一种数据处理方法的流程图
[0019] 图2示出了本发明实施例2所提供的一种数据处理装置的结构示意图;
[0020] 图3示出了本发明实施例3所提供的另一种数据处理装置的结构示意图。

具体实施方式

[0021] 目前,为了避免重复,习惯在文本中使用代词、称谓和缩略语来指代前面提到的词语。例如,在文本开始处会写“哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等;这种现象称为共指现象。对于计算机进行自然语言处理来说,从文本中识别出具有共指现象的词语是非常困难的。计算机可以对文本进行共指消解,才可以从文本中识别出具有共指现象的词语。所谓共指消解,就是从文本中找到同一词语的所有指代词。相关技术中,共指消解方法往往是基于元组的相似性比较来获取结果。导致共指消解的准确率低。
[0022] 基于此,本实施例提出一种数据处理方法和装置,可以通过需要进行共指消解的词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,大大提高了共指消解的准确率。
[0023] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
[0024] 实施例1
[0025] 本实施例提出一种数据处理方法,执行主体是服务器
[0026] 所述服务器,可以采用现有技术中任何可以根据词语对文本进行处理,对词语进行共指消解的计算设备,这里不再一一赘述。
[0027] 参见图1所示的一种数据处理方法的流程图,本实施例提出一种数据处理方法,包括以下具体步骤:
[0028] 步骤100、获取文本和需要进行共指消解的词语。
[0029] 在上述步骤100中,所述文本,可以是工作人员输入到服务器的一段文字。
[0030] 在一个实施方式中,所述文本可以是:“唐纳德·特朗普(Donald Trump),1946年6月14日生于纽约,美国共和党籍政治家、企业家、商人,第45任美国总统。……川普打响了中美之间的贸易战,……特朗普政府宣布对华额外2000亿美元进口商品加征10%关税,于2018年9月24日正式生效,并且2019年起关税税率将增加至25%……Trump不顾国际政府反对……他一意孤行……”。
[0031] 阅读以上文本后发现,如果以“唐纳德·特朗普”作为词语,那么文本中“唐纳德·特朗普”的共指词,包括但不限于:“Donald Trump”“第45任美国总统”、“川普”、“Trump”以及“他”。
[0032] 而为了使服务器能够从以上文本中找出所述“唐纳德·特朗普”作为需要进行共指消解的词语时的共指词,工作人员可以将“唐纳德·特朗普”作为词语输入到服务器中,使服务器从上述文本中找出“唐纳德·特朗普”的所有共指词,从而对“唐纳德·特朗普”进行共指消解。
[0033] 步骤102、根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
[0034] 为了从所述文本中找出所述词语的共指词,上述步骤102可以执行以下步骤(1)至步骤(4):
[0035] (1)获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
[0036] (2)将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
[0037] (3)利用预训练模型(Bidirectional  Encoder Representations fromTransformers,BERT)对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
[0038] (4)从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
[0039] 在上述步骤(1)中,所述问题模板,缓存在服务器中,用于存储能够提示服务器从所述文本中找出所述词语的共指词的问题框架句子。
[0040] 所述问题框架句子,是需要填空且不完整的问题语句,比如:问题架构句子可以是但不限于:“()的所有指代词有哪些”和“文本中的“他”都是指代的()”。
[0041] 因此,将需要进行共指消解的词语填写到问题模板中的各问题框架句子的括号中,就可以生成与所述词语相关的问题语句。
[0042] 在一个实施方式中,需要进行共指消解的词语是时,上述问题框架句子“()的所有指代词有哪些”填写词语“唐纳德·特朗普”后得到的问题语句是:“唐纳德·特朗普的所有指代词有哪些”。
[0043] 通过上述步骤(1)的描述可以看出,可以将需要进行共指消解的词语填写到问题模板中,生成与所述词语相关的问题语句,从而可以对不同的词语进行共指消解,操作灵活方便且具有可解释性。
[0044] 在上述步骤(2)中,服务器可以采用现有技术中任何可以对文字进行拼接的方法,对所述问题语句与所述文本中的字符进行拼接,得到拼接文本。这里不再一一赘述。
[0045] 在上述步骤(3)中,所述BERT,运行在所述服务器中。
[0046] 所述服务器利用BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示的过程,为现有技术,这里不再赘述。
[0047] 所述字符,可以是但不限于:字、词组和短语。
[0048] 其中,所述步骤(4)可以具体执行以下流程:
[0049] 利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
[0050] 所述机器阅读理解模型,运行在所述服务器中。
[0051] 这里,利用机器阅读理解模型从所述拼接文本各字符的向量表示中从所述拼接文本中找出能够回答所述问题语句的字符的过程,就是使机器阅读理解模型利用拼接文本中包含需要进行共指消解的问题语句,从所述拼接文本的所述文本中各字符的向量表示中找出能够回答所述问题语句的答案的过程。即以问答的方式,从所述文本中提取出词语的共指词。上述机器阅读理解模型具体的处理过程是现有技术,这里不再赘述。
[0052] 通过以上步骤(1)至步骤(4)描述的内容可以看出,使用了基于机器阅读理解模型的问答框架,基于需要进行共指消解的词语生成问题语句,并使机器阅读理解模型利用包含需要进行共指消解的词语的问题语句从拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词;巧妙使用了自然语言的问答机制,可以更精确的从文本中提取出需要进行共指消解的词语的共指词;而且,使用了自然语言处理中前沿的预训练模型和机器阅读理解模型对文本和问题语句进行处理,可以进一步提高从文本中提取出需要进行共指消解的词语的共指词的精确度,取得了效果上的最优。
[0053] 步骤104、利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
[0054] 在上述步骤104中,所述候选文本提取器可以看作是一个序列标注模型,即该序列标注模型可以使用BIEO(B、I、E、O分别表示共指词的开始位置B、共指词的中间位置I、共指词的结束位置E、以及不在任何一个共指词内O)标签。
[0055] 该序列标注模型接收到拼接文本后,可以对拼接文本中的字符进行编码操作,对每个字符打上B、I、E、O中的一个标签,这样就可以将所述词语的共指词提取出来。具体过程为现有技术,这里不再赘述。
[0056] 比如,所述候选文本提取器对上述文本中的句子“川普打响了中美之间的贸易战”进行编码操作后,对该句子中每个字符打上BIEO的标签的结果是“川/B普/E打/O响/O了/O中/O美/O之/O间/O的/O贸/O易/O战/O”,这样一来,“川普”被标注了“BE”标签,就是答案的开始位置和结束位置,中间没有出现标签“O”,这样一来,“川普”就是一个合法的共指词;注意这里,提取共指词的过程还需要去判定标注的合法性。所谓合法标注,就是在任何一对“B……E”标签之间的字符,不能出现除了标签“I”之外的其他标签,比如“BOE”标签、“BBE”标签都是不合法的。换句话说,一个合法的标注必须满足“BI……IE”标签的形式,其中,标签“I”的个数大于等于0。
[0057] 从文本的其他句子中提取共指词的过程与从上述句子“川普打响了中美之间的贸易战”中提取共指词的过程类似,这里不再赘述。
[0058] 综上所述,本实施例提出一种数据处理方法,根据获取到的词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,与相关技术中基于元组的相似性比较来进行共指消解的方式相比,可以通过词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
[0059] 实施例2
[0060] 本实施例提出一种数据处理装置,用于执行上述的数据处理方法。
[0061] 参见图2所示的一种数据处理装置的结构示意图,本实施例提出一种数据处理装置,包括:
[0062] 获取模块200,用于获取文本和需要进行共指消解的词语;
[0063] 处理模块202,用于根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
[0064] 提取模块204,用于利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
[0065] 具体地,为了从所述拼接文本中找出所述词语的共指词,所述处理模块,具体用于:
[0066] 获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
[0067] 将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
[0068] 利用预训练模型BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
[0069] 从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
[0070] 具体地,所述提取模块,用于从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
[0071] 利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
[0072] 通过以上描述的内容可以看出,使用了基于机器阅读理解模型的问答框架,基于需要进行共指消解的词语生成问题语句,并使机器阅读理解模型利用包含需要进行共指消解的词语的问题语句从拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词;巧妙使用了自然语言的问答机制,可以更精确的从文本中提取出需要进行共指消解的词语的共指词;而且,使用了自然语言处理中前沿的预训练模型和机器阅读理解模型对文本和问题语句进行处理,可以进一步提高从文本中提取出需要进行共指消解的词语的共指词的精确度,取得了效果上的最优。
[0073] 综上所述,本实施例提出的一种数据处理装置,根据获取到的词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,与相关技术中基于元组的相似性比较来进行共指消解的方式相比,可以通过词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
[0074] 实施例3
[0075] 本实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例1描述的数据处理方法的步骤。具体实现可参见方法实施例1,在此不再赘述。
[0076] 此外,参见图3所示的另一种数据处理装置的结构示意图,本实施例还提出一种数据处理装置,上述数据处理装置包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述数据处理装置包括有存储器55。
[0077] 本实施例中,上述数据处理装置还包括:存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序,经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(3):
[0078] (1)获取文本和需要进行共指消解的词语;
[0079] (2)根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
[0080] (3)利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
[0081] 收发机53,用于在处理器52的控制下接收和发送数据。
[0082] 在图3中,总线架构(用总线51来代表),总线51可以包括任意数量的互联的总线和桥,总线51将包括由通用处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质,还可以提供用户接口56,例如小键盘、显示器、扬声器、麦克、操纵杆。
[0083] 处理器52负责管理总线51和通常的处理,如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。
[0084] 可选的,处理器52可以是但不限于:中央处理器单片机微处理器或者可编程逻辑器件
[0085] 可以理解,本发明实施例中的存储器55可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。
[0086] 在一些实施方式中,存储器55存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统551和应用程序552。
[0087] 其中,操作系统551,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序552,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。
[0088] 综上所述,本实施例提出的计算机可读存储介质和数据处理装置,根据获取到的词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,与相关技术中基于元组的相似性比较来进行共指消解的方式相比,可以通过词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
[0089] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈