首页 / 专利库 / 人工智能 / 自然语言文本 / 一种基于双向长短期记忆网络的实体属性值的抽取方法

一种基于双向长短期记忆网络的实体属性值的抽取方法

阅读:572发布:2020-05-12

专利汇可以提供一种基于双向长短期记忆网络的实体属性值的抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 属于网络文本 数据处理 的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的 抽取 方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。,下面是一种基于双向长短期记忆网络的实体属性值的抽取方法专利的具体信息内容。

1.一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,包括如下步骤:
步骤一、对文档集进行预处理;
步骤二、采用类别映射,从包含实体的语句中识别属性值;
步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。
2.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于:所述步骤一中,所述预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
3.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤一中,所述预处理包括:
根据给定的实体的文本位置,结合句子结束的标记符号;
通过语料分析,判断部分语句存在实体缺失的情况;
借助HanLP中文自然语言处理工具,对所述语句进行分词、词性标注和依存关系解析操作,然后将每个所述语句表示为自然语言标记的词语序列。
4.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤二中,识别所述属性值包括:
分析属性名列表,获取所述属性值所属的实体类别,以及对应的词性标签;
利用依存关系信息,将与所述实体具有最短依存关系路径的词语作为所述属性值输出。
5.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤四中,还包括:
从所述语句中提取与所述实体和所述属性值相关的文本片段代表该语句的核心语义;
基于所述句子成分之间的依存关系,从所述实体与所述属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
6.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述步骤四,还包括:
对于训练语料中的每个所述语句,组合其中每个词语向量、词性向量、词语和所述实体的距离向量、及所述属性值的距离向量;
形成一个行数为语料中词语总数,作为BLSTM的输入。
7.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述训练预料包括用于槽填充竞赛的数据集。
8.如权利要求1所述的一种基于双向长短期记忆网络的实体属性值的抽取方法,其特征在于,所述词向量模型为word2vec词向量模型。

说明书全文

一种基于双向长短期记忆网络的实体属性值的抽取方法

技术领域

[0001] 本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法。

背景技术

[0002] 随着各类网络媒体的蓬勃发展,互联网上的非结构化文本数据呈现爆炸式增长,如新闻、微博、博客、聊天记录、电子邮件等。这些数据中蕴含着大量的价值信息,比如实体。实体是文本数据中承载信息的最基本单位,随着数据的大量发布,实体名称的歧义性和多样性问题也日益普遍,仅识别实体名称无法满足人们对文本深层次语义信息的需求。因而,为了描述实体的本质,越来越多的研究者开始关注实体的属性信息,比如人物的年龄、籍贯、出生日期;机构的创办时间、地点、领导成员等。实体属性值抽取作为信息抽取技术的一种任务,为许多技术和互联网应用提供了重要的数据来源,包括实体消歧、用户意图理解、推荐系统、问答系统、知识图谱等。然而互联网上文本数据的海量性、异构性、领域开放性、不规范性等特点,导致实体属性值的类别多样、构成复杂,给实体属性值抽取技术带来了新的研究挑战。
[0003] 发明人发现现有方案至少还存在以下缺陷:实体、属性名和属性值之间关系难以判别。

发明内容

[0004] 本发明的目的在于:针对现有技术的不足,提供一种基于双向长短期记忆网络的实体属性值的抽取方法,采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
[0005] 为了实现上述目的,本发明采用如下技术方案:
[0006] 一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤:
[0007] 步骤一、对文档集进行预处理;
[0008] 步骤二、采用类别映射,从包含实体的语句中识别属性值;
[0009] 步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
[0010] 步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。
[0011] 需要说明的是,本发明的抽取方法中,利用长短期记忆网络强大的自学习,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。
[0012] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤一中,所述预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
[0013] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤一中,所述预处理包括:
[0014] 根据给定的实体的文本位置,结合句子结束的标记符号;
[0015] 通过语料分析,判断部分语句存在实体缺失的情况;
[0016] 借助HanLP中文自然语言处理工具,对所述语句进行分词、词性标注和依存关系解析操作,然后将每个所述语句表示为自然语言标记的词语序列。
[0017] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤二中,识别所述属性值包括:
[0018] 分析属性名列表,获取所述属性值所属的实体类别,以及对应的词性标签;
[0019] 利用依存关系信息,将与所述实体具有最短依存关系路径的词语作为所述属性值输出。
[0020] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤四中,还包括:
[0021] 从所述语句中提取与所述实体和所述属性值相关的文本片段代表该语句的核心语义;
[0022] 基于所述句子成分之间的依存关系,从所述实体与所述属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
[0023] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述步骤四,还包括:
[0024] 对于训练语料中的每个所述语句,组合其中每个词语向量、词性向量、词语和所述实体的距离向量、及所述属性值的距离向量;
[0025] 形成一个行数为语料中词语总数,作为BLSTM的输入。
[0026] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述训练预料包括用于槽填充竞赛的数据集。
[0027] 作为本发明所述的一种基于双向长短期记忆网络的实体属性值的抽取方法的一种改进,所述词向量模型为word2vec词向量模型。
[0028] 本发明的有益效果在于,本发明包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。利用长短期记忆网络强大的自学习能力,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。附图说明
[0029] 图1为本发明的结构示意图。
[0030] 图2为本发明中句法解释的示意图。
[0031] 图3为本发明中依存解释树结构示意图。
[0032] 图4为本发明中输入语句的向量矩阵示意图。
[0033] 图5为本发明中LSTM结构图。
[0034] 图6为本发明中BLSTM结构图。

具体实施方式

[0035] 如在说明书权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
[0036] 在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0037] 在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0038] 以下结合附图1~6对本发明作进一步详细说明,但不作为对本发明的限定。
[0039] 一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤:
[0040] 步骤一、对文档集进行预处理;
[0041] 步骤二、采用类别映射,从包含实体的语句中识别属性值;
[0042] 步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;
[0043] 步骤四、采用词向量模型对训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将实体和属性值分类到给定的属性名类别中。
[0044] 需要说明的是,本发明的抽取方法中,利用长短期记忆网络强大的自学习能力,可以挖掘序列数据内部复杂的结构特征,首先,结合句法分析和设计的基于类别映射方法,自动构建训练语料并进行优化,有效降低了深度学习模型对训练语料规模的依赖性,并摆脱了外部数据资源的限制。然后,结合词向量模型和文本特征,训练双向长短期记忆网络模型参数,有利于实体、属性名和属性值之间关系的精准判别。
[0045] 优选的,步骤一中,预处理包括分句、分词、词性标注、依存关系解析及实体缺失处理。
[0046] 优选的,步骤一中,预处理包括:
[0047] 根据给定的实体的文本位置,结合句子结束的标记符号;
[0048] 通过语料分析,判断部分语句存在实体缺失的情况;
[0049] 借助HanLP中文自然语言处理工具,对语句进行分词、词性标注和依存关系解析操作,然后将每个语句表示为自然语言标记的词语序列。
[0050] 需要说明的是:结合句子结束的标记符号,包括“句号、问号、感叹号、分号、省略号”等标点符号;实体缺失表现为实体由人称代词替代和实体省略两种情况。针对第一种情况,采用了简单的指代消解方法,即直接将人称代词替换为实体名称。针对第二种情况,基于实体是语句描述的主题,在句子开头添加了实体名称和逗号,用于区分实体和其他句子成分,可以避免错误分词导致的实体被分割或与其他词语组合。经过以上处理,使得实体名称的有效语句增加,有助于提高训练语料的覆盖率。
[0051] 优选的,步骤二中,识别属性值包括:
[0052] 分析属性名列表,获取属性值所属的实体类别,以及对应的词性标签;
[0053] 利用依存关系信息,将与实体具有最短依存关系路径的词语作为属性值输出。
[0054] 需要说明的是:分析属性名列表,获取属性值所属的实体类别,以及对应的词性标签,如表1所示,其中“√”表示人物和机构类别的实体的属性值对应的实体类别及词性标签,“×”则相反。比如,人物类实体没有网址类别的属性值,其属性名“出生地”对应的属性值是地点,依据HanLP工具的词性标注集合,获取表示地点的词性,为“ns”。数字、日期、网址具有规律固定的构成形式,比如网址一般以www开头,日期包含“年月日”中一个或多个,或者用“-”隔开等,采用正则表达式来识别此类属性值。由于其他类别的属性值,比如人物、地点、组织、疾病和头衔,构成成分复杂,表示形式多变,且存在未登陆词,即不在词典中的词语,导致分词工具容易将其分割。为了获取完整的名称表示形式,综合利用词性和依存关系等句法信息,寻找具有表1所列的词性标签的词语,若是核心词,且存在与其具有“定中关系”的依存关系的名词性词语,且两者之间不存在助词,如“的”,则将它们组合作为属性值输出。从图2中的语句中可以获取“桂发祥麻花饮食集团公司”的完整表示。通过语料统计,该方法比直接使用分词工具提高了10.55%准确度,达到了95.36%的准确度。考虑到一条语句中可能存在多个与属性值词性相同的词语,针对这种情况,利用依存关系信息,将与实体具有最短依存关系路径的词语作为属性值输出。
[0055] 表1
[0056]
[0057] 优选的,步骤四中,还包括:
[0058] 从语句中提取与实体和属性值相关的文本片段代表该语句的核心语义;
[0059] 基于句子成分之间的依存关系,从实体与属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列。
[0060] 需要说明的是:通常直接使用实体和属性值共现的语句作为输入,然而其中包含很多和实体和属性值没有关联的噪音信息,会严重影响模型的学习和预测性能。比如,对于语句“郭全宝,出生于北京,是一名相声演员。”,对于实体“郭全宝”和属性值“演员”来说,句子成分“出生于北京”对它们分类到属性名“职业”没有帮助,还会增加BLSTM学习句子结构和特征的负担。基于以上考虑,提取方法对训练语料进行优化,从语句中提取与实体和属性值相关的文本片段代表该语句的核心语义。具体实现是基于句子成分之间的依存关系,从实体与属性值的依存关系路径上提取相关的词语,并按照文本位置进行排列,在保证文本语义的同时,降低了计算复杂度和成本。其中,为了保证词语的有效描述,获取词语的完整表示形式,从前面提到的例句的依存关系解析树中,如图3所示,提取的核心内容为“郭全宝,是,一名,相声,演员”
[0061] 优选的,步骤四,还包括:
[0062] 对于训练语料中的每个语句,组合其中每个词语向量、词性向量、词语和实体的距离向量、及属性值的距离向量;
[0063] 形成一个行数为语料中词语总数,作为BLSTM的输入。
[0064] 需要说明的是:训练语料还使用了用于槽填充竞赛的数据集。利用训练好的词向量模型,每个词语w可以被表示为w=(v1,v2,...,vn)的实值向量形式。其中,n表示向量维度,可以在训练词向量模型时进行设置,vi表示第i维度上的实值数字。从而,一个包含m个词语wj的输入语句 可以表示为行数为m,列数为n的向量矩阵形式,如图4所示。对于词性和距离特征,本发明采用独热码编码方式进行向量表示。独热码编码,直观上讲有多少个状态就对应多少比特,其中只有一个比特为1,其他全为0的一种编码方式。应用到词性向量转化上,具体实现为:为语料中所有词语的词性标签建立一个词典Dp=(p1,p2,...,pa),词典的规模a作为向量的维度,相同词性的位置赋值1,其他位置赋值0。比如对于词性pi,则获取了一个a维的词性向量Pi=(...,010,...)。同理,对于距离向量转化,统计语料中所有词语与实体和属性值的距离,建立一个距离词典Dd=(d1,d2...db),词典的规模b作为向量的维度,相同距离的位置赋值1,其他位置赋值0。比如,对于距离dj,则获取了一个b维的词性向量dj=(...,010,...)。
[0065] 优选的,训练预料包括用于槽填充竞赛的数据集。
[0066] 优选的,词向量模型为word2vec词向量模型。
[0067] 将文本特征融入模型的有效性,在准确性和召回率上均有了明显提升。原因是使用与实体和属性值的相关词语作为输入语料,可以去除噪音信息的负面影响,降低了BLSTM模型学习其他文本信息和复杂结构的负担。词性信息可以泛化词语的表达能力,有助于BLSTM模型捕获新数据的特征。距离特征度量了输入语料中词语与实体和属性值的相关性,进一步提高了语料的描述力度。
[0068] 如图5所示,LSTM神经元的基本结构,包括输入、输出门、遗忘门和记忆神经元。给定当前时刻t的输入向量xi,以及前一时刻的神经元的输出向量hi-1和记忆状态ci-1,当前时刻神经元的输出向量hi和记忆状态ci,可以使用公式如下
[0069] ii=σ(Wihi-1+Uixi+bi)
[0070]
[0071] fi=σ(Wfhi-1+Ufxi+bf)
[0072]
[0073] oi=σ(Woht-t+Uoxi+bo)
[0074] hi=oi⊙tanh(ci)
[0075] 其中,it、 ct组合对应输入门,用于控制需要更新的信息。ft对应遗忘门,用于决定丢失的信息。ot、ht组合对应输出门,用于决定输出的信息。σ表示一个点对sigmoid函数,⊙表示点对操作运算,比如向量的乘和加。Wi、Wf、Wc、Wo分别表示输出向量ht-1的不同权值矩阵。bi、bf、bc、bo表示不同的偏置向量。Ui、Uf、Uc、Uo分别表示输入向量xi的不同权值矩阵。
[0076] 长短期记忆网络的传播是单方向的,即信息由前一时刻传播到后一时刻,导致任意时刻的神经元只能接收前一时刻神经元发送的信息,而无法获知后面时刻神经元的信息。然而,针对序列数据而言,当前词会同时受到上下文中的词语影响,若仅捕捉前文中的信息,势必影响处理性能。BLSTM由两层不同传播方向的LSTM网络组成,通过组合前向传播层和后向传播层的神经元输出,使得当前时刻t的神经元可以同时具有前一时刻t-1和后一时刻t+1的神经元的输出信息,进而达成捕获上下文语境信息的目的。
[0077] 根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈