首页 / 专利库 / 计算机网络 / 万维网 / 基于物理距离和语义距离的双向LSTM模型的构建方法

基于物理距离和语义距离的双向LSTM模型的构建方法

阅读:899发布:2020-05-08

专利汇可以提供基于物理距离和语义距离的双向LSTM模型的构建方法专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机技术领域,具体涉及基于物理距离和语义距离的双向LSTM模型的构建方法,包括以下步骤:a、进行数据预处理;b、对LSTM模型中的单词进行向量化处理并对其物理特征和语义特征进行设置;c、构建双向LSTM模型。与 现有技术 相比,本发明可以有效地在LSTM网络的输入上增加物理特征和语义特征,在特征选择上,不仅仅使用词向量作为特征,更实将 位置 特征添加进来,将模型的训练集从句子级别细化到了实体对级别;模型构建上,也考虑到了语义上的句法以来,既充分考虑到了两个实体之间的最直接语义特征,降低上下文长度,又考虑到了非最 短路 径上的词语对分类结果的影响,有效提高了准确率。,下面是基于物理距离和语义距离的双向LSTM模型的构建方法专利的具体信息内容。

1.基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于,包括以下步骤:
a、对构成LSTM模型的数据进行预处理;
b、对LSTM模型中的单词进行向量化处理并对其物理特征和语义特征进行设置;
c、根据物理距离和语义距离的注意机制构建双向LSTM模型。
2.根据权利要求1中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于:所述步骤a具体包括以下步骤:
a1、泛化,将核心词替换为其上位词;
a2、英文分词和语法句法解析,利用CoreNLP工具进行词性标注命名实体识别和句法依赖分析。
3.根据权利要求2中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于:所述步骤a1中使用上位词进行泛化时需保证特定关系的语义层级高于上位词泛化程度的语义层级。
4.根据权利要求2中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于:所述步骤a2中还包括对真正的实体词进行合并,同时修改词语的偏移量和合并后实体词的依赖关系。
5.根据权利要求1中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于,所述步骤b具体包括以下步骤:
b1、将词进行向量化处理,使得可以从不同的维度来描述一个单词;
b2、设置物理特征,将指定的两个实体标记为e1和e2,指定词wi距离两个实体词的物理距离表示为Ph_DIS(wi,e1)和Ph_DIS(wi,e2);
b3、设置语义特征,将一个句子中词语的依赖关系看成一个单词为节点、依赖关系为边的无向图,通路上边的权重均设置为1,并通过最短路算法,找出任意一个节点到两个指定实体e1和e2的最短路径长度,并记为Se_DIS(wi,e1)和Se_DIS(wi,e2)。
6.根据权利要求1中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于,所述步骤b1具体包括以下步骤:
b11、选取维基百科与Giga Word共计600万单次的数据集进行训练得到的模型作为词向量;
b12、将分词中的命名实体识别结果为人物、机构和地点的名词泛化为其命名实体类别;
b13、在词向量中相应加上人物、机构、地点的Embedding向量;
b14、从预先训练好的词向量中找出相应类别的词向量,并取其词向量之和的平均值。
7.根据权利要求1中所述的基于物理距离和语义距离的双向LSTM模型的构建方法,其特征在于,所述步骤c具体包括以下步骤:
c1、将步骤b中的词向量、物理特征和语义特征拼接形成最终特征向量,记为:
c2、采用双向基于注意力机制的LSTM的网络进行构建,使正向LSTM深度学习网络能够在任意时刻记录其前序输入的语义信息,同时反向LSTM深度学习网络能够在任意时刻记录其后向输入的语义信息。

说明书全文

基于物理距离和语义距离的双向LSTM模型的构建方法

技术领域

[0001] 本发明属于计算机技术领域,具体涉及基于物理距离和语义距离的双向LSTM模型的构建方法。

背景技术

[0002] 长短期记忆人工神经网络(long-Short Term Memory,LSTM)是一种递归神经网络(RNN)的特殊类型,RNN是包含循环的网络,每个神经元把当前结果输出到下一单元。RNN允许信息的持久化,对于那些需要序列连续输入的数据有更好的表现,在语音识别语言建模,翻译,图片描述等问题上已经取得大量成功应用。LSTM通过在特殊记忆单元中保持一个常数误差流(Constant error flow)的方法,解决了RNN中长期以来的问题,并在局部防止了梯度爆发与消失(Exploding and vanishing gradients)的问题,LSTM适合处理预测时间序列中间隔和延迟非常长的数据。作为线性模型,LSTM可以作为复杂的非线性单元用于构造更大型深度神经网络
[0003] 目前,有对出现对LSTM模型的研究,如张冲.基于Attention-Based LSTM模型的文本分类技术的研究[D].南京:南京大学,2016。但是没有对于物理距离与语义距离的双向LSTM模型的研究。
[0004] 因此,有必要提出一种基于物理距离和语义距离的双向LSTM模型的。

发明内容

[0005] 本发明的目的在于:针对现有技术的不足,而提供的基于物理距离和语义距离的双向LSTM模型的构建方法,通过该方法可以有效地在LSTM网络的输入上增加物理特征和语义特征,可以将分类过程从句子级别变为实体对级别,针对句子中不同的实体对可以得到不同的分类结果,有效提高了准确率。
[0006] 为实现上述目的,本发明采用如下技术方案:
[0007] 基于物理距离和语义距离的双向LSTM模型的构建方法,包括以下步骤:
[0008] a、对构成LSTM模型的数据进行预处理;
[0009] b、对LSTM模型中的单词进行向量化处理并对其物理特征和语义特征进行设置;
[0010] c、根据物理距离和语义距离的注意机制构建双向LSTM模型。
[0011] 作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤a具体包括以下步骤:
[0012] a1、泛化,将核心词替换为其上位词;
[0013] a2、英文分词和语法句法解析,利用CoreNLP工具进行词性标注命名实体识别和句法依赖分析。
[0014] 需要说明的是,CoreNLP是斯坦福大学2010年开源的一个完整独立的用于自然语言处理的框架,除了词性标注、命名实体识别、句法依赖分析外,CoreNLP还有原词发现、指代消解、基于规则的关系抽取、开放域关系抽取、情感分析等功能。
[0015] 作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤a1中使用上位词进行泛化时需保证特定关系的语义层级高于上位词泛化程度的语义层级。
[0016] 作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤a2中还包括对真正的实体词进行合并,同时修改词语的偏移量和合并后实体词的依赖关系。
[0017] 作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤b具体包括以下步骤:
[0018] b1、将词进行向量化处理,使得可以从不同的维度来描述一个单词;
[0019] b2、设置物理特征,将指定的两个实体标记为e1和e2,指定词wi距离两个实体词的物理距离表示为Ph_DIS(wi,e1)和Ph_DIS(wi,e2);
[0020] b3、设置语义特征,将一个句子中词语的依赖关系看成一个单词为节点、依赖关系为边的无向图,通路上边的权重均设置为1,并通过最短路算法,找出任意一个节点到两个指定实体e1和e2的最短路径长度,并记为Se_DIS(wi,e1)和Se_DIS(wi,e2)。
[0021] 作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤b1具体包括以下步骤:
[0022] b11、选取维基百科与GigaWord共计600万单次的数据集进行训练得到的模型作为词向量;
[0023] b12、将分词中的命名实体识别结果为人物、机构和地点的名词泛化为其命名实体类别;
[0024] b13、在词向量中相应加上人物、机构、地点的Embedding向量;
[0025] b14、从预先训练好的词向量中找出相应类别的词向量,并取其词向量之和的平均值。
[0026] 8、作为对本发明中所述基于物理距离和语义距离的双向LSTM模型的构建方法的改进,所述步骤c具体包括以下步骤:
[0027] c1、将步骤b中的词向量、物理特征和语义特征拼接形成最终特征向量,记为:
[0028]
[0029] c2、采用双向基于注意力机制的LSTM的网络进行构建,使正向LSTM深度学习网络能够在任意时刻记录其前序输入的语义信息,同时反向LSTM深度学习网络能够在任意时刻记录其后向输入的语义信息。
[0030] 本发明的有益效果在于:与现有技术相比,本发明可以有效地在LSTM网络的输入上增加物理特征和语义特征,在特征选择上,不仅仅使用词向量作为特征,更实将位置特征添加进来,将模型的训练集从句子级别细化到了实体对级别;模型构建上,也考虑到了语义上的句法以来,既充分考虑到了两个实体之间的最直接语义特征,降低上下文长度,又考虑到了非最短路径上的词语对分类结果的影响,有效提高了准确率。附图说明
[0031] 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施方式及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0032] 图1为本发明的工作实现流程图
[0033] 图2为本发明中步骤c的实现流程图。

具体实施方式

[0034] 如在说明书权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
[0035] 在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0036] 在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0037] 以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
[0038] 如图1~2所示,基于物理距离和语义距离的双向LSTM模型的构建方法,包括以下步骤:
[0039] a、对构成LSTM模型的数据进行预处理;
[0040] b、对LSTM模型中的单词进行向量化处理并对其物理特征和语义特征进行设置;
[0041] c、根据物理距离和语义距离的注意力机制构建双向LSTM模型。
[0042] 优选的,步骤a具体包括以下步骤:
[0043] a1、泛化,将核心词替换为其上位词;
[0044] a2、英文分词和语法句法解析,利用CoreNLP工具进行词性标注、命名实体识别和句法依赖分析。
[0045] 在步骤a1中,将核心词替换为其上位词,比如“”可以替换为上位词“金属”;于本实施例中,使用Probase工具进行泛化,其中,Probase工具是微软利用大量文本数据,利用统计学和机器学习方法构造出的一个语料库,其中包含大量的上下位词与他们关系的概率。但是,需要注意的是,使用上位词进行泛化需要注意特定关系的语义层级要高于上位词泛化程度的语义层级。比如,在一句话中,需要抽取某人去过某个地方,可以将所有地点名全部泛化为LOCATION,但是如果想要抽取某人的国籍,就需要将地点划分为国家、省或者州、城市等级别,才能保证训练数据的语义完整。
[0046] 优选的,在步骤a2中,以“Donald Trump was born in New York”为例,由于英文中,空格和其他不可见字符可以成为英文单词的天然分隔符,所以CoreNLP工具处理后的结果是一个如表1中所示的结果。并在此基础上,如果使用泛化功能,则分词部分还需要对真正的实体词进行合并,同时修改词语的偏移量和合并后实体词的依赖关系,如表2所示:
[0047] 表1 CoreNLP工具的处理结果
[0048]
[0049] 表2 实体词合并后的处理结果
[0050]
[0051] 优选的,步骤b具体包括以下步骤:
[0052] b1、将词进行向量化处理,使得可以从不同的维度来描述一个单词;
[0053] b2、设置物理特征,将指定的两个实体标记为e1和e2,指定词wi距离两个实体词的物理距离表示为Ph_DIS(wi,e1)和Ph_DIS(wi,e2);
[0054] b3、设置语义特征,将一个句子中词语的依赖关系看成一个单词为节点、依赖关系为边的无向图,通路上边的权重均设置为1,并通过最短路算法,找出任意一个节点到两个指定实体e1和e2的最短路径长度,并记为Se_DIS(wi,e1)和Se_DIS(wi,e2)。
[0055] 其中,物理特征表征的是当前词语在句子中的物理位置以及距离两个实体词的位置,本实施例以“Steve Jobs visited New York when he was 13”为例,则其物理特征如表3所示:
[0056] 表3 “Steve Jobs visited New York whenhe was 13”物理特征
[0057] 偏移量 实体 句中单词 Ph_DIS(wi,e1) Ph_DIS(wi,e2)0 e1 SteveJobs 0 -2
1   visited 1 -1
2 e2 NewYork 2 0
3   when 3 1
4   he 4 2
5   was 5 3
6   13 6 4
[0058] 同时,在一个句子中,单词与单词之间的关系并不仅仅是其物理位置决定的,同样,它们之前的修饰关系、依赖关系也能表示两个词之间距离的远近。语义特征就表示语义关系的远近。本实施例中“Steve Jobs visited New York when he was 13”的语义特征如表4所示:
[0059] 表4“Steve Jobs visited New York when he was 13”语义特征
[0060]
[0061]
[0062] 优选的,步骤b1具体包括以下步骤:
[0063] b11、选取维基百科与Giga Word共计600万单次的数据集进行训练得到的模型作为词向量;
[0064] b12、将分词中的命名实体识别结果为人物、机构和地点的名词泛化为其命名实体类别;
[0065] b13、在词向量中相应加上人物、机构、地点的Embedding向量;
[0066] b14、从预先训练好的词向量中找出相应类别的词向量,并取其词向量之和的平均值。
[0067] 优选的,步骤c具体包括以下步骤:
[0068] c1、将步骤b中的词向量、物理特征和语义特征拼接形成最终特征向量,词向量50维,物理特征和语义特征分别是经过映射后的10维向量。这个向量是与两个实体相关的特征,在关注的实体不同时,同一个句子也会产生不同的特征,使特征在实体级别更有针对性,该最终特征记为:
[0069]
[0070] c2、采用双向基于注意力机制的LSTM的网络进行构建,使正向LSTM深度学习网络能够在任意时刻记录其前序输入的语义信息,同时反向LSTM深度学习网络能够在任意时刻记录其后向输入的语义信息。
[0071] 上述说明示出并描述了本发明的若干优选实施方式,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施方式的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈