首页 / 专利库 / 电信 / 输出节点 / 应用于句子嵌入的文本表示方法和装置

应用于句子嵌入的文本表示方法和装置

阅读:848发布:2024-02-27

专利汇可以提供应用于句子嵌入的文本表示方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种应用于句子嵌入的文本表示方法和装置,其中的方法包括:确定父 节点 词和与此 父节点 词对应的孩 子节点 词集合,基于所有孩子节点状态的隐交互状态获得父节点词的隐交互状态;获得与父节点词对应的父节点词序列,并根据父节点词的隐藏状态获得隐藏状态序列;基于隐藏状态序列获得各父节点词与其它父节点词的交互表示序列,生成句子嵌入。本发明的方法和装置,提出了通过两层次交互表示实现句子的嵌入,两层次交互表示分别为局部交互表示和全局交互表示,并结合这两种表示生成混合交互表示,能够提高句子嵌入和效率和 精度 ,在精度方面明显优于Tree-LSTM等模型。,下面是应用于句子嵌入的文本表示方法和装置专利的具体信息内容。

1.一种应用于句子嵌入的文本表示方法,其特征在于,包括:
获得需要处理的文件,从所述文件中提取句子;其中,所述文件包括:文本文件、网页文件;
获得与句子中的n个词对应的n个父节点词;
确定所述父节点词和与此父节点词对应的孩子节点词集合C(p),对所述C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck,其中k∈{1,2,...,|C(p)|},|C(p)|为所述C(p)中孩子节点词的数量;
基于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态
将所述 和所述父节点词输入LSTM模型,获得所述父节点词的记忆单元和隐藏状态;
获得与n个父节点词对应的父节点词序列{x1,x2,...,xn},并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn};
基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn},并基于所述{r1,r2,...,rn}生成句子嵌入。
2.如权利要求1所述的方法,其特征在于,所述获得所述父节点词的记忆单元和隐藏状态包括:
(h) h
将父节点词xp表示为隐向量 其中,W 和b分别是权重矩阵和偏
置量;
连接父节点词xp和父节点词xp对应的第k个孩子节点词,获得 其中,αk是
和hk的连接表示,Wα是连接矩阵;
计算父节点词xp的第k个孩子节点的词权重
获得父节点词xp的隐交互状态
将所述 和所述父节点词xp输入LSTM模型,获得所述父节点词xp的记忆单元和隐藏状态。
3.如权利要求2所述的方法,其特征在于,所述将所述 和所述父节点词xp输入LSTM模型,获得所述父节点词xp的记忆单元和隐藏状态包括:
使用隐交互状态 和父节点词xp作为LSTM模型的输入得到:
fkp=σ(U(f)xp+W(f)hk+b(f));
其中,ip,op和fkp分别是输入,输出门和遗忘门;up是xp的候选隐藏状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i),W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f);
获得父节点词xp的记忆单元为:
获得父节点词xp的隐藏状态为:
hP=oP⊙tanh(cP)。
4.如权利要求3所述的方法,其特征在于,所述基于所述{r1,r2,...,rn}生成句子嵌入包括:
获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn};
计算{x1,x2,...,xn}中的词xk与词xg交互的权重:
获得{x1,x2,...,xn}中的xg的交互表示为:
枚举{x1,x2,...,xn}中的所有词,并且获得{x1,x2,...,xn}的交互表示序列{r1,r2,...,rn},生成句子嵌入s=max{r1,r2,...,rn}。
5.如权利要求4所示的方法,其特征在于,还包括:
获得与句子嵌入s对应的预测标签:
其中, 是类别标签集合; W(s)和b(s)分别是重
塑矩阵和偏置量;
设置损失函数:
其中,hi是隐状态, 是词xi的真实类别标签,是句子嵌入s的真实类别标签;
基于所述损失函数评估句子嵌入s的质量
6.一种应用于句子嵌入的文本表示装置,其特征在于,包括:
词获取模,用于获得需要处理的文件,从所述文件中提取句子;其中,所述文件包括:
文本文件、网页文件;获得与句子中的n个词对应的n个父节点词;
孩子节点词处理模块,用于确定所述父节点词和与此父节点词对应的孩子节点词集合C(p),对所述C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck,其中k∈{1,
2,...,|C(p)|};
父节点词处理模块,用于基于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态 将所述 和所述父节点词输入LSTM模型,获得所述父节点词的记忆单元和隐藏状态;
隐藏状态处理模块,用于获得与n个父节点词对应的父节点词序列{x1,x2,...,xn},并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn};
句子嵌入处理模块,用于基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn},并基于所述{r1,r2,...,rn}生成句子嵌入。
7.如权利要求6所述的装置,其特征在于,
所述父节点词处理模块,包括:
隐向量表示单元,用于将父节点词xp表示为隐向量 其中,W(h)和bh
分别是权重矩阵和偏置量;
连接处理单元,用于连接父节点词xp和父节点词xp对应的第k个孩子节点词,获得
其中,αk是 和hk的连接表示,Wα是连接矩阵;
隐状态获取单元,用于计算父节点词xp的第k个孩子节点的词权重
获得父节点词xp的隐交互状态 将所述 和所述父节点词xp输入LSTM模型,
获得所述父节点词xp的记忆单元和隐藏状态。
8.如权利要求7所述的装置,其特征在于,
所述隐状态获取单元,用于使用隐交互状态 和父节点词xp作为LSTM模型的输入得到:
fkp=σ(U(f)xp+W(f)hk+b(f));
其中,ip,op和fkp分别是输入门,输出门和遗忘门;up是xp的候选隐藏状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i),W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f));
所述隐状态获取单元,用于获得父节点词xp的记忆单元为:
所述隐状态获取单元,用于获得父节点词xp的隐藏状态为:
hp=op⊙tanh(cp)。
9.一种应用于句子嵌入的文本表示装置,其特征在于,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至5任一项所述的方法的步骤。

说明书全文

应用于句子嵌入的文本表示方法和装置

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种应用于句子嵌入的文本表 示方法和装置以及存储介质。

背景技术

[0002] 句子嵌入将文本空间映射为实值向量或矩阵,这在文本的机器理解方面 发挥了十分重要的作用,其应用包含了情感分类,问答系统和文本摘要。关 于句子嵌入的工作可以归为以下三类,即统计性,序列化和结构化嵌入。统 计性嵌入模型是根据统计指标进行估计的,例如,共现词的频率、共现词对 频率,以及在不同文本中词的权重(在TF-IDF模型中)。序列化嵌入模型主 要依赖于神经网络结构来学习文本表示,基于单层隐藏层,一种卷积神经网 络或者递归神经网络(RNN)。结构化嵌入模型考虑了句法结构来反映文本的 语义,例如,递归神经网络和树结构的长短记忆网络(Tree-LSTM)。目前的 句子嵌入模型在文本分类任务上取得了不错的效果。然而,在现有的嵌入模 型中,句子嵌入的生成过程通常遵循着一种称之为单向作用。也就是说,为 先前文本生成的表示作为背景来决定接下来文本的表示,受限于单向作用会 造成部分语义缺失。

发明内容

[0003] 有鉴于此,本发明要解决的一个技术问题是提供一种应用于句子嵌入的 文本表示方法和装置以及存储介质。
[0004] 根据本发明的一个方面,提供一种应用于句子嵌入的文本表示方法,包 括:获得需要处理的文件,从所述文件中提取句子;其中,所述文件包括: 文本文件、网页文件;获得与句子中的n个词对应的n个父节点词;确定所 述父节点词和与此父节点词对应的孩子节点词集合C(p),对所述C(p)中的每 个孩子节点词分别设置隐藏状态hk和记忆单元ck,其中k∈{1,2,...,|C(p)|};基 于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互 状态 将所述 和所述父节点词输入LSTM模型,获得所述父节点词的记忆 单元和隐藏状态;获得与n个父节点词对应的父节点词序列{x1,x2,...,xn},并 根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列 {h1,h2,...,hn};基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词 的交互表示序列{r1,r2,...,rn},并基于所述{r1,r2,...,rn}生成句子嵌入。
[0005] 可选地,所述获得所述父节点词的记忆单元和隐藏状态包括:将父节点 词xp表示为隐向量 其中,W(h)和bh分别是权重矩阵和偏置 量;连接父节点词xp和父节点词xp对应的第k个孩子节点词,获得 其中,αk是 和hk的连接表示,Wα是连接矩阵;
[0006] 计算父节点词xp的第k个孩子节点的词权重
[0007] 获得父节点词xp的隐交互状态 将所述 和所述父节点词xp输入LSTM模型,获得所述父节点词xp的记忆单元和隐藏状态。
[0008] 可选地,所述将所述 和所述父节点词xp输入LSTM模型,获得所述父节 点词xp的记忆单元和隐藏状态包括:使用隐交互状态 和父节点词xp作为 LSTM模型的输入得到:
[0009]
[0010]
[0011]
[0012] fkp=σ(U(f)xp+W(f)hk+b(f));
[0013] 其中,ip,op和fkp分别是输入,输出门和遗忘门;up是xp的候选隐藏 状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i), W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f));
[0014] 获得父节点词xp的记忆单元为:
[0015]
[0016] 获得父节点词xp的隐藏状态为:
[0017] hp=op⊙tanh(cp)。
[0018] 可选地,所述基于所述{r1,r2,...,rn}生成句子嵌入包括:获得{x1,x2,...,xn}中 的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn};
[0019] 计算{x1,x2,...,xn}中的词xk与词xg交互的权重:
[0020]
[0021] 获得{x1,x2,...,xn}中的xg的交互表示为:
[0022]
[0023] 枚举{x1,x2,...,xn}中的所有词,并且获得{x1,x2,...,xn}的交互表示序列 {r1,r2,...,rn},生成句子嵌入s=max{r1,r2,...,rn}。
[0024] 可选地,获得与句子嵌入s对应的预测标签:
[0025]
[0026] 其中, y是类别标签集合; W(s)和b(s)分别是重塑矩阵和偏置量;
[0027] 设置损失函数:
[0028]
[0029] 其中,hi是隐状态, 是词xi的真实类别标签,是句子嵌入s的真实 类别标签;基于所述损失函数评估句子嵌入s的质量
[0030] 根据本发明的另一方面,提供一种应用于句子嵌入的文本表示装置,包 括:词获取模,用于获得需要处理的文件,从所述文件中提取句子;其中, 所述文件包括:文本文件、网页文件;获得与句子中的n个词对应的n个父 节点词;孩子节点词处理模块,用于确定所述父节点词和与此父节点词对应 的孩子节点词集合C(p),对所述C(p)中的每个孩子节点词分别设置隐藏状态 hk和记忆单元ck,其中k∈{1,2,...,|C(p)|};父节点词处理模块,用于基于所述 C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态 将所述 和所述父节点词输入LSTM模型,获得所述父节点词的记忆单元 和隐藏状态;隐藏状态处理模块,用于获得与n个父节点词对应的父节点词 序列{x1,x2,...,xn},并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对 应的隐藏状态序列{h1,h2,...,hn};句子嵌入处理模块,用于基于{h1,h2,...,hn}获得 {x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn},并基 于所述{r1,r2,...,rn}生成句子嵌入。
[0031] 可选地,所述父节点词处理模块,包括:隐向量表示单元,用于将父节 点词xp表示为隐向量 其中,W(h)和bh分别是权重矩阵和偏 置量;连接处理单元,用于连接父节点词xp和父节点词xp对应的第k个孩子 节点词,获得 其中,αk是
和hk的连接表示,Wα是连接矩阵; 隐状态获取单元,用于计算父节点词xp的第k个孩子节点的词权重  获得父节点词xp的隐交互状态 将所述 和
所 述父节点词xp输入LSTM模型,获得所述父节点词xp的记忆单元和隐藏状态。
[0032] 可选地,所述隐状态获取单元,用于使用隐交互状态 和父节点词xp作 为LSTM模型的输入得到:
[0033]
[0034]
[0035]
[0036] fkp=σ(U(f)xp+W(f)hk+b(f));
[0037] 其中,ip,op和fkp分别是输入门,输出门和遗忘门;up是xp的候选隐藏 状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i), W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f));
[0038] 所述隐状态获取单元,用于获得父节点词xp的记忆单元为:
[0039]
[0040] 所述隐状态获取单元,用于获得父节点词xp的隐藏状态为:
[0041] hp=op⊙tanh(cp)。
[0042] 可选地,所述句子嵌入处理模块,用于获得{x1,x2,...,xn}中的词xg和其它 的词之间的连接表示序列为{αg1,αg2,...,αgn};计算{x1,x2,...,xn}中的词xk与词xg交互的权重:
[0043]
[0044] 所述句子嵌入处理模块,用于获得{x1,x2,...,xn}中的xg的交互表示为:
[0045]
[0046] 所述句子嵌入处理模块,用于枚举{x1,x2,...,xn}中的所有词,并且获得 {x1,x2,...,xn}的交互表示序列{r1,r2,...,rn},生成句子嵌入s=max{r1,r2,...,rn}。
[0047] 根据本发明的又一方面,提供一种应用于句子嵌入的文本表示装置,包 括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存 储在所述存储器的指令执行如上所述的方法。
[0048] 根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计 算机程序指令,该指令被处理器执行时实现如上所述的方法的步骤。
[0049] 本发明的应用于句子嵌入的文本表示方法和装置,提出了通过两层次交 互表示实现句子的嵌入,两层次交互表示分别为局部交互表示(LIR)和全局 交互表示(GIR),结合这两种表示生成混合交互表示(HIR),能够提高句子 嵌入和效率和精度,在精度方面明显优于Tree-LSTM等模型。附图说明
[0050] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0051] 图1为本发明的应用于句子嵌入的文本表示方法的一个实施例的流程示 意图;
[0052] 图2A为本发明的应用于句子嵌入的文本表示方法的一个实施例中的父 节点词与孩子节点词的关系示意图;
[0053] 图2B为本发明的应用于句子嵌入的文本表示方法的一个实施例中的5 类分类任务的预测示意图;
[0054] 图2C为本发明的应用于句子嵌入的文本表示方法的一个实施例中的2 类分类任务的预测示意图;
[0055] 图3为本发明的应用于句子嵌入的文本表示装置的一个实施例的模块示 意图;
[0056] 图4为本发明的应用于句子嵌入的文本表示装置的一个实施例中的父节 点词处理模块的模块示意图;
[0057] 图5为本发明的应用于句子嵌入的文本表示装置的另一个实施例中的模 块示意图。

具体实施方式

[0058] 现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除 非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字 表达式和数值不限制本发明的范围。
[0059] 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不 是按照实际的比例关系绘制的。
[0060] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为 对本发明及其应用或使用的任何限制。
[0061] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论, 但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
[0062] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦 某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0063] 本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专 用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所 周知的计算系统、环境和/或配置的例子包括但不限于:智能手机、个人计算 机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于 微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算 机系统﹑大型计算机系统和包括上述任何系统的分布式计算技术环境,等 等。
[0064] 计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令 (诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、 目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定 的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布 式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分 布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统 存储介质上。
[0065] 图1为本发明的应用于句子嵌入的文本表示方法的一个实施例的流程示 意图,如图1所示:
[0066] 步骤101,获得与句子中的n个词对应的n个父节点词。
[0067] 获得需要处理的文件,从所述文件中提取句子,对句子进行相应的分析 和处理;所述文件包括:文本文件、网页文件等。例如,电商网站的后台系 统获得关于电子类商品的评价文件,在评价文件中有多个客户对于电子商品 类的评价,基于提取规则从评价文件中提取与评价相关的句子,对句子进行 相应的处理。
[0068] 步骤102,确定父节点词和与此父节点词对应的孩子节点词集合C(p), 对C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck,其中 k∈{1,2,...,|C(p)|}。
[0069] 例如,对于句子“一条狗越过沟”,这个句子依据语法依赖关系,父节 点词是“越过”,而孩子节点词集合是“一条狗,水沟”。隐藏状态hk和记忆 单元ck都是递归神经网络中的固有成分。隐藏状态用于记录当前时刻网络中 的状态表示,而记忆单元用于记录网络从起初到现在的状态信息。
[0070] 步骤103,基于C(p)中的所有孩子节点状态的隐交互状态获得父节点词 的隐交互状态 隐藏状态、隐交互状态是不同的概念,隐藏状态是RNN神 经网络所固有的,而隐交互状态是父节点词和孩子节点间的作用所得的隐状 态表示。
[0071] 步骤104,将 和父节点词输入LSTM模型,获得父节点词的记忆单元和 隐藏状态。
[0072] 步骤105,获得与n个父节点词对应的父节点词序列{x1,x2,...,xn},并根据 父节点词的隐藏状态获得与{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}。
[0073] 步骤106,基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点 词的交互表示序列{r1,r2,...,rn},并基于{r1,r2,...,rn}生成句子嵌入。
[0074] 句子的嵌入可以帮助文本的机器理解,文本的语义是文本中各个词的相 互影响的产物,之后的词对先前词的语义也有贡献。本发明引入了交互的概 念,提出了应用于句子嵌套的两层次交互表示,即局部交互表示和全局交互 表示,结合这两种交互表示提供混合的交互表示。例如:一种局部交互表示 (LIR)和一种全局交互表示(GIR),整合生成了一种混合交互模型(HIR)。
[0075] 在一个实施例中,假设存在一个依赖解析树,C(p)表示父节点词xp的孩 子节点集合。为了定义注意的树状LSTM,对每个孩子节点词分别引入了隐 藏状态hk和记忆单元ck,其中k∈{1,2,...,|C(p)|},如图2A所示,考虑了父节点 词→孩子节点词。在父节点词→孩子节点词中,将父节点词xp作为控制者, 它基于注意力机制对在句子中的孩子节点词赋予语义权重。
[0076] 将父节点词xp表示为隐向量 其中,W(h)和bh分别是 权重矩阵和偏置量。应用简易的连接来连接父节点词和孩子节点词,连接父 节点词xp和父节点词xp对应的第k个孩子节点词,获得 其中,
[0077] αk是 和hk的连接表示,Wα是连接矩阵可以被学习得到。 和hk的连接表 示主要是通过简单的链接操作,构建孩子节点的隐状态表示和父节点状态表 示间的联系,服务于之后的父节点状态表示。
[0078] 应用softmax函数于这段连接表示{α1,α2,...,α|C(p)|}来得到权重λk。计算父 节点词xp的第k个孩子节点的词权重 获得表示关于父节点 xp的所有孩子节点状态的隐交互状态 即获得父节点词xp的隐交互状态  在孩子节点词→
父节点词中,将 和父节点词xp输入LSTM模型, 获得父节点词xp的记忆单元和隐藏状态。
LSTM(Long Short-Term Memory) 是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列 中间隔和延迟相对较长的重要事件。
[0079] 使用隐交互状态 和父节点词xp作为LSTM模型的输入得到:
[0080]
[0081]
[0082]
[0083] fkp=σ(U(f)xp+W(f)hk+b(f));
[0084] 其中,ip,op和fkp分别是输入门,输出门和遗忘门;up是xp的候选隐藏 状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i), W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f))。
[0085] 获得父节点词xp的记忆单元为:
[0086]
[0087] 获得父节点词xp的隐藏状态为:
[0088] hp=op⊙tanh(cp)。
[0089] 其中,⊙是元素相乘,而ck是一个孩子节点词的记忆单元。
[0090] 例如,假设有一个合成解析树,让xl和xr表示父节点xp的左孩子节点词 和右孩子节点词,因为父节点xp是一个非终止节点(即:xp是一个零向量), 分别利用xl和xr作为控制者而不是xp。因此,基于上述公式,可以分别得到 关于xl和xr的隐交互状态 和 连接和 来表示父节点的隐交互状态表示, 即: 按照上述公式,可以得到父节点xp的记忆单元cp和隐藏状 态hp。在孩子节点词→父节点词的局部交互表示中,父节点包含了所有孩子 节点词的信息。因此,可以把这个父节点的隐状态作为句子的嵌入。
[0091] 在一个实施例中,GIR采用了基于枚举的策略来利用注意力机制于一句 话中的所有词。在应用Tree-LSTM于一句话中的n个词后,可以得到词序列 {x1,x2,...,xn}对应的隐向量表示{h1,h2,...,hn}。Tree-LSTM类似于RNN,将词序列 {x1,x2,...,xn}按时间序列依次输入到网络中之后,会对应得到每个时刻的隐状 态表示。
[0092] 为了表示在一句话中词xg和在这句话中其他词的交互,可以将词xg作为 赋予在{x1,x2,...,xn}中除xg外的词的语义权重的控制者。应用了一种通用的连 接方式将词xg和其他词连接,也就是,αgk=hgWαhk,其中,αgk是hg和hk的连 接表示(g,k∈(1,2,...,n))。可以得到词xg和其他词之间的所有连接表示 {αg1,αg2,...,αgn}。
[0093] Softmax函数是将原来的输出映射到(0,1)的概率空间,而且这些值的 累和为1。假设有一个数组V,Vi表示V中的第i个元素,那么这个元素的 softmax值为:
[0094] 应用softmax函数于连接表示序列来计算得到权重,计算{x1,x2,...,xn}中 的词xk与词xg交互的权重:
[0095]
[0096] 其中,λgk是在{x1,x2,...,xn}中词xk与词xg交互的权重。最终,可以得到交 互表示,获得{x1,x2,...,xn}中的xg的交互表示为:
[0097]
[0098] 可以枚举在一句话中的所有词,并且返回交互表示序列,即:{r1,r2,...,rn}。 max-pooling方法指的是在指定维度中进行最大化采样,也就是获取该维度 的最大值。句子嵌入指的是句子表示,它将句子表示成一个低维度稠密的向 量,方便于计算机进行理解和计算。
[0099] 采用max-pooling的方法在该序列来产生最终的句子嵌入s, s=max{r1,r2,...,rn},完成了全局交互表示的定义。即:枚举{x1,x2,...,xn}中的所 有词,并且获得{x1,x2,...,xn}的交互表示序列{r1,r2,...,rn},生成句子嵌入 s=max{r1,r2,...,rn}。
[0100] 为了即获得词之间局部和全局的交互,将LIR和GIR整合形成了一种混 合交互表示模型HIR。HIR首先按照LIR的步骤来产生词序列{x1,x2,...,xn}对应 的隐状态序列表示{h1,h2,...,hn}。然后,HIR应用GIR的过程在隐状态序列来得 到最终的句子嵌入s。
[0101] 在一个实施例中,获得与句子嵌入s对应的预测标签:
[0102]
[0103] 其中, y是类别标签集合; W(s)和b(s)分别是重塑矩阵和偏置量。
[0104] 设置损失函数:
[0105]
[0106] 其中,hi是隐状态, 是词xi的真实类别标签,是句子嵌入s的真实类 别标签;基于损失函数评估句子嵌入s的质量。
[0107] 在类别预测过程中,应用在句子嵌入上应用sotfmax分类器来得到预测 标签 其中, y是类别标签集合,也就是,
[0108]
[0109] 其中,
[0110]
[0111] 这里,W(s)和b(s)分别是重塑矩阵和偏置量。对于公式化HIR中的损失函 数,可以结合LIR和GIR中对应的损失如下,即:
[0112]
[0113] 其中,前者的损失来自于LIR而后者的损失来自于GIR。在此,hi是隐状 态,而 是在LIR中词xi的真实类别标签,是在GIR中句子嵌入s的真实类 别标签。
[0114] 为了评估所提出的句子嵌入的质量,考虑一种情感分类任务并且试图回 答以下问题:(RQ1)结合了交互表示的句子嵌入模型是否可以改善情感分类的性能?(RQ2)句子的长度对性能具有什么样的影响?
[0115] 比较本发明提供的方法和其他最新的基于递归神经网络的嵌套模型的性 能。可以利用以下的基准模型来比较:(1)LSTM:一种基于长短记忆网络的 嵌套模型[6]。(2)Tree-LSTM:一种结合了语法解析树的基于LSTM的嵌套模 型。将它们与本发明提出的句子嵌套方法对应的模型进行比较:(1)LIR(2.1)、 (2)GIR(2.2)以及(3)HIR(2.3)。
[0116] 利用从电影评论中采样的Stanford Sentiment Treebank数据集。该数 据集对每个句子有5类标签,即:非常消极、消极、中等、积极以及非常积 极。此外,该数据集抛弃一些中等句子来将这个标签划分为两类,即消极和 积极。这个数据集可以被作为2类或者5类任务。下表1详细介绍了这个数 据集的统计性特征。使用精度(在句子水平)作为讨论模型的评价准则。
[0117]
[0118] 表1—数据集的统计性特征
[0119] 对于词嵌入,随机初始化词嵌入矩阵We,该矩阵将会在训练阶段被学习, 其中设定词嵌入维度为300。固定参数如下所示:批次大小设为5,也就是每 批次5个句子;隐向量维度设为150;丢失率设为0.5。为了初始化神经网络, 每一个矩阵由正态高斯分布初始化,每一个偏置用零向量初始化。此外,利 用含0.05学习率的AdaGrad算法来训练模型,并且设定整个训练过程为15 个周期。
[0120] 为了回答RQ1,在表2中,分别呈现了所有讨论模型的5类分类任务和2 类分类任务的实验结果。表2为在情感分类任务上的精度,每一列中最好的 基准模型和性能最优的模型分别以下划线和粗体显示。
[0121]
[0122]
[0123] 表2—在情感分类任务上的精度。
[0124] 对于基准模型,Tree-LSTM优于LSTM,在5类和2类分类任务上分别取 得了7.67%和4.92%的精度提升,这意味着与序列化的嵌套模型相比,结合了 语法结构的结构化句子嵌套模型确实可以更好表征文本为了句子分类。带有 交互表示的模型,例如LIR,GIR和HIR,普遍的优于基准模型。HIR是在提出 模型中表现最好的模型。在5类分类任务上,HIR对最好的基准模型Tree-LSTM 具有3.15%的精度提升,对GIR和LIR各自有1.96%和1.97%的提升。在2类 任务上,与Tree-LSTM,GIR和LIR相比,HIR分别达到了2.03%,1.48%和 1.78%的精度提升。通过表征词之间局部和全局的交互,HIR可以获得更好地 句子嵌套,有利于进行情感分类。
[0125] GIR,像HIR,也优于Tree-LSTM,在5类分类任务上取得了1.35%的提 升,0.54%的提升在2类分类任务上。LIR表现略劣于GIR,但仍然比Tree-LSTM 在5类任务上取得了1.15%,在2类任务上取得了0.27%的精度提升。LIR和 GIR之间的差别可以通过以下事实得以解释,LIR过多关注于局部词之间的交 互,而不能抓住在一句话中词的全局交互。
[0126] 为了回答RQ2,根据句子长度l人工将句子分为三组,例如:短句子 (l∈(0,10),中等句子(l∈(10,20))以及长句子(l∈(20,+∞))。在图2B和图 2C上分别画出了5类分类任务和2类分类任务的测试结果。
[0127] 对于两个分类任务,可以发现随着句子长度的增加,所有讨论的模型的 性能单调的下降。句子越长,在句子中的关系就越复杂,使得更难得到好的 句子嵌套。对于基准模型而言,在5类任务上,在每一个句子长度上, Tree-LSTM优于LSTM。本发明提出的方法模型,在情感分类上都普遍地在每 个句子上具有优势。当句子长度是短,中等和长的时候,HIR比Tree-LSTM 分别提升了5.94%,5.86%,3.10%。这种类似的现象也可以被发现在LIR,GIR 与基准模型的比较中。表征交互所带来的优势会随着句子长度的增加而降低。
[0128] 在2类任务上,得到了类似5类任务的结果。相比于在图2B的结果,在 5类任务上,HIR获得了比基准模型更大的相对提升:在5类任务上,HIR比 Tree-LSTM的提升达到了5.94%,5.86%和3.10%,当句子的长度是短,中等, 长时;而在2类任务上,对于对应的句子长度有4.55%,3.08%和0%的提升。 令人感兴趣地,Tree-LSTM设法赶上HIR在2类任务上当句子长度长时。
[0129] 在一个实施例中,本发明提供一种应用于句子嵌入的文本表示装置30, 包括:词获取模块31、孩子节点词处理模块32、父节点词处理模块33、隐 藏状态处理模块34、句子嵌入处理模块35和质量评估模块36。
[0130] 词获取模块31获得获得需要处理的文件,从所述文件中提取句子;其中, 所述文件包括:文本文件、网页文件,与句子中的n个词对应的n个父节点 词。孩子节点词处理模块32确定父节点词和与此父节点词对应的孩子节点词 集合C(p),对C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck, 其中k∈{1,2,...,|C(p)|}。父节点词处理模块33基于C(p)中的所有孩子节点状态 的隐交互状态获得父节点词的隐交互状态 将 和父节点词输入LSTM模型, 获得父节点词的记忆单元和隐藏状态;
[0131] 隐藏状态处理模块34获得与n个父节点词对应的父节点词序列 {x1,x2,...,xn},并根据父节点词的隐藏状态获得与{x1,x2,...,xn}对应的隐藏状态 序列{h1,h2,...,hn}。句子嵌入处理模块35基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的 各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn},并基于{r1,r2,...,rn}生 成句子嵌入。
[0132] 如图4所示,父节点词处理模块33包括:隐向量表示单元331、连接处 理单元332和隐状态获取单元333。隐向量表示单元331将父节点词xp表示 为隐向量其中,W(h)和bh分别是权重矩阵和偏置量。连接 处理单元332连接父
节点词xp和父节点词xp对应的第k个孩子节点词,获得  其中,αk是 和hk的连
接表示,Wα是连接矩阵。隐状态获取单 元333计算父节点词xp的第k个孩子节点的词权重获得父 节点词xp的隐交互状态 将 和父节点词xp输入
LSTM模型,获得 父节点词xp的记忆单元和隐藏状态。
[0133] 隐状态获取单元333使用隐交互状态 和父节点词xp作为LSTM模型的输 入得到:
[0134]
[0135]
[0136]
[0137] fkp=σ(U(f)xp+W(f)hk+b(f));
[0138] 其中,ip,op和fkp分别是输入门,输出门和遗忘门;up是xp的候选隐藏 状态;xp的对应矩阵为U(i),U(o),U(u)和U(f), 或者hk的对应权重矩阵为W(i), W(o),W(u)和W(f)),偏置量为b(i),b(o),b(u)和b(f));
[0139] 隐状态获取单元333获得父节点词xp的记忆单元为:
[0140]
[0141] 隐状态获取单元333获得父节点词xp的隐藏状态为:
[0142] hp=op⊙tanh(cp)。
[0143] 句子嵌入处理模块35获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表 示序列为{αg1,αg2,...,αgn};计算{x1,x2,...,xn}中的词xk与词xg交互的权重:
[0144]
[0145] 句子嵌入处理模块35获得{x1,x2,...,xn}中的xg的交互表示为:
[0146]
[0147] 句子嵌入处理模块35枚举{x1,x2,...,xn}中的所有词,并且获得{x1,x2,...,xn} 的交互表示序列{r1,r2,...,rn},生成句子嵌入s=max{r1,r2,...,rn}。
[0148] 质量评估模块36获得与句子嵌入s对应的预测标签:
[0149]
[0150] 其中, y是类别标签集合; W(s)和 b(s)分别是重塑矩阵和偏置量;质量评估模块36设置损失函数:
[0151]
[0152] 其中,hi是隐状态, 是词xi的真实类别标签,是句子嵌入s的真实 类别标签;质量评估模块36基于损失函数评估句子嵌入s的质量。
[0153] 在一个实施例中,如图5所示,提供一种应用于句子嵌入的文本表示装 置,该装置可包括存储器51和处理器52,存储器51用于存储指令,处理器 52通过总线53耦合到存储器51,处理器52被配置为基于存储器51存储的 指令执行实现上述的应用于句子嵌入的文本表示方法。
[0154] 存储器51可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器51也可以是存储器阵列。存储器51还可能被分块,并 且块可按一定的规则组合成虚拟卷。处理器52可以为中央处理器CPU,或 专用集成电路ASIC(Application Specific Integrated Circuit),或者 是被配置成实施本发明的应用于句子嵌入的文本表示方法的一个或多个集 成电路。
[0155] 在一个实施例中,本发明提供一种计算机可读存储介质,计算机可读存 储介质存储有计算机指令,指令被处理器执行时实现如上任一个实施例中 的应用于句子嵌入的文本表示方法。
[0156] 上述实施例中的应用于句子嵌入的文本表示方法和装置,提出了通过两 层次交互表示实现句子的嵌入,两层次交互表示分别为局部交互表示(LIR) 和全局交互表示(GIR),结合这两种表示生成混合交互表示(HIR),能够提 高句子嵌入和效率和精度,在精度方面明显优于例如Tree-LSTM等模型。
[0157] 可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬 件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。 用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限 于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例 中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实 现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行 根据本发明的方法的程序的记录介质。
[0158] 本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者 将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而 言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用, 并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有 各种修改的各种实施例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈