应用于句子嵌入的文本表示方法和装置专利检索-输出节点电信专利检索查询-专利查询网

应用于句子嵌入的文本表示方法和装置

阅读：848发布：2024-02-27

专利汇可以提供应用于句子嵌入的文本表示方法和装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种应用于句子嵌入的文本表示方法和装置，其中的方法包括：确定父节点词和与此父节点词对应的孩子节点词集合，基于所有孩子节点状态的隐交互状态获得父节点词的隐交互状态；获得与父节点词对应的父节点词序列，并根据父节点词的隐藏状态获得隐藏状态序列；基于隐藏状态序列获得各父节点词与其它父节点词的交互表示序列，生成句子嵌入。本发明的方法和装置，提出了通过两层次交互表示实现句子的嵌入，两层次交互表示分别为局部交互表示和全局交互表示，并结合这两种表示生成混合交互表示，能够提高句子嵌入和效率和精度，在精度方面明显优于Tree-LSTM等模型。，下面是应用于句子嵌入的文本表示方法和装置专利的具体信息内容。

权利要求

1.一种应用于句子嵌入的文本表示方法，其特征在于，包括：
获得需要处理的文件，从所述文件中提取句子；其中，所述文件包括：文本文件、网页文件；
获得与句子中的n个词对应的n个父节点词；
确定所述父节点词和与此父节点词对应的孩子节点词集合C(p)，对所述C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck，其中k∈{1,2,...,|C(p)|}，|C(p)|为所述C(p)中孩子节点词的数量；
基于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态
将所述和所述父节点词输入LSTM模型，获得所述父节点词的记忆单元和隐藏状态；
获得与n个父节点词对应的父节点词序列{x1,x2,...,xn}，并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}；
基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于所述{r1,r2,...,rn}生成句子嵌入。
2.如权利要求1所述的方法，其特征在于，所述获得所述父节点词的记忆单元和隐藏状态包括：
(h) h
将父节点词xp表示为隐向量其中，W 和b分别是权重矩阵和偏
置量；
连接父节点词xp和父节点词xp对应的第k个孩子节点词，获得其中，αk是
和hk的连接表示，Wα是连接矩阵；
计算父节点词xp的第k个孩子节点的词权重
获得父节点词xp的隐交互状态
将所述和所述父节点词xp输入LSTM模型，获得所述父节点词xp的记忆单元和隐藏状态。
3.如权利要求2所述的方法，其特征在于，所述将所述和所述父节点词xp输入LSTM模型，获得所述父节点词xp的记忆单元和隐藏状态包括：
使用隐交互状态和父节点词xp作为LSTM模型的输入得到：
fkp＝σ(U(f)xp+W(f)hk+b(f))；
其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)，W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f)；
获得父节点词xp的记忆单元为：
获得父节点词xp的隐藏状态为：
hP＝oP⊙tanh(cP)。
4.如权利要求3所述的方法，其特征在于，所述基于所述{r1,r2,...,rn}生成句子嵌入包括:
获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn}；
计算{x1,x2,...,xn}中的词xk与词xg交互的权重：
获得{x1,x2,...,xn}中的xg的交互表示为：
枚举{x1,x2,...,xn}中的所有词，并且获得{x1,x2,...,xn}的交互表示序列{r1,r2,...,rn}，生成句子嵌入s＝max{r1,r2,...,rn}。
5.如权利要求4所示的方法，其特征在于，还包括：
获得与句子嵌入s对应的预测标签：
其中，是类别标签集合； W(s)和b(s)分别是重
塑矩阵和偏置量；
设置损失函数：
其中，hi是隐状态，是词xi的真实类别标签，是句子嵌入s的真实类别标签；
基于所述损失函数评估句子嵌入s的质量。
6.一种应用于句子嵌入的文本表示装置，其特征在于，包括：
词获取模块，用于获得需要处理的文件，从所述文件中提取句子；其中，所述文件包括：
文本文件、网页文件；获得与句子中的n个词对应的n个父节点词；
孩子节点词处理模块，用于确定所述父节点词和与此父节点词对应的孩子节点词集合C(p)，对所述C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck，其中k∈{1,
2,...,|C(p)|}；
父节点词处理模块，用于基于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态将所述和所述父节点词输入LSTM模型，获得所述父节点词的记忆单元和隐藏状态；
隐藏状态处理模块，用于获得与n个父节点词对应的父节点词序列{x1,x2,...,xn}，并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}；
句子嵌入处理模块，用于基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于所述{r1,r2,...,rn}生成句子嵌入。
7.如权利要求6所述的装置，其特征在于，
所述父节点词处理模块，包括：
隐向量表示单元，用于将父节点词xp表示为隐向量其中，W(h)和bh
分别是权重矩阵和偏置量；
连接处理单元，用于连接父节点词xp和父节点词xp对应的第k个孩子节点词，获得
其中，αk是和hk的连接表示，Wα是连接矩阵；
隐状态获取单元，用于计算父节点词xp的第k个孩子节点的词权重
获得父节点词xp的隐交互状态将所述和所述父节点词xp输入LSTM模型，
获得所述父节点词xp的记忆单元和隐藏状态。
8.如权利要求7所述的装置，其特征在于，
所述隐状态获取单元，用于使用隐交互状态和父节点词xp作为LSTM模型的输入得到：
fkp＝σ(U(f)xp+W(f)hk+b(f))；
其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)，W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f))；
所述隐状态获取单元，用于获得父节点词xp的记忆单元为：
所述隐状态获取单元，用于获得父节点词xp的隐藏状态为：
hp＝op⊙tanh(cp)。
9.一种应用于句子嵌入的文本表示装置，其特征在于，包括：
存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至5任一项所述的方法的步骤。

说明书全文

应用于句子嵌入的文本表示方法和装置

技术领域

[0001] 本发明涉及人工智能技术领域，尤其涉及一种应用于句子嵌入的文本表示方法和装置以及存储介质。

背景技术

[0002] 句子嵌入将文本空间映射为实值向量或矩阵，这在文本的机器理解方面发挥了十分重要的作用，其应用包含了情感分类，问答系统和文本摘要。关于句子嵌入的工作可以归为以下三类，即统计性，序列化和结构化嵌入。统计性嵌入模型是根据统计指标进行估计的，例如，共现词的频率、共现词对频率，以及在不同文本中词的权重(在TF-IDF模型中)。序列化嵌入模型主要依赖于神经网络结构来学习文本表示，基于单层隐藏层，一种卷积神经网络或者递归神经网络(RNN)。结构化嵌入模型考虑了句法结构来反映文本的语义，例如，递归神经网络和树结构的长短记忆网络(Tree-LSTM)。目前的句子嵌入模型在文本分类任务上取得了不错的效果。然而，在现有的嵌入模型中，句子嵌入的生成过程通常遵循着一种称之为单向作用。也就是说，为先前文本生成的表示作为背景来决定接下来文本的表示，受限于单向作用会造成部分语义缺失。

发明内容

[0003] 有鉴于此，本发明要解决的一个技术问题是提供一种应用于句子嵌入的文本表示方法和装置以及存储介质。

[0004] 根据本发明的一个方面，提供一种应用于句子嵌入的文本表示方法，包括：获得需要处理的文件，从所述文件中提取句子；其中，所述文件包括：文本文件、网页文件；获得与句子中的n个词对应的n个父节点词；确定所述父节点词和与此父节点词对应的孩子节点词集合C(p)，对所述C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck，其中k∈{1,2,...,|C(p)|}；基于所述C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态将所述和所述父节点词输入LSTM模型，获得所述父节点词的记忆单元和隐藏状态；获得与n个父节点词对应的父节点词序列{x1,x2,...,xn}，并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列 {h1,h2,...,hn}；基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于所述{r1,r2,...,rn}生成句子嵌入。

[0005] 可选地，所述获得所述父节点词的记忆单元和隐藏状态包括：将父节点词xp表示为隐向量其中，W(h)和bh分别是权重矩阵和偏置量；连接父节点词xp和父节点词xp对应的第k个孩子节点词，获得其中，αk是和hk的连接表示，Wα是连接矩阵；

[0006] 计算父节点词xp的第k个孩子节点的词权重

[0007] 获得父节点词xp的隐交互状态将所述和所述父节点词xp输入LSTM模型，获得所述父节点词xp的记忆单元和隐藏状态。

[0008] 可选地，所述将所述和所述父节点词xp输入LSTM模型，获得所述父节点词xp的记忆单元和隐藏状态包括：使用隐交互状态和父节点词xp作为 LSTM模型的输入得到：

[0009]

[0010]

[0011]

[0012] fkp＝σ(U(f)xp+W(f)hk+b(f))；

[0013] 其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)， W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f))；

[0014] 获得父节点词xp的记忆单元为：

[0015]

[0016] 获得父节点词xp的隐藏状态为：

[0017] hp＝op⊙tanh(cp)。

[0018] 可选地，所述基于所述{r1,r2,...,rn}生成句子嵌入包括:获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn}；

[0019] 计算{x1,x2,...,xn}中的词xk与词xg交互的权重：

[0020]

[0021] 获得{x1,x2,...,xn}中的xg的交互表示为：

[0022]

[0023] 枚举{x1,x2,...,xn}中的所有词，并且获得{x1,x2,...,xn}的交互表示序列 {r1,r2,...,rn}，生成句子嵌入s＝max{r1,r2,...,rn}。

[0024] 可选地，获得与句子嵌入s对应的预测标签：

[0025]

[0026] 其中， y是类别标签集合； W(s)和b(s)分别是重塑矩阵和偏置量；

[0027] 设置损失函数：

[0028]

[0029] 其中，hi是隐状态，是词xi的真实类别标签，是句子嵌入s的真实类别标签；基于所述损失函数评估句子嵌入s的质量。

[0030] 根据本发明的另一方面，提供一种应用于句子嵌入的文本表示装置，包括：词获取模块，用于获得需要处理的文件，从所述文件中提取句子；其中，所述文件包括：文本文件、网页文件；获得与句子中的n个词对应的n个父节点词；孩子节点词处理模块，用于确定所述父节点词和与此父节点词对应的孩子节点词集合C(p)，对所述C(p)中的每个孩子节点词分别设置隐藏状态 hk和记忆单元ck，其中k∈{1,2,...,|C(p)|}；父节点词处理模块，用于基于所述 C(p)中的所有孩子节点状态的隐交互状态获得所述父节点词的隐交互状态将所述和所述父节点词输入LSTM模型，获得所述父节点词的记忆单元和隐藏状态；隐藏状态处理模块，用于获得与n个父节点词对应的父节点词序列{x1,x2,...,xn}，并根据所述父节点词的隐藏状态获得与所述{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}；句子嵌入处理模块，用于基于{h1,h2,...,hn}获得 {x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于所述{r1,r2,...,rn}生成句子嵌入。

[0031] 可选地，所述父节点词处理模块，包括：隐向量表示单元，用于将父节点词xp表示为隐向量其中，W(h)和bh分别是权重矩阵和偏置量；连接处理单元，用于连接父节点词xp和父节点词xp对应的第k个孩子节点词，获得其中，αk是
和hk的连接表示，Wα是连接矩阵；隐状态获取单元，用于计算父节点词xp的第k个孩子节点的词权重获得父节点词xp的隐交互状态将所述和
所述父节点词xp输入LSTM模型，获得所述父节点词xp的记忆单元和隐藏状态。

[0032] 可选地，所述隐状态获取单元，用于使用隐交互状态和父节点词xp作为LSTM模型的输入得到：

[0033]

[0034]

[0035]

[0036] fkp＝σ(U(f)xp+W(f)hk+b(f))；

[0037] 其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)， W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f))；

[0038] 所述隐状态获取单元，用于获得父节点词xp的记忆单元为：

[0039]

[0040] 所述隐状态获取单元，用于获得父节点词xp的隐藏状态为：

[0041] hp＝op⊙tanh(cp)。

[0042] 可选地，所述句子嵌入处理模块，用于获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn}；计算{x1,x2,...,xn}中的词xk与词xg交互的权重：

[0043]

[0044] 所述句子嵌入处理模块，用于获得{x1,x2,...,xn}中的xg的交互表示为：

[0045]

[0046] 所述句子嵌入处理模块，用于枚举{x1,x2,...,xn}中的所有词，并且获得 {x1,x2,...,xn}的交互表示序列{r1,r2,...,rn}，生成句子嵌入s＝max{r1,r2,...,rn}。

[0047] 根据本发明的又一方面，提供一种应用于句子嵌入的文本表示装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如上所述的方法。

[0048] 根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如上所述的方法的步骤。

[0049] 本发明的应用于句子嵌入的文本表示方法和装置，提出了通过两层次交互表示实现句子的嵌入，两层次交互表示分别为局部交互表示(LIR)和全局交互表示(GIR)，结合这两种表示生成混合交互表示(HIR)，能够提高句子嵌入和效率和精度，在精度方面明显优于Tree-LSTM等模型。附图说明

[0050] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0051] 图1为本发明的应用于句子嵌入的文本表示方法的一个实施例的流程示意图；

[0052] 图2A为本发明的应用于句子嵌入的文本表示方法的一个实施例中的父节点词与孩子节点词的关系示意图；

[0053] 图2B为本发明的应用于句子嵌入的文本表示方法的一个实施例中的5 类分类任务的预测示意图；

[0054] 图2C为本发明的应用于句子嵌入的文本表示方法的一个实施例中的2 类分类任务的预测示意图；

[0055] 图3为本发明的应用于句子嵌入的文本表示装置的一个实施例的模块示意图；

[0056] 图4为本发明的应用于句子嵌入的文本表示装置的一个实施例中的父节点词处理模块的模块示意图；

[0057] 图5为本发明的应用于句子嵌入的文本表示装置的另一个实施例中的模块示意图。

具体实施方式

[0058] 现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

[0059] 同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

[0060] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

[0061] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

[0062] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

[0063] 本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：智能手机、个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

[0064] 计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令 (诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

[0065] 图1为本发明的应用于句子嵌入的文本表示方法的一个实施例的流程示意图，如图1所示：

[0066] 步骤101，获得与句子中的n个词对应的n个父节点词。

[0067] 获得需要处理的文件，从所述文件中提取句子，对句子进行相应的分析和处理；所述文件包括：文本文件、网页文件等。例如，电商网站的后台系统获得关于电子类商品的评价文件，在评价文件中有多个客户对于电子商品类的评价，基于提取规则从评价文件中提取与评价相关的句子，对句子进行相应的处理。

[0068] 步骤102，确定父节点词和与此父节点词对应的孩子节点词集合C(p)，对C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck，其中 k∈{1,2,...,|C(p)|}。

[0069] 例如，对于句子“一条狗越过水沟”，这个句子依据语法依赖关系，父节点词是“越过”，而孩子节点词集合是“一条狗，水沟”。隐藏状态hk和记忆单元ck都是递归神经网络中的固有成分。隐藏状态用于记录当前时刻网络中的状态表示，而记忆单元用于记录网络从起初到现在的状态信息。

[0070] 步骤103，基于C(p)中的所有孩子节点状态的隐交互状态获得父节点词的隐交互状态隐藏状态、隐交互状态是不同的概念，隐藏状态是RNN神经网络所固有的，而隐交互状态是父节点词和孩子节点间的作用所得的隐状态表示。

[0071] 步骤104，将和父节点词输入LSTM模型，获得父节点词的记忆单元和隐藏状态。

[0072] 步骤105，获得与n个父节点词对应的父节点词序列{x1,x2,...,xn}，并根据父节点词的隐藏状态获得与{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}。

[0073] 步骤106，基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于{r1,r2,...,rn}生成句子嵌入。

[0074] 句子的嵌入可以帮助文本的机器理解，文本的语义是文本中各个词的相互影响的产物，之后的词对先前词的语义也有贡献。本发明引入了交互的概念，提出了应用于句子嵌套的两层次交互表示，即局部交互表示和全局交互表示，结合这两种交互表示提供混合的交互表示。例如：一种局部交互表示 (LIR)和一种全局交互表示(GIR)，整合生成了一种混合交互模型(HIR)。

[0075] 在一个实施例中，假设存在一个依赖解析树，C(p)表示父节点词xp的孩子节点集合。为了定义注意力的树状LSTM，对每个孩子节点词分别引入了隐藏状态hk和记忆单元ck，其中k∈{1,2,...,|C(p)|}，如图2A所示，考虑了父节点词→孩子节点词。在父节点词→孩子节点词中，将父节点词xp作为控制者，它基于注意力机制对在句子中的孩子节点词赋予语义权重。

[0076] 将父节点词xp表示为隐向量其中，W(h)和bh分别是权重矩阵和偏置量。应用简易的连接来连接父节点词和孩子节点词，连接父节点词xp和父节点词xp对应的第k个孩子节点词，获得其中，

[0077] αk是和hk的连接表示，Wα是连接矩阵可以被学习得到。和hk的连接表示主要是通过简单的链接操作，构建孩子节点的隐状态表示和父节点状态表示间的联系，服务于之后的父节点状态表示。

[0078] 应用softmax函数于这段连接表示{α1,α2,...,α|C(p)|}来得到权重λk。计算父节点词xp的第k个孩子节点的词权重获得表示关于父节点 xp的所有孩子节点状态的隐交互状态即获得父节点词xp的隐交互状态在孩子节点词→
父节点词中，将和父节点词xp输入LSTM模型，获得父节点词xp的记忆单元和隐藏状态。
LSTM(Long Short-Term Memory) 是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

[0079] 使用隐交互状态和父节点词xp作为LSTM模型的输入得到：

[0080]

[0081]

[0082]

[0083] fkp＝σ(U(f)xp+W(f)hk+b(f))；

[0084] 其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)， W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f))。

[0085] 获得父节点词xp的记忆单元为：

[0086]

[0087] 获得父节点词xp的隐藏状态为：

[0088] hp＝op⊙tanh(cp)。

[0089] 其中，⊙是元素相乘，而ck是一个孩子节点词的记忆单元。

[0090] 例如，假设有一个合成解析树，让xl和xr表示父节点xp的左孩子节点词和右孩子节点词，因为父节点xp是一个非终止节点(即：xp是一个零向量)，分别利用xl和xr作为控制者而不是xp。因此，基于上述公式，可以分别得到关于xl和xr的隐交互状态和连接和来表示父节点的隐交互状态表示，即：按照上述公式，可以得到父节点xp的记忆单元cp和隐藏状态hp。在孩子节点词→父节点词的局部交互表示中，父节点包含了所有孩子节点词的信息。因此，可以把这个父节点的隐状态作为句子的嵌入。

[0091] 在一个实施例中，GIR采用了基于枚举的策略来利用注意力机制于一句话中的所有词。在应用Tree-LSTM于一句话中的n个词后，可以得到词序列 {x1,x2,...,xn}对应的隐向量表示{h1,h2,...,hn}。Tree-LSTM类似于RNN，将词序列 {x1,x2,...,xn}按时间序列依次输入到网络中之后，会对应得到每个时刻的隐状态表示。

[0092] 为了表示在一句话中词xg和在这句话中其他词的交互，可以将词xg作为赋予在{x1,x2,...,xn}中除xg外的词的语义权重的控制者。应用了一种通用的连接方式将词xg和其他词连接，也就是，αgk＝hgWαhk，其中，αgk是hg和hk的连接表示(g,k∈(1,2,...,n))。可以得到词xg和其他词之间的所有连接表示 {αg1,αg2,...,αgn}。

[0093] Softmax函数是将原来的输出映射到(0,1)的概率空间，而且这些值的累和为1。假设有一个数组V，Vi表示V中的第i个元素，那么这个元素的 softmax值为：

[0094] 应用softmax函数于连接表示序列来计算得到权重，计算{x1,x2,...,xn}中的词xk与词xg交互的权重：

[0095]

[0096] 其中，λgk是在{x1,x2,...,xn}中词xk与词xg交互的权重。最终，可以得到交互表示，获得{x1,x2,...,xn}中的xg的交互表示为：

[0097]

[0098] 可以枚举在一句话中的所有词，并且返回交互表示序列，即：{r1,r2,...,rn}。 max-pooling方法指的是在指定维度中进行最大化采样，也就是获取该维度的最大值。句子嵌入指的是句子表示，它将句子表示成一个低维度稠密的向量，方便于计算机进行理解和计算。

[0099] 采用max-pooling的方法在该序列来产生最终的句子嵌入s， s＝max{r1,r2,...,rn}，完成了全局交互表示的定义。即：枚举{x1,x2,...,xn}中的所有词，并且获得{x1,x2,...,xn}的交互表示序列{r1,r2,...,rn}，生成句子嵌入 s＝max{r1,r2,...,rn}。

[0100] 为了即获得词之间局部和全局的交互，将LIR和GIR整合形成了一种混合交互表示模型HIR。HIR首先按照LIR的步骤来产生词序列{x1,x2,...,xn}对应的隐状态序列表示{h1,h2,...,hn}。然后，HIR应用GIR的过程在隐状态序列来得到最终的句子嵌入s。

[0101] 在一个实施例中，获得与句子嵌入s对应的预测标签：

[0102]

[0103] 其中， y是类别标签集合； W(s)和b(s)分别是重塑矩阵和偏置量。

[0104] 设置损失函数：

[0105]

[0106] 其中，hi是隐状态，是词xi的真实类别标签，是句子嵌入s的真实类别标签；基于损失函数评估句子嵌入s的质量。

[0107] 在类别预测过程中，应用在句子嵌入上应用sotfmax分类器来得到预测标签其中， y是类别标签集合，也就是，

[0108]

[0109] 其中，

[0110]

[0111] 这里，W(s)和b(s)分别是重塑矩阵和偏置量。对于公式化HIR中的损失函数，可以结合LIR和GIR中对应的损失如下，即：

[0112]

[0113] 其中，前者的损失来自于LIR而后者的损失来自于GIR。在此，hi是隐状态，而是在LIR中词xi的真实类别标签，是在GIR中句子嵌入s的真实类别标签。

[0114] 为了评估所提出的句子嵌入的质量，考虑一种情感分类任务并且试图回答以下问题：(RQ1)结合了交互表示的句子嵌入模型是否可以改善情感分类的性能？(RQ2)句子的长度对性能具有什么样的影响？

[0115] 比较本发明提供的方法和其他最新的基于递归神经网络的嵌套模型的性能。可以利用以下的基准模型来比较：(1)LSTM:一种基于长短记忆网络的嵌套模型[6]。(2)Tree-LSTM:一种结合了语法解析树的基于LSTM的嵌套模型。将它们与本发明提出的句子嵌套方法对应的模型进行比较：(1)LIR(2.1)、 (2)GIR(2.2)以及(3)HIR(2.3)。

[0116] 利用从电影评论中采样的Stanford Sentiment Treebank数据集。该数据集对每个句子有5类标签，即：非常消极、消极、中等、积极以及非常积极。此外，该数据集抛弃一些中等句子来将这个标签划分为两类，即消极和积极。这个数据集可以被作为2类或者5类任务。下表1详细介绍了这个数据集的统计性特征。使用精度(在句子水平)作为讨论模型的评价准则。

[0117]

[0118] 表1—数据集的统计性特征

[0119] 对于词嵌入，随机初始化词嵌入矩阵We，该矩阵将会在训练阶段被学习，其中设定词嵌入维度为300。固定参数如下所示：批次大小设为5，也就是每批次5个句子；隐向量维度设为150；丢失率设为0.5。为了初始化神经网络，每一个矩阵由正态高斯分布初始化，每一个偏置用零向量初始化。此外，利用含0.05学习率的AdaGrad 算法来训练模型，并且设定整个训练过程为15 个周期。

[0120] 为了回答RQ1,在表2中，分别呈现了所有讨论模型的5类分类任务和2 类分类任务的实验结果。表2为在情感分类任务上的精度，每一列中最好的基准模型和性能最优的模型分别以下划线和粗体显示。

[0121]

[0122]

[0123] 表2—在情感分类任务上的精度。

[0124] 对于基准模型，Tree-LSTM优于LSTM，在5类和2类分类任务上分别取得了7.67％和4.92％的精度提升，这意味着与序列化的嵌套模型相比，结合了语法结构的结构化句子嵌套模型确实可以更好表征文本为了句子分类。带有交互表示的模型，例如LIR,GIR和HIR，普遍的优于基准模型。HIR是在提出模型中表现最好的模型。在5类分类任务上，HIR对最好的基准模型Tree-LSTM 具有3.15％的精度提升，对GIR和LIR各自有1.96％和1.97％的提升。在2类任务上，与Tree-LSTM，GIR和LIR相比，HIR分别达到了2.03％，1.48％和 1.78％的精度提升。通过表征词之间局部和全局的交互，HIR可以获得更好地句子嵌套，有利于进行情感分类。

[0125] GIR，像HIR，也优于Tree-LSTM，在5类分类任务上取得了1.35％的提升，0.54％的提升在2类分类任务上。LIR表现略劣于GIR，但仍然比Tree-LSTM 在5类任务上取得了1.15％，在2类任务上取得了0.27％的精度提升。LIR和 GIR之间的差别可以通过以下事实得以解释，LIR过多关注于局部词之间的交互，而不能抓住在一句话中词的全局交互。

[0126] 为了回答RQ2，根据句子长度l人工将句子分为三组，例如：短句子 (l∈(0,10)，中等句子(l∈(10，20))以及长句子(l∈(20，+∞))。在图2B和图 2C上分别画出了5类分类任务和2类分类任务的测试结果。

[0127] 对于两个分类任务，可以发现随着句子长度的增加，所有讨论的模型的性能单调的下降。句子越长，在句子中的关系就越复杂，使得更难得到好的句子嵌套。对于基准模型而言，在5类任务上，在每一个句子长度上， Tree-LSTM优于LSTM。本发明提出的方法模型，在情感分类上都普遍地在每个句子上具有优势。当句子长度是短，中等和长的时候，HIR比Tree-LSTM 分别提升了5.94％，5.86％，3.10％。这种类似的现象也可以被发现在LIR，GIR 与基准模型的比较中。表征交互所带来的优势会随着句子长度的增加而降低。

[0128] 在2类任务上，得到了类似5类任务的结果。相比于在图2B的结果，在 5类任务上，HIR获得了比基准模型更大的相对提升：在5类任务上，HIR比 Tree-LSTM的提升达到了5.94％，5.86％和3.10％，当句子的长度是短，中等，长时；而在2类任务上，对于对应的句子长度有4.55％，3.08％和0％的提升。令人感兴趣地，Tree-LSTM设法赶上HIR在2类任务上当句子长度长时。

[0129] 在一个实施例中，本发明提供一种应用于句子嵌入的文本表示装置30，包括：词获取模块31、孩子节点词处理模块32、父节点词处理模块33、隐藏状态处理模块34、句子嵌入处理模块35和质量评估模块36。

[0130] 词获取模块31获得获得需要处理的文件，从所述文件中提取句子；其中，所述文件包括：文本文件、网页文件，与句子中的n个词对应的n个父节点词。孩子节点词处理模块32确定父节点词和与此父节点词对应的孩子节点词集合C(p)，对C(p)中的每个孩子节点词分别设置隐藏状态hk和记忆单元ck，其中k∈{1,2,...,|C(p)|}。父节点词处理模块33基于C(p)中的所有孩子节点状态的隐交互状态获得父节点词的隐交互状态将和父节点词输入LSTM模型，获得父节点词的记忆单元和隐藏状态；

[0131] 隐藏状态处理模块34获得与n个父节点词对应的父节点词序列 {x1,x2,...,xn}，并根据父节点词的隐藏状态获得与{x1,x2,...,xn}对应的隐藏状态序列{h1,h2,...,hn}。句子嵌入处理模块35基于{h1,h2,...,hn}获得{x1,x2,...,xn}中的各父节点词与其它父节点词的交互表示序列{r1,r2,...,rn}，并基于{r1,r2,...,rn}生成句子嵌入。

[0132] 如图4所示，父节点词处理模块33包括：隐向量表示单元331、连接处理单元332和隐状态获取单元333。隐向量表示单元331将父节点词xp表示为隐向量其中，W(h)和bh分别是权重矩阵和偏置量。连接处理单元332连接父
节点词xp和父节点词xp对应的第k个孩子节点词，获得其中，αk是和hk的连
接表示，Wα是连接矩阵。隐状态获取单元333计算父节点词xp的第k个孩子节点的词权重获得父节点词xp的隐交互状态将和父节点词xp输入
LSTM模型，获得父节点词xp的记忆单元和隐藏状态。

[0133] 隐状态获取单元333使用隐交互状态和父节点词xp作为LSTM模型的输入得到：

[0134]

[0135]

[0136]

[0137] fkp＝σ(U(f)xp+W(f)hk+b(f))；

[0138] 其中，ip，op和fkp分别是输入门，输出门和遗忘门；up是xp的候选隐藏状态；xp的对应矩阵为U(i)，U(o)，U(u)和U(f)，或者hk的对应权重矩阵为W(i)， W(o)，W(u)和W(f))，偏置量为b(i)，b(o)，b(u)和b(f))；

[0139] 隐状态获取单元333获得父节点词xp的记忆单元为：

[0140]

[0141] 隐状态获取单元333获得父节点词xp的隐藏状态为：

[0142] hp＝op⊙tanh(cp)。

[0143] 句子嵌入处理模块35获得{x1,x2,...,xn}中的词xg和其它的词之间的连接表示序列为{αg1,αg2,...,αgn}；计算{x1,x2,...,xn}中的词xk与词xg交互的权重：

[0144]

[0145] 句子嵌入处理模块35获得{x1,x2,...,xn}中的xg的交互表示为：

[0146]

[0147] 句子嵌入处理模块35枚举{x1,x2,...,xn}中的所有词，并且获得{x1,x2,...,xn} 的交互表示序列{r1,r2,...,rn}，生成句子嵌入s＝max{r1,r2,...,rn}。

[0148] 质量评估模块36获得与句子嵌入s对应的预测标签：

[0149]

[0150] 其中， y是类别标签集合； W(s)和 b(s)分别是重塑矩阵和偏置量；质量评估模块36设置损失函数：

[0151]

[0152] 其中，hi是隐状态，是词xi的真实类别标签，是句子嵌入s的真实类别标签；质量评估模块36基于损失函数评估句子嵌入s的质量。

[0153] 在一个实施例中，如图5所示，提供一种应用于句子嵌入的文本表示装置，该装置可包括存储器51和处理器52，存储器51用于存储指令，处理器 52通过总线53耦合到存储器51，处理器52被配置为基于存储器51存储的指令执行实现上述的应用于句子嵌入的文本表示方法。

[0154] 存储器51可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器51也可以是存储器阵列。存储器51还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器52可以为中央处理器CPU，或专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明的应用于句子嵌入的文本表示方法的一个或多个集成电路。

[0155] 在一个实施例中，本发明提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的应用于句子嵌入的文本表示方法。

[0156] 上述实施例中的应用于句子嵌入的文本表示方法和装置，提出了通过两层次交互表示实现句子的嵌入，两层次交互表示分别为局部交互表示(LIR) 和全局交互表示(GIR)，结合这两种表示生成混合交互表示(HIR)，能够提高句子嵌入和效率和精度，在精度方面明显优于例如Tree-LSTM等模型。

[0157] 可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

[0158] 本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

标题	发布/更新时间	阅读量
一种非线性大刚体位移参量求解方法	2021-02-19	2
一种基于图形处理器的LDPC-BCH译码方法	2024-01-01	0
一种基于无人机的物联网系统数据收集方法	2021-03-12	0
基于LKJ异常值数据的复杂关联网络分析方法及系统	2022-01-29	2
便携式监测装备状态的通用终端及监测方法	2022-07-30	1
用于监测温度不稳定性的测试电路	2023-01-06	1
一种化学机械研磨模拟方法	2021-03-28	1
直流-直流转换器及用于控制直流-直流转换器的方法	2022-06-02	2
一种低压差线性稳压电路	2020-07-10	1
一种移动无线传感器网络故障诊断方法	2023-02-05	0

应用于句子嵌入的文本表示方法和装置

应用于句子嵌入的文本表示方法和装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：