首页 / 专利库 / 人工智能 / 长短期记忆单元 / 基于中文小说文本的阅读器信息抽取方法及系统

基于中文小说文本的阅读器信息抽取方法及系统

阅读:384发布:2020-05-08

专利汇可以提供基于中文小说文本的阅读器信息抽取方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于中文小说文本的阅读器信息 抽取 方法和系统,用以解决 现有技术 中情节较多的中文文本 电子 书信息抽取不够准确的问题。所述阅读器信息抽取方法将需要提取关键词的文本分割成以单词为粒度和以汉字为粒度的文本,并分别转换为词向量和字向量,采用向量训练神经网络,并结合注意 力 机制提取文本特征,根据文本特征的预测结果完成信息抽取。本发明采用字向量和词向量两种粒度的文本表示方法,将两种粒度的向量表示方法同时应用在注意力机 制模 型中,并结合二者的预测结果,提高相关任务的信息提取准确性,帮助读者理解文本内容,利用 自然语言处理 算法 ,满足读者需要回顾前面章节的需求,提升用户体验。,下面是基于中文小说文本的阅读器信息抽取方法及系统专利的具体信息内容。

1.一种基于中文小说文本的阅读器信息抽取方法,其特征在于,在多种向量粒度下采用注意机制,共同提取文本特征,得到预定任务下的关键信息。
2.根据权利要求1所述的阅读器信息抽取方法,其特征在于,所述信息抽取方法包括如下步骤:
步骤S1,将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示;
步骤S2,采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征;
步骤S3,采用注意力机制对所述第一文本特征进行处理得到第二文本特征;
步骤S4,对所述第二文本特征加注预测标签,将加注了预测标签的第二文本特征作为预测结果,根据所述预测结果完成信息抽取。
3.根据权利要求2所述的阅读器信息抽取方法,其特征在于,所述信息抽取方法还包括:步骤S5,对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果,修正词向量预测模型
4.根据权利要求2或3所述的阅读器信息抽取方法,其特征在于,所述步骤S1中,将两种文本分别转换为词向量和字向量表示,使用Word2Vec模型,完成文本信息向预定维度的向量形式的转换。
5.根据权利要求2或3所述的阅读器信息抽取方法,其特征在于,步骤S2中所述双向长短期记忆神经网络BiLSTM由三个“”结构组成,分别为输入门、遗忘门、输出门。
6.根据权利要求5所述的阅读器信息抽取方法,其特征在于,
所述输入门,在t时刻的输出计算公式为:
it=f(Wixt+Wiht-1+bi)                 (1)
遗忘门的输出计算公式:
ft=σ(Wfxt+Wfht-1+bf)                 (2)
当前时刻状态单元表示:
前一时刻的状态单元表示:
输出门的输出计算公式:
ot=f(Woxt+Woht-1+bo)               (5)
当前单元的输出表示为:
ht=ottanh(Ct)                  (6)
两个方向的BiLSTM输出可以表示为:
ht={hti,htj)                (7);
其中,it,ft,Ct,ot分别表示LSTM神经网络在t时刻的输入门、遗忘门、当前状态单元、输出门的输出函数,W表示当前神经元的权重矩阵,b表示当前神经元的偏置向量,xt为当前输入变量。
7.根据权利要求2或3所述的阅读器信息抽取方法,其特征在于,所述步骤S3中,注意力机制为:
首先定义一个注意力机制的矩阵,将BiLSTM神经网络的输出作为输入,通过非线性变换,得到节点i对节点j的隐含表示eij:
eij=Vtanh(Whi+Uhj+b)                (8)
其中,hi和hj分别表示前向和反向LSTM神经网络的输出,V、W、U是权重矩阵;在n个时间节点中,第i个节点对第j个节点的注意力概率权重表示为:
根据权重,计算得到第i个单词的新的输出特征值:
计算第i个单词的新的反向LSTM特征值haj,第t个单词具有注意力机制后对应的输出特征为:
ht={hai,haj}                  (11)。
8.根据权利要求2或3所述的阅读器信息抽取方法,其特征在于,所述步骤S4中,单词的标签为:T表示当前单词属于关键词,F表示当前单词不属于关键词。
9.根据权利要求8所述的阅读器信息抽取方法,其特征在于,所述加注标签,经过softmax分类器计算对应类别的分布概率,表达式为:
yi=softmax(WcH+bc)                  (12)
H是注意力层的输出,W为权重矩阵,b是偏置向量;训练时,目标为最小化损失函数,损失函数为softmax的输出向量和样本的正确标签的交叉熵损失为:
Hy′(y)=-∑iy′ilog(yi)           (13)
其中,y′i表示第i个正确标签的值,yi表示softmax的输出向量中的第i个标签的值。
10.一种基于中文小说文本的阅读器信息抽取系统,其特征在于,所述系统包括:文本词向量表示层、文本字向量表示层、双向长短期神经网络BiLSTM层、注意力机制层、标签分类层、预测结果过滤层、结果输出层;其中,
所述文本词向量表示层和文本字向量表示层同时与BiLSTM层相连,用于获取需要提取关键词的文本,并将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示,再分别将词向量和字向量发送给所述BiLSTM层;
所述BiLSTM层与所述注意力机制层相连,用于采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征,并将所述第一文本特征发送给所述注意力机制处理层;
所述注意力机制处理层与所述标签分类层相连,用于采用注意力机制对所述第一文本特征进行处理得到第二文本特征,将所述第二文本特征发送给所述标签分类层;
所述标签分类层与所述预测结果过滤层相连,用于对所述第二文本特征加注预测标签,并将加注了预测标签的第二文本特征作为预测结果,同时将预测结果发送给预测结果过滤层;
所述预测结果过滤层与所述结果输出层相连,用于对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果对所述词向量预测结果进行修改,并将修改后的预测结果发送给所述结果输出层;
所述结果输出层用于输出过滤得到的关键词。

说明书全文

基于中文小说文本的阅读器信息抽取方法及系统

技术领域

[0001] 本发明属于智能电子书领域,具体涉及一种基于中文小说文本的阅读器信息抽取方法及系统。

背景技术

[0002] 随着网络时代的来临,目前使用电子书的人数正在不断上升。与传统纸质书籍相比,电子书具有很多便捷之处。电子书的容量较大,一个电子书类的App可以装下很多本小说,为我们提供了更多的选择。虽然电子书普遍具有做书签、朗诵书本内容等功能,但是在智能化上还有很大改进的空间。例如,与纸质书籍相比,电子书每页显示的内容更少,页数较多,读者在阅读到后面的内容时,如果想要查阅前面的某页内容,也比较难快速到达相应位置
[0003] 为了解决电子书智能化不足的问题,通常采用语义识别对电子书的内容进行定位。例如,申请号为201810746982.7的中国专利,提出了一种面向操作系统的基于语义理解的语音互动方法及系统,可以根据用户的语音指令做出更加智能的回复。
[0004] 现有技术中,在电子书阅读方面,通常通过注意机制进行信息抽取完成语义识别。申请号为201810611199.x的中国专利,提出了一种基于注意力机制的用于阅读理解的方法、装置和电子设备,使用了基于词向量的注意力机制,提升短文本答案抽取任务的效果;申请号为201810601421.8的中国专利,提出了一种基于改进的注意力机制的答案选择方法、装置和电子设备,堆叠了两次基于词语向量的注意力机制层,通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统,以提高短文本答案抽取的效果。但是,对于中文文本,现有的基于语义识别的信息抽取,准确性不高,尤其是在小说等电子书阅读文本上,信息抽取的效果仍然不够普遍和完善;另外,当面对文本内容较多、章节繁多的小说等文学作品时,章节故事情节较为复杂曲折,对于用户来说,往往不能连续读完一本小说,在下一次看小说时,可能已经部分忘记了之前小说的情节和任务关系,从而需要对前面看过的内容进行回顾,而现有的信息抽取技术尚无法满足此需求。

发明内容

[0005] 为了提高电子书的智能化平,克服情节较多的中文文本电子书信息抽取不够准确的问题,本发明提供了一种基于中文小说文本的阅读器信息抽取方法及系统,通过自动过滤方法,过滤掉非中文的样例和相关字符,然后利用分词产生基于词向量的文本表示和基于字向量的文本表述,在人物提取、主要事件提取等具体问题上做出相应优化,有效的起到辅助阅读的作用。
[0006] 为了实现上述目的,本发明采取了如下技术方案。
[0007] 第一方面,本发明实施例提供了一种基于中文小说文本的阅读器信息抽取方法,在多种向量粒度下采用注意力机制,共同提取文本特征,得到预定任务下的关键信息。
[0008] 上述方案中,所述信息抽取方法包括如下步骤:
[0009] 步骤S1,将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示;
[0010] 步骤S2,采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征;
[0011] 步骤S3,采用注意力机制对所述第一文本特征进行处理得到第二文本特征;
[0012] 步骤S4,对所述第二文本特征加注预测标签,将加注了预测标签的第二文本特征作为预测结果,根据所述预测结果完成信息抽取。
[0013] 上述方案中,所述信息抽取方法还包括:步骤S5,对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果对所述词向量预测结果进行修改
[0014] 上述方案中,所述步骤S1中,将两种文本分别转换为词向量和字向量表示,使用Word2Vec模型,完成文本信息向预定维度的向量形式的转换。
[0015] 上述方案中,步骤S2中所述双向长短期记忆神经网络BilSTM由三个“”结构组成,分别为输入门、遗忘门、输出门。
[0016] 上述方案中,所述输入门,在t时刻的输出计算公式为:
[0017] it=f(Wixt+Wiht-1+bi)                   (1)
[0018] 遗忘门的输出计算公式:
[0019] ft=σ(Wfxt+Wfht-1+bf)                  (2)
[0020] 当前时刻状态单元表示:
[0021]
[0022] 前一时刻的状态单元表示:
[0023]
[0024] 输出门的输出计算公式:
[0025] ot=f(Woxt+Woht-1+bo)        (5)
[0026] 当前单元的输出表示为:
[0027] ht=ottanh(Ct)             (6)
[0028] 两个方向的BilSTM输出可以表示为:
[0029] ht={hti,htj}           (7)。
[0030] 上述方案中,所述步骤S3中,注意力机制为:
[0031] 首先定义一个注意力机制的矩阵,将BiLSTM神经网络的输出作为输入,通过非线性变换,得到节点i对节点j的隐含表示eij:
[0032] eij=Vtanh(Whi+Uhj+b)         (8)
[0033] 其中,hi和hj分别表示前向和反向LSTM神经网络的输出,V,W,U是权重矩阵.在n个时间节点中,第i个节点对第j个节点的注意力概率权重可以表示为:
[0034]
[0035] 根据权重,可以计算得到第i个单词的新的输出特征值:
[0036]
[0037] 上述方案中,所述步骤S4中,单词的标签为:T表示当前单词属于关键词,F表示当前单词不属于关键词。
[0038] 上述方案中,所述加注标签,经过softmax分类器计算对应类别的分布概率,表达式为:
[0039] yi=softmax(WcH+bc)           (12)
[0040] H是注意力层的输出,W为权重矩阵,b是偏置向量。训练的时候,目标为最小化损失函数,损失函数为softmax的输出向量和样本的正确标签的交叉熵损失:
[0041] Hy′(y)=-∑iy′ilog(yi)          (13)
[0042] 其中,y′i表示第i个正确标签的值,yi表示softmax的输出向量中的第i个标签的值。
[0043] 第二方面,本发明实施例还提供了一种基于中文小说文本的阅读器信息抽取系统,所述系统包括:文本词向量表示层、文本字向量表示层、双向长短期神经网络BiLSTM层、注意力机制层、标签分类层、预测结果过滤层、结果输出层;其中,
[0044] 所述文本词向量表示层和文本字向量表示层同时与BiLSTM层相连,用于获取需要提取关键词的文本,并将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示,再分别将词向量和字向量发送给所述BiLSTM层;
[0045] 所述BiLSTM层与所述注意力机制层相连,用于采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征,并将所述第一文本特征发送给所述注意力机制处理层;
[0046] 所述注意力机制处理层与所述标签分类层相连,用于采用注意力机制对所述第一文本特征进行处理得到第二文本特征,将所述第二文本特征发送给所述标签分类层;
[0047] 所述标签分类层与所述预测结果过滤层相连,用于对所述第二文本特征加注预测标签,并将加注了预测标签的第二文本特征作为预测结果,同时将预测结果发送给预测结果过滤层;
[0048] 所述预测结果过滤层与所述结果输出层相连,用于对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果对所述词向量预测结果进行修改,并将修改后的预测结果发送给所述结果输出层;
[0049] 所述结果输出层用于输出过滤得到的关键词。
[0050] 由上述本发明的实施例提供的技术方案可以看出,本发明实施例的基于中文小说文本的阅读器信息抽取方法和系统,将需要提取关键词的文本分割成以单词为粒度和以汉字为粒度的文本,并分别转换为词向量和字向量,采用向量训练神经网络,并结合注意力机制提取文本特征,根据文本特征的预测结果完成信息抽取。本发明采用多种向量粒度下的注意力机制,使用字向量和词向量两种粒度的文本表示方法,将两种粒度的向量表示方法同时应用在注意力机制模型中,并结合二者的预测结果,提高相关任务的信息提取准确性,帮助读者理解文本内容,利用自然语言处理算法,快速的概括出当前章节的主要人物及人物关系、情节等,满足了读者需要回顾前面章节的需求,提升用户体验。
[0051] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明
[0052] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053] 图1为本发明实施例基于中文小说文本的阅读器信息抽取方法流程示意图;
[0054] 图2为本发明实施例中信息抽取方法过滤结果示意图;
[0055] 图3为本发明实施例基于中文小说文本的阅读器信息抽取系统结构示意图。

具体实施方式

[0056] 下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0057] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0058] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0059] 本发明实施例针对中文小说文本,对语义识别阅读器的信息抽取方法进行改进,采用多种向量粒度下的注意力机制,进行文字的关键信息抽取,识别阅读器的语义内容,提取文章的主要内容、核心思想和关键信息,为适用人群特别是具有阅读障碍的人群提供理解文章内容的便捷功能,改善阅读体验。本发明实施例采用多种向量粒度下的注意力机制,使用了字向量和词向量两种粒度的文本表示方法,将两种粒度的向量表示方法同时应用在注意力机制模型中,并结合二者的预测结果,提高相关任务的信息提取准确性。具体的,在阅读器信息抽取方法中,首先使用自动过滤方法,过滤掉非中文的样例和相关字符,然后利用分词技术产生基于词向量的文本表示和基于字向量的文本表述,方法更好地适应了小说文本特点,在人物提取、事件提取、人物关系、主要内容等具体问题上做出相应优化,有效地辅助阅读。
[0060] 为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0061] 第一实施例
[0062] 本实施例提供了一种基于中文小说文本的阅读器信息抽取方法,在多种向量粒度下采用注意力机制,共同提取文本特征,得到预定任务下的关键信息。图1所示为所述阅读器信息抽取方法流程示意图。如图1所示,所述信息抽取方法具体包括如下步骤:
[0063] 步骤S1,将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示;
[0064] 步骤S2,采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征;
[0065] 步骤S3,采用注意力机制对所述第一文本特征进行处理得到第二文本特征;
[0066] 步骤S4,对所述第二文本特征加注预测标签,将加注了预测标签的第二文本特征作为预测结果,根据所述预测结果完成信息抽取。
[0067] 进一步地,所述信息抽取方法还可以包括:
[0068] 步骤S5,对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果,修正词向量预测模型,提高预测准确率和召回率。
[0069] 本实施例中,所述步骤S1中,将两种文本分别转换为词向量和字向量表示,使用Word2Vec模型,完成文本信息向预定维度的向量形式的转换,从而方便神经网络进行高效的特征提取计算。Word2Vec模型包括Skip-gram和CBOW两种训练方式,CBOW模型利用词Wt的上下文单词预测中心单词Wt,而Skip-gram是在已知单词Wt的情况下预测其上下文单词Wct。优选地,本实施例采用Skip-gram的方式来训练词向量。
[0070] 为了弥补词向量模型在训练时的不足,使用字粒度的向量进一步提取文本特征。字向量是指将中文文本按照每个字来训练,为每个汉字生成一个具有一定维度的向量。字向量可以更好地表达每个汉字的含义,同样可以作为神经网络的输入,用于文本特征提取,成为词向量的一种有效补充。
[0071] 另外,本步骤中所述需要提取关键词的文本,还可以提供语音输入,将用户的语音输入转换成文字,再按照文字指令进行相关信息提取。通过语音指令,快速实现相应功能,对于不方便打字的用户,提供提升用户体验。例如,用户可以选定章节,使用麦克说“本章主题”“主要人物”等内容,系统将语音转换成文本,再进行信息的提取。
[0072] 本实施例中,所述步骤S2中,双向长短期记忆神经网络(BiLSTM)是对长短期神经网络LSTM的改进结构,由三个“门”结构组成,分别叫做输入门、遗忘门、输出门,并将两个方向的结果结合起来作为输出。
[0073] 其中,t时刻的输入门的输出计算公式为:
[0074] it=f(Wixt+Wiht-1+bi)           (1)
[0075] 遗忘门的输出计算公式:
[0076] ft=σ(Wfxt+Wfht-1+bf)            (2)
[0077] 当前时刻状态单元表示:
[0078]
[0079] 前一时刻的状态单元表示:
[0080]
[0081] 输出门的输出计算公式:
[0082] ot=f(Woxt+Woht-1+bo)          (5)
[0083] 当前单元的输出表示为:
[0084] ht=ottanh(Ct)              (6)
[0085] 则两个方向的BilSTM输出可以表示为:
[0086] ht={hti,htj}             (7)
[0087] 公式(1)至(7)中,it,ft,Ct,ot分别表示LSTM神经网络在t时刻的输入门、遗忘门、当前状态单元、输出门的输出函数,W表示当前神经元的权重矩阵,b表示当前神经元的偏置向量,xt为当前输入变量。
[0088] 所述预定的训练目标,包括:人物、人物关系、故事情节、主要内容。本实施例的信息抽取方法,在具有较强提取能力的同时,具有一定的功能扩展性。关键信息抽取可以根据训练目标的不同,分别提取不同类型的信息。比如,如果训练目标是文本的人物关系,则可以将模型的训练目标设置为文本中出现的人名及其关系,利用序列标注模型的特性,完成关系抽取的任务。如果训练目标是这一章节的主要情节,可以将主要情节相关的词语作为训练目标,完成剧情相关的关键信息抽取的任务。
[0089] 所述步骤S3中,注意力机制为:
[0090] 首先定义一个注意力机制的矩阵,将BiLSTM神经网络的输出作为输入,通过非线性变换,得到节点i对节点j的隐含表示eij:
[0091] eij=Vtanh(Whi+Uhj+b)            (8)
[0092] 其中,hi和hj分别表示前向和反向LSTM神经网络的输出,V,W,U是权重矩阵。在n个时间节点中,第i个节点对第j个节点的注意力概率权重可以表示为:
[0093]
[0094] 根据权重,可以计算得到第i个单词的新的输出特征值:
[0095]
[0096] 采用上述方法,同样可以计算第i个单词的新的反向LSTM特征值haj,以及LSTM单元特征值hac,因此,第t个单词具有Attention机制后对应的输出特征为:
[0097] ht={hai,haj}           (11)
[0098] 所述步骤S4中,单词的标签为T,F,分别表示当前单词属于关键词,不属于关键词。这一层可以把之前输出的高维度特征映射到低维度的类别上,并经过softmax分类器计算对应类别的分布概率,表达式为:
[0099] yi=softmax(WcH+bc)           (12)
[0100] H是注意力层的输出,W为权重矩阵,b是偏置向量。训练的时候,目标为最小化损失函数,损失函数为softmax的输出向量和样本的正确标签的交叉熵损失:
[0101] Hy′(y)=-∑iy′ilog(yi)          (13)
[0102] 其中,y′i表示第i个正确标签的值,yi表示softmax的输出向量中的第i个标签的值。通过这一输出层得到第i个单词对应的预测标签。
[0103] 另外,在所述步骤S5,在标签分类层的输出基础上,通过一个预测结果过滤层,结合词向量预测模型和字向量预测模型两种粒度的预测结果,修正以词向量为主的预测模型,提高预测准确率和召回率。为了更好地预测关键词,减轻过拟合的现象,引入字向量模型的训练结果,结合词向量和字向量的预测结果,将二者共同预测的单词作为最终的预测结果。
[0104] 图2所示为所述信息抽取方法过滤结果示意图。如图2所示,以“自然语言处理教学算法”这一文本信息为例进行关键词的提取,经过步骤S2、步骤S3和步骤S4的信息抽取,再通过本步骤的过滤,得到的关键词结果为“自然、语言、处理、算法”。
[0105] 由以上技术方案可以看出,本实施例的所述基于中文小说文本的阅读器信息抽取方法,使用人工智能算法,帮助读者理解文本内容,利用自然语言处理算法,快速的概括出当前章节的主要人物,人物关系,主要情节等,满足了读者需要回顾前面章节的需求;可记录查询历史,方便用户回顾前面的内容,同样的指令不需要重复执行;还可以通过语音指令,快速实现相应功能,对于不方便打字的用户,提供语音输入,提升用户体验。。
[0106] 第二实施例
[0107] 本实施例提供了一种基于中文小说文本的阅读器信息抽取系统,图3所示为所述阅读器信息抽取系统结构示意图。如图3所示,所述系统包括:文本词向量表示层、文本字向量表示层、双向长短期神经网络(BiLSTM)层、注意力机制层、标签分类层、预测结果过滤层、结果输出层。
[0108] 其中,所述文本词向量表示层和文本字向量表示层同时与BiLSTM层相连,用于获取需要提取关键词的文本,并将需要提取关键词的文本分割成以单词为粒度的文本以及以汉字为粒度的文本,将两种文本分别转换为词向量和字向量表示,再分别将词向量和字向量发送给所述BiLSTM层;
[0109] 所述BiLSTM层与所述注意力机制层相连,用于采用所述词向量和字向量训练预定目标下的双向长短期记忆神经网络,提取相应目标下的第一文本特征,并将所述第一文本特征发送给所述注意力机制处理层;
[0110] 所述注意力机制处理层与所述标签分类层相连,用于采用注意力机制对所述第一文本特征进行处理得到第二文本特征,将所述第二文本特征发送给所述标签分类层;
[0111] 所述标签分类层与所述预测结果过滤层相连,用于对所述第二文本特征加注预测标签,并将加注了预测标签的第二文本特征作为预测结果,同时将预测结果发送给预测结果过滤层;
[0112] 所述预测结果过滤层与所述结果输出层相连,用于对所述预测结果进行过滤,在词向量的预测结果中引入字向量预测结果对所述词向量预测结果进行修改,并将修改后的预测结果发送给所述结果输出层,提高预测准确率和召回率。为了更好地预测关键词,减轻过拟合的现象,引入了字向量模型的训练结果,结合词向量和字向量的预测结果,将二者共同预测的单词作为最终的预测结果。
[0113] 所述结果输出层用于输出过滤得到的关键词。
[0114] 特别地,本实施例的阅读器信息抽取系统,还可以包括语音采集层,用于记录用户的语音指令,并根据用户的指令来识别相应的命令,并判断用户的指令是否可以有效识别。对于一些操作不便的用户,通过说出简单的指令来实现相应功能。
[0115] 本实施例中层的概念是物理结构,各层通过CPU或可编辑逻辑控制器实现。同时,信息的存储及具体计算过程通过服务器来完成。
[0116] 本实施例所述基于中文小说文本的阅读器信息抽取系统,是与第一实施例的基于中文小说文本的阅读器信息抽取方法相对的,对所述阅读器信息方法的特征描述,同样适用于本实施例的阅读器信息抽取系统,在此不再赘述。
[0117] 本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模或流程并不一定是实施本发明所必须的。
[0118] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0119] 本领域普通技术人员可以理解:实施例中的装置中的部件可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的部件可以合并为一个部件,也可以进一步拆分成多个子部件。
[0120] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈