首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / 一种文本标签提取系统

一种文本标签提取系统

阅读:735发布:2020-05-12

专利汇可以提供一种文本标签提取系统专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种文本标签提取系统。该系统包括:获取模 块 ,用于获取标签库;训练模块,用于利用标签库训练 编码器 ‑ 解码器 模型;提取模块,用于利用所述编码器‑解码器模型提取文本的标签。根据本申请的技术方案,能够生成针对例如文章以及帖子的文本的标签,方便用户通过标签寻找需要的信息。,下面是一种文本标签提取系统专利的具体信息内容。

1.一种文本标签提取系统,其特征在于,该系统包括:
获取模,用于获取标签库,所述标签库为汽车领域的标签库,所述文本为汽车领域的文本;
训练模块,用于利用标签库训练编码器-解码器模型;
提取模块,用于利用所述编码器-解码器模型提取文本的标签;
所述解码器模型将接收的编码器模型的输出按照下式计算:
其中,
Tx为编码模型输入的句子a的长度,atj为输出第t个词语时第j个词语的注意分配系数,hj为第j个词语的语义编码输出, Wa和Va皆为权重矩阵;
获取模块,还用于通过监督学习的方法获取标签库,所述无监督学习的方法为位置排序,其中:
标识的是vi节点的位置排序分值,α是阻尼因子, 为vi的位置偏量,wji是从vj节点到vi节点的权重,Adj(vi)代表的是vi节点的伴随矩阵,O(vj)代表的是vj节点所有出向边的权重和。
2.根据权利要求1所述的系统,其特征在于,所述编码器-解码器模型包括编码器模型和解码器模型;
其中,所述编码器模型和/或解码器模型采用神经网络实现,
所述神经网络为循环神经网络。
3.根据权利要求2所述的系统,其特征在于,所述编码器模型为ht=f(ht-1,xt),其中f()为tanh激励函数,xt为当前层输入,ht为当前层的输出,ht-1为上一层的输出。
4.根据权利要求2或3所述的系统,其特征在于,所述解码器模型为
其中,St-1为当前层的输入,yt-1为上一层的输出,Ct为编码器模型的输出,yt为当前层的输出,St为当前层的输入,g()为SoftMax函数。
5.根据权利要求4所述的系统,其特征在于,所述解码器模型使用注意力机制。
6.根据权利要求1所述的系统,其特征在于,所述标签库为汽车领域的标签库,所述文本为汽车领域的文本。
7.根据权利要求1所述的系统,其特征在于,该系统还包括用户画像模块,用于根据所述标签实现用户画像。

说明书全文

一种文本标签提取系统

技术领域

[0001] 本申请涉及机器学习领域,尤其涉及一种文本标签提取系统。

背景技术

[0002] 对于面向例如汽车、旅游、电影等领域的网站,会存在大量的文章,并且对于网站的论坛,网络用户会发布很多的帖子。为了便于对文章或者帖子进行分类,需要对这些文章或者帖子贴上标签。
[0003] 目前,门户网站的文章或者帖子的标签,是网站编辑根据文章的内容拟定出来,因而是通过人工处理来生成标签。
[0004] 现有技术中对于标签的处理方式,使得标签出现的重复率较高,编辑会尽量使用之前使用过的标签,或者标签的设定与编辑的个人情感过于相关,导致与文章或者帖子的内容不匹配,可能出现标签范围过大或者过小的问题,无法得到精准的标签,也不便于用户搜索,从而难以根据标签进行进一步的应用,例如对用户画像或者向用户推送内容或者广告。发明内容
[0005] 有鉴于此,本申请提出了一种文本标签提取系统,以减少标签提取的难度。
[0006] 根据本申请的一个方面,提出了一种文本标签提取系统,该系统包括:
[0007] 获取模,用于获取标签库;
[0008] 训练模块,用于利用标签库训练编码器-解码器模型;
[0009] 提取模块,用于利用所述编码器-解码器模型提取文本的标签。
[0010] 优选地,获取模块,还用于通过监督学习的方法获取标签库,优选地,所述无监督学习的方法为位置排序。
[0011] 优选地,所述编码器-解码器模型包括编码器模型和解码器模型;
[0012] 其中,所述编码器模型和/或解码器模型采用神经网络实现,
[0013] 优选地,所述神经网络为是循环神经网络。
[0014] 优选地,述编码器模型为ht=f(ht-1,xt),其中f()为tanh激励函数,xt为当前层输入,ht为当前层的输出,ht-1为上一层的输出。
[0015] 优选地,所述解码器模型为
[0016]
[0017] 其中,St-1为这一层的输入,yt-1为上一层的输出,Ct为编码器模型的输出,即为经过编码器得到的语义编码,yt为当前层的输出,St为当前层的输入,g()为SoftMax函数,得到在yt-1,yt-2,…,y1,Ct的语序情形下下一个输出为yt的概率。
[0018] 优选地,所述解码器模型使用注意机制。
[0019] 优选地,所述解码模型将接收的编码模型的输出按照下式计算:
[0020]
[0021] 其中,
[0022]
[0023]
[0024] Tx为编码模型输入的句子a的长度,也就是词语数量。atj为输出第t个词语时第j个词语的注意力分配系数,hj为第j个词语的语义编码输出。注意力分配系数atj是使用SoftMax函数对etj进行归一化,得出每个词语对某一个词语在解码阶段的重要程度,也就是我们更应将注意力放在某些词语上。etj的计算方式如上式, Wa和Va皆为权重矩阵,通过训练得到最佳值。St-1为解码阶段这一层的输入,hj为编码阶段第j个词语的输出。
[0025] 优选地,所述标签库为汽车领域的标签库,所述文本为汽车领域的文本。
[0026] 优选地,该系统还包括用户画像模块,用于根据所述标签实现用户画像。根据本申请的技术方案,能够生成针对例如文章以及帖子的文本的标签,方便用户通过标签寻找需要的信息,并进而根据标签丰富用户的用户画像,方便对用户进行分类,进行针对性的信息推送。此外,还可以通过对热门标签的学习,可以改善冷门的标签,并且热门的标签可以体现出用户关注的热度,为网站的运营者制定战略提供帮助。
[0027] 本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明
[0028] 构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:
[0029] 图1为本申请实施例提供的文本标签提取系统示意图;
[0030] 图2为本申请实施例提供的由词语构成的无向图示例;
[0031] 图3为本申请实施例提供的编码器-解码器模型示意图;
[0032] 图4为本申请实施例的基于注意力机制的编码器-解码器模型示意图。

具体实施方式

[0033] 需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
[0034] 下面将参考附图并结合实施方式来详细说明本申请。
[0035] 图1示出了本申请实施例提供的文本标签提取系统,具体包括:
[0036] 获取模块,用于获取标签库;获取标签的方式在本申请实施例中不做限定,例如可以人工阅读一定数量的文章或者帖子之后确定出标签库,或者利用无监督模式学习的方式来获取标签库,也可以通过其他方式来获取标签库。
[0037] 训练模块,用于利用标签库训练编码器-解码器模型;在获取到标签库以后,可以利用该标签库对编码器-解码器模型进行训练,编码器-解码器模型可以为神经网络实现的模型,例如通过循环神经网络(RNN)实现的模型。
[0038] 提取模块,用于利用所述编码器-解码器模型提取文本的标签;在利用标签库完成对编码器-解码器模型的训练以后,可以利用编码器-解码器模型处理文本,从而实现对标签的提取。
[0039] 文本标签提取系统还包括用户画像模块,用于根据所述标签实现用户画像。
[0040] 优选地,无监督模式学习的方法可以为位置排序(PositionRank)。PositionRank基于页面排序(PageRank)的PositionRank方法。PositionRank方法整合PageRank来计算文章中词语的重要性得分,并且还考虑词语的位置和频率考虑。在PositionRank方法中,首先把文本进行词性标注,将得到的名词和形容词提取出作为候选词,并将候选词构成一个词的无向图,如图2所示,通过词性标注的名词和形容词是无向图的节点。此外,使用一个固定大小窗口对文本分词,如果两个候选词在同一个窗口内,就将这两个词之间用线连接。得到了无向图以后,根据PageRank的原理,对无向图中的每一个节点的得分进行计算:
[0041]
[0042] 在(1)式中,S表示的是PageRank分数矩阵, 代表的是无向图的邻接矩阵,S(t+1)为t+1时刻的分数矩阵,由邻接矩阵 和t时刻分数矩阵相乘得到。
[0043] 其中邻接矩阵 在计算前需要进行归一化操作,矩阵中的值 如下进行计算。mij表示的是无向图中第j个节点对第i个节点的权重,V代表的是无向图,|V|代表的是节点数量,进行归一化得到的就是
[0044]
[0045] 同时为了确保无向图不会陷入图循环,添加了阻尼因子α,同时加入词语的位置偏量 由(1)式改得到(2)式:
[0046]
[0047] 位置偏量 具体计算公式如下:
[0048]
[0049] p1,p2等代表的是词语的初始得分,跟词语在文中出现的位置成反比,和词语频率成正比,若第一个词在文中第5,6,7位置出现,则 p1+p2+…+p|v|代表的是所有词语的总得分,然后用p1除以总得分就能得到第一个词语在所有词语中占的比重,最后得到位置偏量
[0050] 综合上述公式(1)和(2),可以得到如下的公式:
[0051]
[0052] 标识的是vi节点的PositionRank分值,α是阻尼因子, 为vi的位置偏量。是vj节点的PositionRank分值,wji是从vj节点到vi节点的权重,Adj(vi)代表的是vi节点的伴随矩阵,O(vj)代表的是vj节点所有出向边的权重和。
[0053] 通过上述的PositionRank方法,可以得到文本的标签集合。优选地,可以取排名前10的词语列入标签列表。进一步地,查看两两组合是否在原文中有出现过三次或三次以上,如果存在,则把这合成的标签也加入到关键词标签列表中,PositionRank的值是两个标签各自的PositionRank值的和。最终得到的标签列表按照PositionRank值进行从高到低排序,排名前五或者前三的标签可以作为文章、帖子的标签。通过对大量文章和帖子的处理,得多许多的标签,从而获取到标签库。优选地,对于获取到的标签库,还可以进行人工筛查,去除不正确的标签,提高标签库的质量
[0054] 本申请实施例中,利用获取的标签库,通过端到端深度学习的方式来得到文本的标签。例如利用标签库训练编码器-解码器模型。解码器-编码器模型包括解码器模型和编码器模型,一般采用神经网络实现,例如解码器模型和编码器模型中的至少一者可以采用循环神经网络(RNN)来实现。
[0055] 图3示出了编码器-解码器结构示意图,其中编码器模型和解码器模型均采用循环神经网络实现。对于编码器模型,起始的隐藏层接收一个文本输入,得到的结果通过权值计算后和下一层的输入文本结合作为下一个隐藏层的输入,直至编码结束。即某一个状态是和当前输入以及上一个状态有关,可以表达为:
[0056] ht=f(ht-1,xt)
[0057] 在获得了所有状态的信息后,生成的语义编码就是ht,然后ht作为解码RNN的输入。
[0058] 对于解码器模型,某一时刻的隐藏层状态st由上一层状态St-1,yt-1以及语义编码Ct决定:
[0059] St=f(St-1,yt-1,Ct)
[0060] 其中yt是由上一层的输入yt-1、语义编码Ct以及隐藏层状态St决定:
[0061] P(yt|yt-1,yt-2,…,y1,Ct)=g(St,yt-1,Ct)
[0062] 其中,f()和g()都是激励函数,f()为tanh函数,g()为softmax函数。
[0063] 使用单个语义编码ht会用到解码器模型的每一个隐藏层中,在文本足够长的情况下,语义编码ht未必能把所有的信息都保存好,所以在解码阶段,不同层所使用的语义编码应该要有所区分,需要加上注意力(Attention)机制。
[0064] 在解码阶段,每一步解码的语义编码输入都会重新进行计算,根据编码阶段的输出h1,h2,h3…ht进行加权求和,需要根据多层感知(Multi-layer Perception,MLP)模型计算出输出序列t对于每一个输入序列j的隐藏层的对应权重atj,然后对所有隐藏层进行加权平均,最后得到的就是当前状态下的语义编码Ct,公式如下:
[0065]
[0066] 对应权重aij的计算由下式计算:
[0067]
[0068] 其中,etj是MLP模型的输出:
[0069]
[0070] 利用上述的注意力机制,可以将图3中的模型修改为图4所示的模型,其中X1-X6表示输入文本,Y1-Y7表示输出文本,中间箭头集中的部分为编码向量。
[0071] 通过上述方式训练得到编码器-解码器模型以后,可以利用该编码器-解码器模型对大量的文本进行处理,从而提取出文本中的标签。优选地,在提取出标签以后,还可以将该标签加入标签库中,进一步对编码器-解码器模型进行训练,从而进一步增加编码器-解码器的准确性。
[0072] 以汽车领域为例,在利用汽车领域的标签库训练好编码器-解码器模型以后,可以对汽车领域的文本进行标签提取。例如,A汽车公司推出了一款新车型B,并打出广告语:“A公司于XX年XX月XX日重磅推出新车型B”。通过训练好的编码器-解码器模型,可以根据上述广告语进行标签提取。对于标签库而言,A作为标签可以已经存在于标签库中,并且经过训练的编码器-解码器模型还可以提取出新的标签B,从而可以将A和B作为该广告语的标签。进一步地,还可以将提取到的标签B加入到标签库中,用于进一步对编码器-解码器模型进行训练。
[0073] 对于注册用户而言,如果其在例如汽车、旅游、餐饮等门户网站发布了帖子或者文章,还可以利用提取到的标签对其进行画像,得到该用户的用户画像。
[0074] 以上所述仅为本申请的较佳实施方式而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈