首页 / 专利库 / 人工智能 / 语义处理 / 文本信息表征方法、系统及计算机设备、存储介质

文本信息表征方法、系统及计算机设备、存储介质

阅读:651发布:2020-05-08

专利汇可以提供文本信息表征方法、系统及计算机设备、存储介质专利检索,专利查询,专利分析的服务。并且本 发明 属于 人工智能 领域,涉及一种文本信息表征方法、系统及计算机设备、存储介质,所述方法包括:获取待分析语料,对待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,待分析语料为文本信息,文本信息包括至少一条语句;获取待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,将词向量组中的词向量按顺序依次输入初始句向量 算法 模型中,生成对应的语句的初始句向量;将初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,最终句向量用于表征文本信息,其中预训练的句向量模型基于语句的上下文关系来生成。本发明提供的方案可避免词语在不同语句中语义不同所带来的影响,对文本信息的表征更精确。,下面是文本信息表征方法、系统及计算机设备、存储介质专利的具体信息内容。

1.一种文本信息表征方法,其特征在于,包括:
获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;
将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生成。
2.根据权利要求1所述的文本信息表征方法,其特征在于,在所述获取待分析语料之前,所述方法还包括对所述预训练的句向量模型进行模型训练的步骤,其中所述预训练的句向量模型的训练过程包括:
获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息包括至少一条训练语句;
获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的训练语句的初始句向量;
基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
3.根据权利要求2所述的文本信息表征方法,其特征在于,所述基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型包括:
配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层输出层
根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数;
依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到所述训练后的句向量模型。
4.根据权利要求3所述的文本信息表征方法,其特征在于,所述将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量包括:将所述初始句向量输入至所述预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向量。
5.根据权利要求2所述的文本信息表征方法,其特征在于,所述初始的句向量模型为skip-gram模型或者cbow模型。
6.根据权利要求1所述的文本信息表征方法,其特征在于,所述获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量包括:
采用预设的分词算法对所述待分析语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
7.根据权利要求1所述的文本信息表征方法,其特征在于,所述初始句向量算法模型为GRU算法模型。
8.一种文本信息表征系统,其特征在于,包括:
词向量生成模,用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息;所述文本信息包括至少一条语句;
初始句向量生成模块,用于获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;
文本信息表征模块,用于将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基于语句的上下文关系来生成。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至7中任一项所述的文本信息表征方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如权利要求1至7中任一项权利要求所述的文本信息表征方法的步骤。

说明书全文

文本信息表征方法、系统及计算机设备、存储介质

技术领域

[0001] 本发明实施例属于人工智能技术领域,尤其涉及一种文本信息表征方法、系统及计算机设备、存储介质。

背景技术

[0002] 在自然语言处理领域,文本信息表征是解决文本处理问题的基础,而现有技术中一般采用基于Word2Vec的词向量加和平均作为文本信息表征方法,但是同一个词语在不同
句子、不同上下文的语义是不同的,所以基于词向量的文本信息表征是不准确的,不适用信息流推荐领域的文章资讯这类的文本信息的表征。

发明内容

[0003] 有鉴于此,本发明实施例提供一种文本信息表征方法、系统及计算机设备、存储介质,以解决现有技术中基于词向量的文本信息表征不够准确,不适用信息流推荐领域的文章资讯这类的文本信息的表征的问题。
[0004] 第一方面,本发明实施例提供一种文本信息表征方法,包括:
[0005] 获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
[0006] 获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句
的初始句向量;
[0007] 将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生
成。
[0008] 作为本发明可实施的方式,在所述获取待分析语料之前,所述方法还包括对所述预训练的句向量模型进行模型训练的步骤,其中所述预训练的句向量模型的训练过程包
括:
[0009] 获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信息包
括至少一条训练语句;
[0010] 获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的
训练语句的初始句向量;
[0011] 基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
[0012] 作为本发明可实施的方式,所述基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训
练的句向量模型包括:
[0013] 配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层输出层
[0014] 根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句和
至少一条用作生成输出句向量的训练语句,其中K1 和K2为正整数;
[0015] 依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完
成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
[0016] 通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到训练后的句向量模型。
[0017] 作为本发明可实施的方式,所述将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量包括:将所述初始句向量输入至所述预训练的句向量模型,使所
述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信
息的最终句向量。
[0018] 作为本发明可实施的方式,所述初始的句向量模型可为skip-gram模型或者cbow模型。
[0019] 作为本发明可实施的方式,所述连接语料库,对所述语料库中的语料进行分词预处理,得到一组分词,针对得到的所有所述分词分别生成对应的词向量包括:
[0020] 采用预设的分词算法对所述语料库中的语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
[0021] 将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
[0022] 作为本发明可实施的方式,所述初始句向量算法模型为GRU算法模型。
[0023] 第二方面,本发明实施例提供一种文本信息表征系统,包括:
[0024] 词向量生成模,用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息;所述文本信息包括至少一条语句;
[0025] 初始句向量生成模块,用于获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算
法模型中,生成对应的语句的初始句向量;
[0026] 文本信息表征模块,用于将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基
于语句的上下文关系来生成。
[0027] 第三方面,本发明实施例提供一种计算机设备,包括:
[0028] 至少一个处理器;以及,
[0029] 与所述至少一个处理器通信连接的存储器;其中,
[0030] 所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上述的文本信息
表征方法的步骤。
[0031] 第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如上述的
文本信息表征方法的步骤。
[0032] 根据本发明实施例提供的文本信息表征方法、系统及计算机设备、存储介质,通过基于语句的上下文关系来建立预训练的句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所
带来的影响,对文本信息的表征将更加精确。
附图说明
[0033] 为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034] 图1为本发明实施例提供的文本信息表征方法的流程图
[0035] 图2为本发明实施例提供的生成词向量的流程图;
[0036] 图3为本发明实施例提供的GRU算法模型的网络节点的结构示意图;
[0037] 图4为本发明实施例提供的预训练的句向量模型的训练过程的流程图;
[0038] 图5为本发明实施例提供的基于训练语句的上下文关系训练初始的句向量模型的流程图;
[0039] 图6为本发明实施例提供的文本信息表征系统的示意图;
[0040] 图7为本发明实施例提供的文本信息表征系统的另一示意图;
[0041] 图8为本发明实施例提供的模型训练模块的结构示意图;
[0042] 图9为本发明实施例提供的计算机设备的结构框图

具体实施方式

[0043] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0044] 在说明书中的各个位置出现的“实施例”该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0045] 本发明实施例提供一种文本信息表征方法,如图1所示,所述文本信息表征方法包括:
[0046] S1、获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文本信息,所述文本信息包括至少一条语句;
[0047] S2、获取所述待分析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组中词向量按顺序依次输入初始句向量算法模型中,生成对应的
语句的初始句向量;
[0048] S3、将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量,所述最终句向量用于表征文本信息,其中所述预训练的句向量模型基于语句的上下文关系来生成。
[0049] 具体的,在本发明实施例中,步骤S1中的待分析语料可以是来自互联网或者终端设备本地的各种文本信息,其中对于词向量的获取,在本发明一些实施例中,如图2所示,所述获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的
词向量具体可包括:
[0050] S11、采用预设的分词算法对所述待分析语料进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数;
[0051] S12、将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。
[0052] 具体的,S11针对不同的语言可选择不同类型的分词算法,对于中文语料而言,可采用基于字符串匹配的分词方法(机械分词)、基于理解的分词方法和基于统计的分词方
法,具体比如最短路径分词算法、jieba分词算法等,本方案中不作限定。
[0053] 在本实施例中,步骤S12可采用word2vec模型来实现,具体的,将N个分词进行排序并分别用one-hot向量表示,比如“某地交通事故,平安人寿迅速启动特案预赔服务”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,形成9个分词的词库,对这9个分词排序后用one-hot向量表示结果如下:
[0054] 某地→[1,0,0,0,0,0,0,0,0];
[0055] 交通→[0,1,0,0,0,0,0,0,0];
[0056] 事故→[0,0,1,0,0,0,0,0,0];
[0057] 平安人寿→[0,0,0,1,0,0,0,0,0];
[0058] 迅速→[0,0,0,0,1,0,0,0,0];
[0059] 启动→[0,0,0,0,0,1,0,0,0];
[0060] 特案→[0,0,0,0,0,0,1,0,0];
[0061] 预赔→[0,0,0,0,0,0,0,1,0];
[0062] 服务→[0,0,0,0,0,0,0,0,1];
[0063] 上述的one-hot向量的维度与词库中的分词数量N相同,one-hot向量将用作word2vec模型的输入,具体的,结合词库中分词的上下文关系,将一个或者多个分词的one-hot向量输入给word2vec模型,对word2vec模型中初始设置的权重矩阵进行训练优化,根据训练完成后的权重矩阵得到各分词的词向量,具体为将每个分词的one-hot向量与训练完
成后的权重矩阵相乘即得到对应的词向量。
[0064] 在本发明实施例中,对于步骤S2中每条语句的分词的确认,采用与步骤 S1相同的分词预处理方法,以保证分词结果的一致性,所述待分析语料中的语句数量与步骤S2得到
的初始句向量的数量保持一致。
[0065] 关于每条语句的初始句向量的获取,在本发明一种实施例中,所述根据所述词向量组生成对应的语句的初始句向量可包括:对所述词向量组中各词向量进行平均或加权平
均得到对应的语句的初始句向量。其中,对于词向量平均,例如上述“某地交通事故,平安人寿迅速启动特案预赔服务”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,对应9个词向量,直接将这9个词向量中的数值进行平均,生成一个同维的新的向量,即为所述初始句向量;而对于词向量加权平均,每个分词在整个词库中根据出现频率或者重要程度占有一定的权重,比如“某地”、“交通”、“事故”、“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”对应的9个词向量中,“事故”、“平安人寿”、“预赔”这类词在文本表征中需要更加突出其重要性,因此权重要高于其他分词,可根据历史语料中各分词的出现频率来计算分词的权重,并以此权重对每条语句
中各词向量中的数值进行加权平均,生成一个同维的新的向量,即得到对应的初始句向量。
[0066] 作为本发明可实施的方式,所述初始句向量算法模型可为GRU算法模型,下面具体以所述初始句向量算法模型为GRU算法模型为例进行展开说明。GRU 算法是RNN卷积神经网
络中的一种,GRU算法模型级联的网络层包括级联的多个网络节点,各网络节点的结构相
同,具体可参阅图3,所有语句在以一定的顺序存储,假如当前待分析语料包含M条语句,以Si表示第i条语句,i取值范围为1至M,每条语句包含的分词数量为t,t为正整数,用
依次表示语句Si包含的各分词,并以 表示每个分词对应的词向量,比如
“某地交通事故,平安人寿迅速启动特案预赔服务”中包括两个语句,其中第一条语句“某地交通事故”通过步骤S11的分词预处理得到分词:“某地”、“交通”、“事故”,分别以表示,同时以 表示这三个分词的词向量,第二条语句“平安人寿迅速启动特案预赔
服务”通过步骤S11的分词预处理得到分词:“平安人寿”、“迅速”、“启动”、“特案”、“预赔”、“服务”,分别以 表示,同时以 表示这六个分词的词
向量,对于待分析语料中包含的更多语句,则以此类推。这些词向量依次输入GRU算法模型的各网络节点进行处理时,满足如下公式:
[0067]
[0068]
[0069]
[0070]
[0071] GRU算法的网络节点包含更新和重置门,其中更新门的输出为rt,重置门的输出为zt,第t个词的重置门rt与更新门zt由第t个词的词向量与第t-1 步的输出ht得到,而 表示当前所需的信息(待选状态),ht表示当前保存的所有信息;公式中σ和tanh为激活函数,激活函数σ用于将处理结果压缩在0至 1之间,激活函数tanh用于将结果压缩在-1至1之间,以便于后续网络节点的处理;公式中⊙表示Hadamard积,即对应元素乘积。公式中Wr和Ur分别表示输入 和上一网络节点到更新门的连接矩阵;Wz和Uz分别表示输入 和上一网络节
点到重置门的连接矩阵;W和U分别表示输入 和上一网络节点到待选状态 的连接矩阵;
其中,更新门可控制前一网络节点的状态信息被带入到当前网络节点的状态信息中的程
度,zt的值越大前一处理节点的状态信息带入越多,重置门控制忽略前一网络节点的状态
信息的程度,rt值越小说明忽略得越多,通过重置门和更新门可以将所有词向量所包含的
分词信息有效累计至最后的网络节点进行处理,得到包含所有分词信息的结果,即为初始
句向量。
[0072] 在本发明实施例中,对于步骤S3,在所述获取待分析语料之前,所述方法还包括对所述预训练的句向量模型进行模型训练的步骤,其中,如图4所示,所述预训练的句向量模型的训练过程包括:
[0073] S31、获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息集合,所述训练文本信
息包括至少一条训练语句;
[0074] S32、获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对
应的训练语句的初始句向量;
[0075] S33、基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
[0076] 其中,所述的训练语料集可以是由百度百科、维基百科等互联网语料集或者其他网络语料集组成,比如各类资讯网站,通过利用互联网大规模语料集有利于将算法模型的
无监督模型训练转化为有监督模型训练,有效提升本方案中采用的算法模型的效果,所述
训练语料集可以是中文训练语料集或者外文训练语料集,或者是指定语言形成的组合式训
练语料集。
[0077] 在本实施例中,步骤S31中获取训练语句集中语料的分词和分词的词向量的过程与上述步骤S1的过程相同,以保证分词结果的一致性,同样的,步骤S31中获取训练语句的初始句向量的过程与上述S2的处理过程相同,所述训练语料集的语句数量与步骤S32得到
的初始句向量的数量同样保持一致。
[0078] 而对于步骤S33而言,如图5所示,所述基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所
述预训练的句向量模型具体可包括:
[0079] S331、配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的输入层和输出层;
[0080] S332、根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练
语句和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数,K1与K2可以相等,也可以不相等,可以取K1不小于 K2,即训练样本数不小于检验样本数;其中,用作生成输入句向量的训练语句和至用作生成输出句向量的训练语句之间具有上下文关系,比如文本
“我叫 xx,我来自xxx”,其中语句“我叫xx”和语句“我来自xxx”语序上具有先后关系(属于上下文关系),此时“我叫xx”可用作生成输入句向量的语句和“我来自xxx”可用作生成输出句向量的语句。
[0081] S333、依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句
组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;
[0082] S334、通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完成所述初始的句向量模型的训练,得到所述训练后的句向量模型。
[0083] 进一步地,在本发明实施例中,所述将所述初始句向量输入至预训练的句向量模型,获得各语句的最终句向量包括:将所述初始句向量输入至所述预训练的句向量模型,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本
信息的最终句向量。
[0084] 在本实施例中,上述内容中所述初始句向量模型可为skip-gram模型或者cbow模型。具体的,对于skip-gram模型而言,通过输入一条语句来预测与该条语句具有上下文关系的语句,此时所述训练样本和检验样本包含的句组只有一条用作输入的语句;对于cbow
模型而言,通过输入多条语句来预测位于该多条语句中间的一条语句,该条语句与输入的
多条语句具有上下文关系,此时所述训练样本和检验样本包含的句组只有一条用作输出的
语句。在本实施例中,通过训练后的句向量模型对初始句向量进行修正,由于考虑可语句的上下文关系,对文本的表征将更加准确,应用于信息流推送时,对于新闻资讯的标题这类文本信息的表征将更加准确,有利于提升资讯的阅读转化率。
[0085] 根据本发明实施例提供的文本信息表征方法,通过基于语句的上下文关系来建立句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所带来的影响,对文本信息的表征将更加精
确;此外,预训练的句向量模型的训练过程中能够利用互联网大规模语料集,可有效将无监督训练转化为有监督训练,有效提升模型训练效果,从而提高文本信息表征的准确度。
[0086] 本发明实施例提供一种文本信息表征系统,可执行上述实施例提供的文本信息表征方法看,如图6所示,所述文本信息表征系统包括词向量生成模块10、初始句向量生成模块20和文本信息表征模块30,其中,所述词向量生成模块10用于获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量,所述待分析语料为文
本信息;所述文本信息包括至少一条语句;所述初始句向量生成模块20用于获取所述待分
析语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组,对所述词向量组
中词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;所述文
本信息表征模块30用于将所述初始句向量输入至预训练的句向量模型,获得各语句的最终
句向量,所述最终句向量用于表征文本信息;其中所述预训练的句向量模型基于语句的上
下文关系来生成。
[0087] 具体的,在本发明实施例中,所述词向量生成模块10中处理的待分析语料可以是来自互联网或者终端设备本地的各种文本信息。其中对于词向量的获取,在本发明一些实
施例中,所述词向量生成模块10获取待分析语料,对所述待分析语料进行分词预处理,基于得到的分词分别生成对应的词向量时,具体用于:采用预设的分词算法对所述待分析语料
进行分词,对分词结果执行去停用词操作,得到分词数量为N的词库,其中N为正整数,将所述词库中的N个分词输入预设的词向量模型,得到所述N个分词的词向量。具体的,所述词向量生成模块10针对不同的语言可选择不同类型的分词算法,对于中文语料而言,可采用基
于字符串匹配的分词方法(机械分词)、基于理解的分词方法和基于统计的分词方法,具体
比如最短路径分词算法、jieba分词算法等,本方案中不作限定。
[0088] 在本实施例中,所述初始句向量生成模块20可采用word2vec模型来实现句向量的生成,具体的实现过程可参阅上述方法实施例中的相关内容,在此不作展开。此外,所述初始句向量生成模块20对于每条语句的分词的确认,采用与所述词向量生成模块10相同的分
词预处理方法,以保证分词结果的一致性,所述待分析语料中的语句数量与所述初始句向
量生成模块20得到的初始句向量的数量保持一致。
[0089] 关于每条语句的初始句向量的获取,在本发明一种实施例中,所述初始句向量生成模块20根据所述词向量组生成对应的语句的初始句向量时,具体用于:对所述词向量组
中各词向量进行平均或加权平均得到对应的语句的初始句向量。其中,对于加权平均的方
式,每个分词在整个词库中根据出现频率或者重要程度占有一定的权重,以此权重对每天
语句中各词向量进行加权平均,得到对应的初始句向量,词向量平均和词向量加权平均的
处理过程还可以参阅上述方法实施例中相关技术内容,此处不再展开。
[0090] 作为本发明可实施的方式,所述初始句向量生成模块20采用的初始句向量算法模型可为GRU算法模型,对于GRU算法模型的说明可参阅上述方法实施例中的相关内容,在此
不作展开。
[0091] 在本发明实施例中,如图7所示,所述文本信息表征系统还包括模型训练模块40,用于在所述获取待分析语料之前,对所述预训练的句向量模型进行模型训练,其中,如图4所示,所述模型训练模块40训练所述预训练的句向量模型的过程包括:
[0092] 通过所述词向量生成模块10获取训练语料集,对所述训练语料集中的语料进行分词预处理,基于得到的分词分别生成对应的词向量,其中所述训练语料集为训练文本信息
集合,所述训练文本信息包括至少一条训练语句;在通过所述初始句向量生成模块20获取
每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,并将训练语句的词
向量组中的词向量按顺序依次输入所述初始句向量算法模型中,生成对应的训练语句的初
始句向量;最终基于所述训练语料集中的各训练语句对应的上下文关系,将各训练语句对
应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。
[0093] 其中,所述词向量生成模块10获取的训练语料集可以是由百度百科、维基百科等互联网语料集或者其他网络语料集组成,比如各类资讯网站,通过利用互联网大规模语料
集有利于将算法模型的无监督模型训练转化为有监督模型训练,有效提升本方案中采用的
算法模型的效果,所述训练语料集可以是中文训练语料集或者外文训练语料集,或者是指
定语言形成的组合式训练语料集。
[0094] 在本发明实施例中,如图8所示,所述模型训练模块40可包括参数矩阵配置单元41、样本生成单元42、模型训练单元43和模型检验单元44;其中,所述参数矩阵配置单元41用于配置所述初始的句向量模型的参数矩阵,所述参数矩阵连接所述初始的句向量模型的
输入层和输出层;所述样本生成单元 42连接所述词向量生成模块10和初始句向量生成模
块20,用于根据各训练语句对应的上下文关系生成训练样本和检验样本,所述训练样本和
检验样本分别包括K1和K2个句组,每个句组包括至少一条用作生成输入句向量的训练语句
和至少一条用作生成输出句向量的训练语句,其中K1和K2为正整数, K1与K2可以相等,也可以不相等,可以取K1不小于K2,即训练样本数不小于检验样本数;所述模型训练单元43用于依次将所述训练样本中的每个所述句组中的输入句向量输入至所述初始的句向量模型
进行训练,逐步对所述参数矩阵中的参数进行调整,直到所述训练样本中的句组完成训练,使所述初始的句向量模型的输出逐步匹配所述句组中对应的输出句向量;所述模型检验单
元44用于通过所述检验样本对训练之后的所述初始的句向量模型进行检验,检验通过则完
成所述初始的句向量模型的训练,得到所述训练后的句向量模型。
[0095] 进一步地,将所述初始句向量输入所述文本信息表征模块30,使所述待分析语料的初始句向量与所述参数矩阵相乘,得到用于表征所述待分析语料的文本信息的最终句向
量。
[0096] 作为本发明可实施的方式,所述初始句向量模型可为skip-gram模型或者cbow模型。具体的,对于skip-gram模型而言,通过输入一条语句来预测与该条语句具有上下文关系的语句,此时所述训练样本和检验样本包含的句组只有一条用作输入的语句;对于cbow
模型而言,通过输入多条语句来预测位于该多条语句中间的一条语句,该条语句与输入的
多条语句具有上下文关系,此时所述训练样本和检验样本包含的句组只有一条用作输出的
语句。在本实施例中,通过训练后的句向量模型对初始句向量进行修正,由于考虑可语句的上下文关系,对文本的表征将更加准确,应用于信息流推送时,对于新闻资讯的标题这类文本信息的表征将更加准确,有利于提升资讯的阅读转化率。
[0097] 根据本发明实施例提供的文本信息表征系统,通过基于语句的上下文关系来建立句向量模型,进行句子级别的文本信息表征,由于考虑了语句上下文关系,在文本信息的表征过程中能够避免词语在不同语句中语义不同所带来的影响,对文本信息的表征将更加精
确;此外,预训练的句向量模型的训练过程中能够利用互联网大规模语料集,可有效将无监督训练转化为有监督训练,有效提升模型训练效果,从而提高文本信息表征的准确度。
[0098] 本发明实施例还提供一种计算机设备,如图9所示,所述计算机设备包括至少一个处理器71,以及与所述至少一个处理器71通信连接的存储器72,图7中示出一个处理器71,所述存储器72存储有可被所述至少一个处理器 71执行的计算机可读指令,所述计算机可
读指令被所述至少一个处理器71执行,以使所述至少一个处理器71能够执行如上所述的文
本信息表征方法的步骤。
[0099] 具体的,本发明实施例中的存储器72为非易失性计算机可读存储介质,可用于存储计算机可读指令、非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请上述实施例中的文本信息表征方法对应的程序指令/模块;所述处理器71通过运行存储在存
储器72中的非易失性软件程序、计算机可读指令以及模块,从而执行各种功能应用以及进
数据处理,即实现上述方法实施例中所述的文本信息表征方法。
[0100] 在一些实施例中,所述存储器72可以包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需要的应用程序;数据存储区可存储文本信息表征方法的处理过程中所创建的数据等。此外,存储器72 可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;
[0101] 在一些实施例中,存储器72可选包括相对于处理器71远程设置的远程存储器,这些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备,前述网络的实例包括
但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0102] 在本发明实施例中,执行文本信息表征方法的计算机设备还可以包括输入系统73和输出系统74;其中,输入系统73可获取用户在计算机设备上的操作信息,输出系统74可包括显示屏等显示设备。在本发明实施例中,所述处理器71、存储器72、输入系统73和输出系统74可以通过总线或者其他方式连接,图7中以通过总线连接为例。
[0103] 根据本发明实施例提供的计算机设备,通过处理器71执行存储器72中的代码时能够执行上述实施例中文本信息表征方法的步骤,且具有上述方法实施例的技术效果,未在
本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
[0104] 本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时,能够实现如上所述的
文本信息表征方法的步骤,当执行所述方法的步骤时,具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
[0105] 本发明实施例还提供一种计算机程序产品,所述产品可执行本申请方法实施例中所提供的文本信息表征方法,具备执行方法相应的功能模块和有益效果。未在本实施例中
详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
[0106] 需要说明的是,在本发明上述实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0107] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干计算机可读指令用以使得
一台计算机系统(可以是个人计算机,服务器,或者网络系统等)或智能终端设备或处理器
(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(Read- Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0108] 在本发明所提供的上述实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,至少两个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0109] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到至少
两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案
的目的。
[0110] 显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻
全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进
行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他
相关的技术领域,均同理在本发明专利保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈