文本指定信息的主体确定方法、装置及计算机存储介质
技术领域
[0001] 本文涉及计算机技术,尤指一种文本指定信息的主体确定方法、装置及存储介质。
背景技术
[0002] 负面信息主体判定任务是网络舆情监控工作中的一项常见应用。其目的在于给定待分析文本,判定该文本中是否包含负面信息,如果包含负面信息同时给出该负面信息所涉及主体的名称(或者在原文中的
位置)。
[0003] 现有统计学习方法耗费大量成本在人工特征构建上,这不但耗时费
力,并且会导致模型在已被编码的特征以外的新模式上缺少泛化能力。
[0004] 现有统计学习使用
深度神经网络的方法通过对主体识别和负面判定进行联合学习避免了人工特征构建的繁琐过程,然而该方法需要大量精确的序列标注样本,例如:使用序列标注,该方法需要在标注阶段对待分析文本的每一个字符进行人工标注,例如
附图2中的:“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字”对应的标注为“B I I I I I I I I I I I I I I O O O O O O O O O O O O O O O”,此阶段标注量等于输入文本的字符串总长度。
发明内容
[0005] 本
申请提供了一种文本指定信息的主体确定方法、装置及存储介质,能够达到减少人工标注并且降低成本的目标。
[0006] 本申请提供一种文本指定信息的主体确定方法,包括:对目标文本进行分词;对每个分词进行
词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果确定至少一个候选主体;分别根据所确定的每个候选主体对所述目标文本划分,得到每个候选主体各自对应的样本;获取每条样本的向量V,并输入预先训练好的第一神经网络,以确定是否存在具有所述指定信息的样本;当确定存在具有所述指定信息的样本时,则所述样本对应的候选主体为存在所述指定信息的主体。
[0007] 在一个示例性
实施例中,上述获取每条样本的向量V包括:对每一条所得到的样本分别进行如下操作:根据该样本的候选主体的位置进行拆分得到第一子句A和第二子句B;其中所述第一子句A的长度为从该样本的开始位置到所述候选主体开始的位置;所述第二子句B的长度为从所述候选主体开始的位置到该样本结束的位置;对所述第一子句A和第二子句B中对应所述目标文本的每个分词进行向量化,分别获得所述第一子句A的实值矩阵MA和第二子句B实值矩阵MB;将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入第二神经网络对所述第一子句A和第二子句B进行编码,获取该样本的向量V。
[0008] 在一个示例性实施例中,上述将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入第二神经网络对所述第一子句A和第二子句B进行编码,获取该样本的向量V,包括:将第一子句A的实值矩阵MA和第二子句实值矩阵MB输入预先训练好的第二神经网络,对所述第一子句A和第二子句B进行编码,获得第一子句A的编码向量为VA和第二子句B的编码向量VB;将所获得的向量VA和VB进行拼接,得到该样本的向量V。
[0009] 在一个示例性实施例中,上述对所述第一子句A和第二子句B进行编码包括:对所述第一子句A从前向后编码和第二子句B从后向前编码。
[0010] 在一个示例性实施例中,上述方法还包括:统计存在所述指定信息的样本所对应的主体并进行合并输出。
[0011] 在一个示例性实施例中,上述根据每个分词的词性标注结果确定至少一个候选主体,包括:当所述分词的词性标注结果为专有名词或者与专有名词组成的词组时,则确定为候选主体。
[0012] 本申请也提供一种文本指定信息的主体确定装置,包括:词性标注模
块,用于对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;确定模块,用于根据每个分词的词性标注结果确定至少一个候选主体;样本划分模块,用于分别根据所确定的每个候选主体对所述目标文本划分,得到每个候选主体各自对应的样本;向量获取及分析模块,用于获取每条样本的向量V,并输入预先训练好的第一神经网络,以确定是否存在具有所述指定信息的样本;当确定存在具有所述指定信息的样本时,则所述样本对应的候选主体为存在所述指定信息的候选主体。
[0013] 在一个示例性实施例中,上述向量获取及分析模块,用于获取每条样本的向量V是指:向量获取模块用于将每一条所得到的样本分别进行如下操作:根据该样本的候选主体的位置进行拆分得到第一子句A和第二子句B;其中所述第一子句A的长度为从该样本的开始位置到所述候选主体开始的位置;所述第二子句B的长度为从所述候选主体开始的位置到该样本结束的位置;对所述第一子句A和第二子句B中对应所述目标文本的每个分词进行向量化,分别获得所述第一子句A的实值矩阵MA和第二子句B实值矩阵MB;将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入第二神经网络对所述第一子句A和第二子句B进行编码,获取该样本的向量V。
[0014] 本申请还提供一种定向投放内容的装置,包括处理器和
存储器,所述存储器中存储有用于定向投放内容的程序;所述处理器用于读取所述用于定向投放内容的程序,执行上述任一项所述的方法。
[0015] 本申请还提供一种计算机存储介质,其上存储有
计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的方法。
[0016] 与相关技术相比,本申请能够通过目标文本进行分词及词性标注后获取候选主体不需要人工编码特征,节约人工成本,同时在使用足够数据量训练的前提下,本方法具备更好的泛化能。
[0017] 本申请的其它特征和优点将在随后的
说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、
权利要求书以及附图中所描述的方案来实现和获得。
附图说明
[0018] 附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0019] 图1为本申请实施例文本指定信息的主体确定方法
流程图;
[0020] 图2为本申请实施例文本指定信息的主体确定示例图;
[0021] 图3为本申请实施例文本指定信息的主体确定模块图。
具体实施方式
[0022] 本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
[0023] 本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种
修改和改变。
[0024] 此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
[0025] 下面将结合附图及实施例对本申请的技术方案进行更详细的说明。
[0026] 如图1所示,本发明实施例提供一种文本指定信息的主体确定方法,包括如下步骤:
[0027] S1、对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;
[0028] S2、根据每个分词的词性标注结果确定至少一个候选主体;
[0029] S3、分别根据所确定的每个候选主体对所述目标文本划分,得到每个候选主体各自对应的样本;
[0030] S4、获取每条样本的向量V,并输入预先训练好的第一神经网络,以确定是否存在具有所述指定信息的样本;当确定存在具有所述指定信息的样本时,则所述样本对应的候选主体为存在所述指定信息的主体。
[0031] 在一个示例性实施例中,第一神经网络为
前馈神经网络。
[0032] 分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。词性标注(Part-Of-Speech tagging,POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本
数据处理技术。
[0033] 如图2所示,“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城
证券。”这句话作为目标文本,进行分词与词性标注,结果如图2所示,其中NR表示专有名词;NN表示其他名词;JJ表示形容词或序数词;PN表示代词;VV表示动词等等,这些为计算机词性标注的常用缩写,在此不再赘述。本实施例采用的是stanford CoreNLP标注体系进行词性标注。
[0034] 在一个示例性实施例中,步骤S2中,所述根据每个分词的词性标注结果确定至少一个候选主体,包括:当所述分词的词性标注结果为专有名词或者与专有名词组成的词组时,则确定为候选主体。
[0035] 示例性的,根据词性标注的结果,对于专有名词:NR、其他名词:NN相邻组合而形成的词组(组合方式包括但不局限于:NRNN,NNNR等)作为负面信息的候选主体。例如图2所示,根据标注结果,将“知识城证券”、“广州特色“和“广州开发区金融控股集团”作为候选主体,因此应当划分三条样本。本实施例中每条样本内容相同,均为“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”。
[0036] 在一个示例性实施例中,步骤S4中,所述获取每条样本的向量V包括:对每一条所得到的样本分别进行如下操作:
[0037] S41、根据该样本的候选主体的位置进行拆分得到第一子句A和第二子句B;其中所述第一子句A的长度为从该样本的开始位置到所述候选主体开始的位置;所述第二子句B的长度为从所述候选主体开始的位置到该样本结束的位置;
[0038] S42、对所述第一子句A和第二子句B中对应所述目标文本的每个分词进行向量化,分别获得所述第一子句A的实值矩阵MA和第二子句B实值矩阵MB;
[0039] S43、将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入第二神经网络对所述第一子句A和第二子句B进行编码,获取该样本的向量V。
[0040] 在一个示例性实施例中,步骤S43中,所述将对所述第一子句A和第二子句B进行编码包括:
[0041] S431、对所述第一子句A和第二子句B进行编码,获得第一子句A的编码向量为VA和第二子句B的编码向量VB;
[0042] S432、将所获得的向量VA和VB进行拼接,得到该样本的向量V。
[0043] 在一个示例性实施例中,步骤S431中,所述将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入预先训练好的第二神经网络,对所述第一子句A和第二子句B进行编码,还包括:
[0044] 第一子句A的实值矩阵MA和第二子句实值矩阵MB输入预先训练好的第二神经网络,对所述第一子句A从前向后编码和第二子句B从后向前编码。
[0045] 示例性的,第二神经网络为循环神经网络,包括但不局限于RNN、GRU、LSTM等。
[0046] 如图2所示,“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”这句话,以“广州特色的名字”作为候选主体举例,则对应的A子句为“广州开发区金融控股集团有限公司为其想了一个颇具。”;B子句为“广州特色的名字:知识城证券。”。进而,通过查询上述目标文本的每个词的预训练词向量,使用实值向量作为该词或词组的表示,从而获得每条样本中A、B两个子句的实值矩阵表示,记为矩阵MA和MB。由于候选主体可能由多个名词组合得到,当出现查不到词向量的情况时,应使用词组包含的多个词所对应词向量的平均值以代替。
[0047] 将获得的MA和MB输入循环神经网络分别对第一子句A从前向后,对第二子句B从后向前编码,再将所得各自编码经注意力机制组合变换到新的语义空间,用以捕获具有长距离依赖关系的句中。获得第一子句A与子第二句B的编码向量为VA和VB。
[0048] 将得到的
特征向量VA和VB进行拼接,获得整个样本的向量表示V。将V输入前馈神经网络,使用Softmax作为
输出层的激活函数。输出层输出三个不同的实数值,分别代表:标签1(存在涉及该实体的负面信息);标签-1(不存在负面信息或不涉及该实体);标签0(该候选词组不构成实体)。通过比较三个实数值大小,选择其中最大的实数值所对应的标签作为最终判定结果。”
[0049] 例如“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”这句话,以“广州特色的名字”举例,此步骤应当输出标签0;而以“知识城证券”为例则应输出标签-1。
[0050] 在一个示例性实施例中,上述文本指定信息的主体确定方法还包括步骤:S5、统计存在所述指定信息的样本所对应的主体并进行合并输出。
[0051] 示例性的,将每条待分析文本拆分所得样本进行汇总,假设目标文本中,有两个或者两个以上存在负面信息的主体,则将这两个或两个以上主体共同作为结果输出。
[0052] 例如“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”这句话,此步骤应输出的结果为:{text:“广州开发区金融控股集团有限公司为其想了一个颇具广州特色的名字:知识城证券。”,label:-1,entity:“广州开发区金融控股集团有限公司|知识城证券”,negative_entity:””}。
[0053] 如图3所示,本发明实施例还提供一种文本指定信息的主体确定装置,包括如下模块:
[0054] 词性标注模块10,用于对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;
[0055] 确定模块20,用于根据每个分词的词性标注结果确定至少一个候选主体;
[0056] 样本划分模块30,用于分别根据所确定的每个候选主体对所述目标文本划分,得到每个候选主体各自对应的样本;
[0057] 向量获取及分析模块40,用于获取每条样本的向量V,并输入预先训练好的第一神经网络,以确定是否存在具有所述指定信息的样本;当确定存在具有所述指定信息的样本时,则所述样本对应的候选主体为存在所述指定信息的主体。
[0058] 向量获取及分析模块40,用于获取每条样本的向量V是指:向量获取模块用于对每一条所得到的样本分别进行如下操作:
[0059] 向量获取及分析模块40,根据该样本的候选主体的位置进行拆分得到第一子句A和第二子句B;其中所述第一子句A的长度为从该样本的开始位置到所述候选主体开始的位置;所述第二子句B的长度为从所述候选主体开始的位置到该样本结束的位置;
[0060] 向量获取及分析模块40,对所述第一子句A和第二子句B中对应所述目标文本的每个分词进行向量化,分别获得所述第一子句A的实值矩阵MA和第二子句B实值矩阵MB;
[0061] 向量获取及分析模块40,将第一子句A的实值矩阵MA和第二子句的实值矩阵MB输入第二神经网络对所述第一子句A和第二子句B进行编码,获取该样本的向量V。
[0062] 本发明还提供一种定向投放内容的装置,包括处理器和存储器,所述存储器中存储有用于定向投放内容的程序;所述处理器用于读取所述用于定向投放内容的程序,执行上述任一项所述的方法。
[0063] 本发明还提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现执行上述任一项所述的方法。
[0064] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为
软件、
固件、
硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字
信号处理器或
微处理器执行的软件,或者被实施为硬件,或者被实施为集成
电路,如
专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机
访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。