首页 / 专利库 / 商业 / 广告网络 / 一种文本信息识别方法及识别装置

一种文本信息识别方法及识别装置

阅读:1027发布:2020-06-01

专利汇可以提供一种文本信息识别方法及识别装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供了一种文本信息识别方法及识别装置,其中方法包括:获取待处理的UGC文本;对UGC文本进行预处理,得到所述UGC文本的笔顺 特征向量 和拼音特征向量;将所述笔顺特征向量和所述拼音特征向量输入预先训练好的文本识别模型中,得到所述UGC文本的目标类型识别结果。本发明实施例能够准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。,下面是一种文本信息识别方法及识别装置专利的具体信息内容。

1.一种文本信息识别方法,其特征在于,所述方法包括:
获取待处理的用户原创内容UGC文本,所述UGC文本中包含汉字;
对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量,其中,所述笔顺特征向量基于所述UGC文本中各汉字的笔顺生成,所述拼音特征向量基于所述UGC文本中各汉字的拼音生成;
将所述笔顺特征向量和所述拼音特征向量输入预先训练好的文本识别模型中,得到所述UGC文本的目标类型识别结果,所述目标类型至少包括:广告类型或者色情类型。
2.根据权利要求1所述的方法,其特征在于,所述对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量的步骤,包括:
提取所述UGC文本中的汉字;
将所提取的汉字组成字级文本,所述字级文本中,各汉字按照在所述UGC文本中的先后顺序排列;
基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量;
基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量的步骤,包括:
从预设的字向量字典中,获取所述字级文本中各汉字的字向量,每个汉字的字向量用以表示该汉字的笔顺特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量的步骤,包括:
将所述字级文本中的各汉字转换为拼音;
将各拼音转化为拼音特征向量。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果所述字级文本的长度大于预设长度,则对所述字级文本进行截取处理,使截取后的字级文本的长度等于预设长度;
如果所述字级文本的长度小于预设长度,则对所述字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
6.根据权利要求1所述的方法,其特征在于,所述文本识别模型的训练过程包括:
构建初始文本识别模型;所述初始文本识别模型包括第一循环神经网络RNN层,第一注意机制处理层,第二RNN层,第二注意力机制处理层,拼接层,以及全连接层,其中,第一RNN层和第一注意力机制处理层用于处理笔顺特征向量,第二RNN层和第二注意力机制处理层用于处理拼音特征向量;
获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取所述样本UGC文本对应的类型标签,所述类型标签包括:广告类型或者色情类型;
将所述样本UGC文本对应的笔顺特征向量和拼音特征向量,以及所述样本UGC文本对应的类型标签输入所述初始文本识别模型,训练得到所述文本识别模型。
7.一种文本信息识别装置,其特征在于,所述装置包括:
第一获取模,用于获取待处理的用户原创内容UGC文本,所述UGC文本中包含汉字;
预处理模块,用于对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量,其中,所述笔顺特征向量基于所述UGC文本中各汉字的笔顺生成,所述拼音特征向量基于所述UGC文本中各汉字的拼音生成;
识别模块,用于将所述笔顺特征向量和所述拼音特征向量输入预先训练好的文本识别模型中,得到所述UGC文本的目标类型识别结果,所述目标类型至少识别装置包括:广告类型或者色情类型。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块,包括:
提取子模块,用于提取所述UGC文本中的汉字;
组成模块,用于将所提取的汉字组成字级文本,所述字级文本中,各汉字按照在所述UGC文本中的先后顺序排列;
第一生成子模块,用于基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量;
第二生成子模块,用于基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量。
9.根据权利要求8所述的装置,其特征在于,所述第一生成子模块,具体用于:
从预设的字向量字典中,获取所述字级文本中各汉字的字向量,每个汉字的字向量用以表示该汉字的笔顺特征。
10.根据权利要求8所述的装置,其特征在于,所述第二生成子模块,具体用于:
将所述字级文本中的各汉字转换为拼音;
将各拼音转化为拼音特征向量。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
截取模块,用于如果所述字级文本的长度大于预设长度,则对所述字级文本进行截取处理,使截取后的字级文本的长度等于预设长度;
补齐模块,用于如果所述字级文本的长度小于预设长度,则对所述字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建模块,用于构建初始文本识别模型;所述初始文本识别模型包括第一循环神经网络RNN层,第一注意力机制处理层,第二RNN层,第二注意力机制处理层,拼接层,以及全连接层,其中,第一RNN层和第一注意力机制处理层用于处理笔顺特征向量,第二RNN层和第二注意力机制处理层用于处理拼音特征向量;
第二获取模块,用于获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取所述样本UGC文本对应的类型标签,所述类型标签包括:广告类型或者色情类型;
训练模块,用于将所述样本UGC文本对应的笔顺特征向量和拼音特征向量,以及所述样本UGC文本对应的类型标签输入所述初始文本识别模型,训练得到所述文本识别模型。
13.一种电子设备,其特征在于,包括处理器、通信接口存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。

说明书全文

一种文本信息识别方法及识别装置

技术领域

[0001] 本发明涉及信息处理技术领域,特别是涉及一种文本信息识别方法及识别装置。

背景技术

[0002] 随着视频播放平台中用户数量快速增加,用户产生的UGC(User Generated Content,用户原创内容)文本也以爆炸式的速度快速增加。例如,视频播放平台中出现的弹幕、评论、直播聊天室内容等UGC文本。伴随海量UGC文本的是充斥其中的不良文本信息,例如,广告、辱骂、色情等信息,这些文本信息往往会降低用户体验,还有可能导致用户财产损失,因此需要在大量的UGC文本中处理这些不良文本信息。
[0003] 目前的不良文本信息识别方法,通常是基于机器学习模型进行识别,具体地,可以预先训练用于识别垃圾UGC文本的机器学习模型,然后将待识别UGC文本输入模型中,得到识别结果。
[0004] 然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:现有的机器学习模型通常基于汉字的文字特征和拼音特征进行识别,但是,不良文本信息中经常出现将词语替换为相近词语以规避识别的情况,例如将“微信”替换为“徽信”,微与徽的含义和拼音均改变,导致目前的神经网络模型难以准确识别出不良文本信息。

发明内容

[0005] 本发明实施例的目的在于提供一种文本信息识别方法及识别装置,实现更加准确地识别出不良UGC文本。具体技术方案如下:
[0006] 第一方面,本发明实施例提供了一种文本信息识别方法,所述方法包括:
[0007] 获取待处理的用户原创内容UGC文本,所述UGC文本中包含汉字;
[0008] 对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量,其中,所述笔顺特征向量基于所述UGC文本中各汉字的笔顺生成,所述拼音特征向量基于所述UGC文本中各汉字的拼音生成;
[0009] 将所述笔顺特征向量和所述拼音特征向量输入预先训练好的文本识别模型中,得到所述UGC文本的目标类型识别结果,所述目标类型至少包括:广告类型或者色情类型。
[0010] 可选的,所述对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量的步骤,包括:
[0011] 提取所述UGC文本中的汉字;
[0012] 将所提取的汉字组成字级文本,所述字级文本中,各汉字按照在所述UGC文本中的先后顺序排列;
[0013] 基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量;
[0014] 基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量。
[0015] 可选的,所述基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量的步骤,包括:
[0016] 从预设的字向量字典中,获取所述字级文本中各汉字的字向量,每个汉字的字向量用以表示该汉字的笔顺特征。
[0017] 可选的,所述基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量的步骤,包括:
[0018] 将所述字级文本中的各汉字转换为拼音;
[0019] 将各拼音转化为拼音特征向量。
[0020] 可选的,所述方法还包括:
[0021] 如果所述字级文本的长度大于预设长度,则对所述字级文本进行截取处理,使截取后的字级文本的长度等于预设长度;
[0022] 如果所述字级文本的长度小于预设长度,则对所述字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
[0023] 可选的,所述文本识别模型的训练过程包括:
[0024] 构建初始文本识别模型;所述初始文本识别模型包括第一循环神经网络RNN层,第一注意机制处理层,第二RNN层,第二注意力机制处理层,拼接层,以及全连接层,其中,第一RNN层和第一注意力机制处理层用于处理笔顺特征向量,第二RNN层和第二注意力机制处理层用于处理拼音特征向量;
[0025] 获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取所述样本UGC文本对应的类型标签,所述类型标签包括:广告类型或者色情类型;
[0026] 将所述样本UGC文本对应的笔顺特征向量和拼音特征向量,以及所述样本UGC文本对应的类型标签输入所述初始文本识别模型,训练得到所述文本识别模型。
[0027] 第二方面,本发明实施例提供了一种文本信息识别装置,所述装置包括:
[0028] 第一获取模,用于获取待处理的用户原创内容UGC文本,所述UGC文本中包含汉字;
[0029] 预处理模块,用于对所述UGC文本进行预处理,得到所述UGC文本的笔顺特征向量和拼音特征向量,其中,所述笔顺特征向量基于所述UGC文本中各汉字的笔顺生成,所述拼音特征向量基于所述UGC文本中各汉字的拼音生成;
[0030] 识别模块,用于将所述笔顺特征向量和所述拼音特征向量输入预先训练好的文本识别模型中,得到所述UGC文本的目标类型识别结果,所述目标类型至少识别装置包括:广告类型或者色情类型。
[0031] 可选的,所述预处理模块,包括:
[0032] 提取子模块,用于提取所述UGC文本中的汉字;
[0033] 组成模块,用于将所提取的汉字组成字级文本,所述字级文本中,各汉字按照在所述UGC文本中的先后顺序排列;
[0034] 第一生成子模块,用于基于所述字级文本中各汉字的笔顺信息生成所述字级文本的笔顺特征向量;
[0035] 第二生成子模块,用于基于所述字级文本中各汉字的拼音信息生成所述字级文本的拼音特征向量。
[0036] 可选的,所述第一生成子模块,具体用于:
[0037] 从预设的字向量字典中,获取所述字级文本中各汉字的字向量,每个汉字的字向量用以表示该汉字的笔顺特征。
[0038] 可选的,所述第二生成子模块,具体用于:
[0039] 将所述字级文本中的各汉字转换为拼音;
[0040] 将各拼音转化为拼音特征向量。
[0041] 可选的,所述装置还包括:
[0042] 截取模块,用于如果所述字级文本的长度大于预设长度,则对所述字级文本进行截取处理,使截取后的字级文本的长度等于预设长度;
[0043] 补齐模块,用于如果所述字级文本的长度小于预设长度,则对所述字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
[0044] 可选的,所述装置还包括:
[0045] 构建模块,用于构建初始文本识别模型;所述初始文本识别模型包括第一循环神经网络RNN层,第一注意力机制处理层,第二RNN层,第二注意力机制处理层,拼接层,以及全连接层,其中,第一RNN层和第一注意力机制处理层用于处理笔顺特征向量,第二RNN层和第二注意力机制处理层用于处理拼音特征向量;
[0046] 第二获取模块,用于获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取所述样本UGC文本对应的类型标签,所述类型标签包括:广告类型或者色情类型;
[0047] 训练模块,用于将所述样本UGC文本对应的笔顺特征向量和拼音特征向量,以及所述样本UGC文本对应的类型标签输入所述初始文本识别模型,训练得到所述文本识别模型。
[0048] 在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文本信息识别方法。
[0049] 在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文本信息识别方法。
[0050] 本发明实施例提供的一种文本信息识别方法及识别装置,获取UGC文本后,通过对UGC文本进行预处理,从而得到UGC文本的笔顺特征向量和拼音特征向量,再将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型,从而得到UGC文本的目标类型识别结果,例如,识别为广告类型或者色情类型。由于本发明实施例的文本信息识别方法能够基于汉字的笔顺特征进行识别,因此即使UGC文本中的汉字被替换为字形相近的字,也能够基于相近字的笔顺特征,准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明
[0051] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0052] 图1为本发明实施例提供的文本信息识别方法的一种流程示意图;
[0053] 图2为本发明实施中步骤S120的一种流程示意图;
[0054] 图3为将汉字(或词)拆解为n元笔顺的示意图;
[0055] 图4为本发明实施中步骤S1204的一种流程示意图;
[0056] 图5为本发明实施中文本识别模型的训练过程流程示意图;
[0057] 图6为本发明实施的文本识别模型的一种结构示意图;
[0058] 图7为本发明实施例提供的文本信息识别装置的一种结构示意图;
[0059] 图8为本发明实施例中预处理模块的一种结构示意图;
[0060] 图9为本发明实施例提供的文本信息识别装置的另一种结构示意图;
[0061] 图10为本发明实施例提供的文本信息识别装置的再一种结构示意图;
[0062] 图11为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

[0063] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
[0064] 目前的不良文本信息识别方法,除了利用机器学习模型进行识别外,还可以通过关键词匹配进行识别,但是仍然存在下列问题,例如:添加关键词通常伴随着大量的人工操作,词的误伤较大,传统机器学习模型泛化能力不强,黑产为了避开关键词经常变更字形、字音,传统识别方法维护成本很高。因此如何减少特征抽取并且更加精准地识别不良文本信息成为亟待解决的问题。
[0065] 有鉴于此,本发明实施例提供了一种文本信息识别方法,在获取UGC文本后,通过对UGC文本进行预处理,从而得到UGC文本的笔顺特征向量和拼音特征向量,再将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型,从而得到UGC文本的目标类型识别结果,例如,识别为广告类型或者色情类型。由于本发明实施例的文本信息识别方法能够基于汉字的笔顺特征进行识别,因此即使UGC文本中的汉字被替换为字形相近的字,也能够基于相近字的笔顺特征,准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。
[0066] 下面首先对本发明实施例所提供的一种文本信息识别方法进行说明。
[0067] 本发明实施例提供的一种文本信息识别方法,如图1所示,该方法可以包括以下步骤:
[0068] S110,获取待处理的UGC文本。
[0069] UGC文本可以是用户在使用视频播放客户端中相应功能时产生的,例如,在观看视频时产生的弹幕内容,在聊天室产生的聊天内容,在影评时产生的评论内容等。可以理解,这些内容通常为用户原创,因此可以称之为UGC文本,并且上述UGC文本中可以包含汉字。
[0070] 本发明实施例中,电子设备可以获取上述UGC文本,并将这些UGC文本进行进一步处理。
[0071] S120,对UGC文本进行预处理,得到UGC文本的笔顺特征向量和拼音特征向量。
[0072] 为了从UGC文本中提取特征,即,为了得到UGC文本的笔顺特征向量和拼音特征向量,本发明实施例可以对UGC文本进行预处理。一般而言,每个汉字都可以用横、竖、撇、捺、折这五个笔画来表示,将这五个笔画分别编号为1,2,3,4,5,则每一汉字就可以表示为一串数字,如“微”的笔画信息就可以表示为“3322521353134”,而“徴”就可以表示为“33225211213134”,从中可以明显看出这两个字有着很高的相似度。每个汉字也均可以以拼音的形式表示,例如,微的拼音为wēi,徽的拼音为huī。也就是说,笔顺特征向量可以基于UGC文本中各汉字的笔顺生成,拼音特征向量可以基于UGC文本中各汉字的拼音生成,本发明实施例的预处理过程,可以是将UGC文本中的各汉字转化为笔顺特征向量和拼音特征向量的过程。
[0073] 现有技术中,通常是基于汉字本身的文字特征和拼音特征进行识别,因而无法对字形相近的汉字进行有效识别,而本发明实施例正是由于发明人研究发现,字形相近的字之间的笔顺特征具有很高的相似度,因此才想到利用汉字的笔顺特征对UGC文本进行识别。
[0074] S130,将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型中,得到UGC文本的目标类型识别结果。
[0075] 本发明实施例中,可以将UGC文本的笔顺特征向量和拼音特征向量共同输入预先训练好的文本识别模型中,利用该模型得到UGC文本的目标类型识别结果。
[0076] 所说的目标类型识别结果,可以是希望得到的分类结果,例如,色情类型或者非色情类型,广告类型或者非广告类型。当然,除所举的例子所示的实现方式以外,实现该特征的方式均属于本发明实施例的保护范围。
[0077] 作为本发明实施例一种可选的实施方式,如图2所示,上述步骤S120具体可以包括:
[0078] S1201,提取UGC文本中的汉字。
[0079] 由于UGC文本中可能还包括表情符号、字母等非汉字信息,因此可以先将UGC文本中的汉字提取出,例如,对于一条UGC文本:爱,爱,微,丷,《哥你要》换全扌并茵shi wei xin幼ぁめ㊣/[母]→「嘿→/休→男→童/跳→蛋,所提取的汉字为:爱,爱,微,丷,哥,你,要,换,全,扌,并,茵,幼,母,嘿,休,男,童,跳,蛋。可见,经提取后得到的是纯汉字文本,从而避免非汉字内容对提取特征向量时的干扰。
[0080] S1202,将所提取的汉字组成字级文本。
[0081] 对于上述提取的汉字,可以以字级的形式构成字级文本,例如构成:[爱,爱,微,丷,哥,你,要,换,全,扌,并,茵,幼,母,嘿,休,男,童,跳,蛋],该字级文本中各汉字的顺序可以按照它们在UGC文本中的先后顺序排列。
[0082] S1203,基于字级文本中各汉字的笔顺信息生成字级文本的笔顺特征向量。
[0083] 字级文本中的每个汉字均携带有笔顺信息,因此可利用各汉字的笔顺信息生成字级文本的笔顺特征向量。
[0084] 作为本发明实施例一种可选的实施方式,在现有的Skip-Gram模型(Skip-Gram模型是Word2vec模型的一种,Word2vec模型是谷歌2013年提出的词嵌入模型)的基础上,可以将词语的n元笔顺(n-gram)信息输入Skip-Gram模型进行训练,接着计算每一个n元笔画和上下文词语的相似度,最后根据损失函数求梯度并对上下文词向量和n元笔画进行更新,对Skip-Gram模型进行训练,从而利用训练好的Skip-Gram模型生成汉字的字向量。也即是说,通过训练好的Skip-Gram模型,可以得到汉字与其笔顺的映射关系。
[0085] 如图3所示,以“治理雾霾刻不容缓”为例说明:可以先假设当前词语“雾霾”,则上下文词语为“治理”和“刻不容缓”,然后将雾霾拆解为n元笔顺并映射为数字编码,得到n元笔顺的数字编码后,接着计算每一个n元笔画和上下文词语的相似度,最后根据损失函数求梯度并对上下文词向量和n元笔画进行更新,这一过程结束后,即可得到每个汉字的字向量,该向量维度为128维,可以将其构造为字向量字典供后续使用。
[0086] 得到汉字的字向量后,便可以生成字级文本的笔顺特征向量,容易理解,字级文本的字数是根据UGC文本中的汉字个数而定的,因此如果将字级文本中的每个汉字对应一个维度,则由于不同字级文本中含有不同个数的汉字,会导致所生成的笔顺特征向量的维数不同,不利于后续处理。
[0087] 作为本发明实施例一种可选的实施方式,如果字级文本的长度大于预设长度,则可以对字级文本进行截取处理,使截取后的字级文本的长度等于预设长度。
[0088] 例如,得到的字级文本的长度为130字,假设预长度为128字,则可以将字级文本的长度截取为128字,使之与预设长度相同。截取时,可以按照汉字在字级文本中的先后顺序进行截取。
[0089] 如果字级文本的长度小于预设长度,则可以对字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
[0090] 例如,得到的字级文本的长度为120字,假设预设长度为128字,则可以将该字级文本补齐至128个字,使之与预设长度相同。补齐时,字级文本中不足128字的部分可以用预设汉字补齐。
[0091] 作为本发明实施例一种可选的实施方式,可以将字级文本进行ID(identification,身份标识)化处理。
[0092] 具体地,可以将字级文本中的各汉字转化为对应的索引ID,再通过各汉字的索引ID在字向量字典中获得各汉字的字向量,从而得到拼音特征向量。其中,字向量字典中可以预先保存多个汉字的索引ID以及各汉字对应的字向量,索引ID用于确认汉字在字向量字典中的位置。也就是说,本发明实施例可以从预设的字向量字典中获取字级文本中各汉字的字向量,而不需要重复计算字级文本中每个汉字的字向量,提高处理速度。
[0093] S1204,基于字级文本中各汉字的拼音信息生成字级文本的拼音特征向量。
[0094] 字级文本中的每个汉字均携带有拼音特征信息,因此可利用各汉字的拼音特征信息生成字级文本的拼音特征向量。
[0095] 作为本发明实施例一种可选的实施方式,可以在字级文本中的各汉字经ID化处理后,再进行截取或补齐操作,例如,字级文本:[爱,爱,微,丷,哥,你,要,换,全,扌,并,茵,幼,母,嘿,休,男,童,跳,蛋],经ID化处理后为:[42,42,118,48,130,13,52,39,117,21,349,135,114,152,275,535,98,162,550,163],然后补齐为预设长度:[42,42,118,48,130,
13,52,39,117,21,349,135,114,152,275,535,98,162,550,163,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。其中,不足预设长度的部分可以用0补充。
[0096] 作为本发明实施例一种可选的实施方式,如图4所示,步骤S1204可以包括以下步骤:
[0097] S12041,将字级文本中的各汉字转换为拼音。
[0098] S12042,将所得拼音转化为拼音特征向量。
[0099] 示例性地,可以将上述示例中的字级文本转换为拼音形式:[ài,ài,wēi,bā,gē,nǐ,yào,huàn,quán,shǒu,bìng,yīn,yòu,mǔ,hēi,xiū,nán,tóng,tiào,dàn],各个汉字的拼音含有声调,然后再将各拼音进行ID化处理,再进一步随机初始化为一个128维的拼音特征向量。
[0100] 作为本发明实施例一种可选的实施方式,如图5所示,文本识别模型的训练过程可以包括:
[0101] S210,构建初始文本识别模型。
[0102] 本发明实施例中,可以采用TensorFlow构建初始文本识别模型。TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现。如图6所示,文本识别模型可以包括两个RNN层、两个注意力机制处理(Attention)层,一个拼接(Concatenate)层,以及一个全连接层。
[0103] 其中,两个RNN层是指第一RNN层和第二RNN层,第一RNN层用于处理笔顺特征向量,第二RNN层用于处理拼音特征向量。
[0104] 每个RNN层中包含一套独立双向LSTM(Long Short-Term Memory,长短期记忆网络)层,每套双向LSTM层中又可以包含两个子层:第一子层和第二子层,其中,第一子层有
128个输出单元,第二子层有256个输出单元,第二子层以第一子层的输出为输入,经过双向拼接后可以得到一个1×512的矩阵。采用双向LSTM的原因是为了同时提供过去和未来的上下文信息,从而提供更强大的特征表达能力。
[0105] 图6中,Wi表示笔顺特征向量;Pi表示拼音特征向量; 表示LSTM正向隐层状态;表示LSTM反向隐层状态;uW表示注意力Attention矩阵;ui表示注意力Attention向量;αi表示注意力Attention权重;VW表示采用笔顺特征表示的句向量;VP表示采用拼音特征表示的句向量,其中i={1,2,……,T},T可以指模型的预设维度。
[0106] 两个注意力机制处理层是指第一注意力机制处理层和第二注意力机制处理层,第一注意力机制处理层用于处理笔顺特征向量,第二注意力机制处理层层用于处理拼音特征向量。
[0107] 注意力(Attention)机制起到对齐的作用,因此可以衡量输出结果与输入数据中每个词的匹配程度,注意力机制处理过程可以通过一个MLP(Multiple Layer Perceptron,多层感知机)结合Softmax操作得到,其输出结果为一个1×128的矩阵,表示输入数据中的
128个字在输出中的权重,将该权重与每个输入(即RNN层的输出)相乘便可以得到字级文本的编码表示。
[0108] 笔顺特征向量和拼音特征向量经过两套独立的注意力机制处理过程,可以得到两组1×512的矩阵。然后,将池化得到的两组1×512矩阵进行拼接,即可得到1024维的向量,再采用Sigmoid函数作为激活函数,进行二分类,即得到目标分类结果。需要说明的是,图6仅为本发明实施例文本识别模型的一个示例性示意图。
[0109] S220,获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取样本UGC文本对应的类型标签。
[0110] 可以从例如聊天室聊天内容、影评等功能中获取人工标注数据,构建样本数据集,即样本UGC文本,然后提取各样本UGC文本对应的笔顺特征向量和拼音特征向量以及样本UGC文本对应的类型标签,类型标签可以包括:广告类型或者色情类型,这些都可以通过人工标注得到。
[0111] S230,将样本UGC文本对应的笔顺特征向量和拼音特征向量,以及样本UGC文本对应的类型标签输入初始文本识别模型,训练得到文本识别模型。
[0112] 本发明实施例中,可以将样本UGC文本对应的笔顺特征向量和拼音特征向量,以及样本UGC文本对应的类型标签输入初始文本识别模型,对初始文本识别模型进行训练,其中,笔顺特征向量可以由Skip-Gram模型得到,在训练过程中保持不变;拼音向量随机初始化,并可以在训练过程中动态调整,从而实现以特定任务为导向生成适合当前任务的词向量空间。
[0113] 为了验证本发明实施例的BiLSTM-Attention模型的识别效果,分别从泡泡feed(一个社交平台),影评,聊天室抽取人工标注的样本UGC文本数据,构建数据集。数据集分布如下表1所示。
[0114] 表1样本UGC文本数据集分布
[0115]类别 训练集 测试集
色情 95万 1.3万
非色情 370万 56万
[0116] 采用LR(Logistics Regression,逻辑回归模型)、LSTM(Long Short-Term Memory,长短期记忆网络)模型、BiCNN(一种神经网络模型)模型作为基准模型,采用本发明实施例的BiLSTM-Attention模型作为对比,试验结果如表4所示。
[0117] 表2各文本信息识别模型的识别准确率
[0118]模型 色情P@1.3W(万) 色情R@1.3W(万)
LR 0.809 0.788
LSTM 0.758 0.767
BiCNN 0.846 0.880
本发明实施例 0.891 0.880
[0119] 根据表2可知,本发明实施例的文本信息识别方法对于不良UGC文本的识别准确率更高,因此能够更加准确地识别出不良UGC文本。
[0120] 本发明实施例提供的一种文本信息识别方法,获取UGC文本后,通过对UGC文本进行预处理,从而得到UGC文本的笔顺特征向量和拼音特征向量,再将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型,从而得到UGC文本的目标类型识别结果,例如,识别为广告类型或者色情类型。由于本发明实施例的文本信息识别方法能够基于汉字的笔顺特征进行识别,因此即使UGC文本中的汉字被替换为字形相近的字,也能够基于相近字的笔顺特征,准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。
[0121] 相应于方法实施例,本发明实施例还提供了一种针对儿童的内容推送装置,与图1所示流程对应,如图7所示,该装置包括:
[0122] 第一获取模块301,用于获取待处理的用户原创内容UGC文本,UGC文本中包含汉字。
[0123] 预处理模块302,用于对UGC文本进行预处理,得到UGC文本的笔顺特征向量和拼音特征向量,其中,笔顺特征向量基于UGC文本中各汉字的笔顺生成303,拼音特征向量基于UGC文本中各汉字的拼音生成。
[0124] 识别模块304,用于将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型中,得到UGC文本的目标类型识别结果,目标类型至少识别装置包括:广告类型或者色情类型。
[0125] 作为本发明实施例一种可选的实施方式,如图8所示,预处理模块302可以包括:
[0126] 提取子模块3021,用于提取UGC文本中的汉字。
[0127] 组成模块3022,用于将所提取的汉字组成字级文本,字级文本中,各汉字按照在UGC文本中的先后顺序排列。
[0128] 第一生成子模块3023,用于基于字级文本中各汉字的笔顺信息生成字级文本的笔顺特征向量。
[0129] 第二生成子模块3024,用于基于字级文本中各汉字的拼音信息生成字级文本的拼音特征向量。
[0130] 作为本发明实施例一种可选的实施方式,第一生成子模块具体可以用于:
[0131] 从预设的字向量字典中,获取字级文本中各汉字的字向量,每个汉字的字向量用以表示该汉字的笔顺特征。
[0132] 作为本发明实施例一种可选的实施方式,第二生成子模块具体可以用于:
[0133] 将字级文本中的各汉字转换为拼音;将各拼音转化为拼音特征向量。
[0134] 作为本发明实施例一种可选的实施方式,在图7所示装置的基础上,如图9所示,本发明实施例的文本信息识别装置还可以包括:
[0135] 截取模块401,用于如果字级文本的长度大于预设长度,则对字级文本进行截取处理,使截取后的字级文本的长度等于预设长度。
[0136] 补齐模块402,用于如果字级文本的长度小于预设长度,则对字级文本进行补齐处理,使补齐后的字级文本的长度等于预设长度。
[0137] 作为本发明实施例一种可选的实施方式,在图7所示装置的基础上,如图10所示,本发明实施例的文本信息识别装置还可以包括:
[0138] 构建模块501,用于构建初始文本识别模型;初始文本识别模型包括第一循环神经网络RNN层,第一注意力机制处理层,第二RNN层,第二注意力机制处理层,拼接层,以及全连接层,其中,第一RNN层和第一注意力机制处理层用于处理笔顺特征向量,第二RNN层和第二注意力机制处理层用于处理拼音特征向量。
[0139] 第二获取模块502,用于获取样本UGC文本对应的笔顺特征向量和拼音特征向量,并获取样本UGC文本对应的类型标签,类型标签包括:广告类型或者色情类型。
[0140] 训练模块503,用于将样本UGC文本对应的笔顺特征向量和拼音特征向量,以及样本UGC文本对应的类型标签输入初始文本识别模型,训练得到文本识别模型。
[0141] 本发明实施例提供的一种文本信息识别装置,获取UGC文本后,通过对UGC文本进行预处理,从而得到UGC文本的笔顺特征向量和拼音特征向量,再将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型,从而得到UGC文本的目标类型识别结果,例如,识别为广告类型或者色情类型。由于本发明实施例的文本信息识别方法能够基于汉字的笔顺特征进行识别,因此即使UGC文本中的汉字被替换为字形相近的字,也能够基于相近字的笔顺特征,准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。
[0142] 本发明实施例还提供了一种电子设备,如图11所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线
604完成相互间的通信;
[0143] 存储器603,用于存放计算机程序;
[0144] 处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
[0145] 获取待处理的用户原创内容UGC文本,UGC文本中包含汉字;
[0146] 对UGC文本进行预处理,得到UGC文本的笔顺特征向量和拼音特征向量,其中,笔顺特征向量基于UGC文本中各汉字的笔顺生成,拼音特征向量基于UGC文本中各汉字的拼音生成;
[0147] 将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型中,得到UGC文本的目标类型识别结果,目标类型至少包括:广告类型或者色情类型。
[0148] 本发明实施例提供的一种电子设备,获取UGC文本后,通过对UGC文本进行预处理,从而得到UGC文本的笔顺特征向量和拼音特征向量,再将笔顺特征向量和拼音特征向量输入预先训练好的文本识别模型,从而得到UGC文本的目标类型识别结果,例如,识别为广告类型或者色情类型。由于本发明实施例的文本信息识别方法能够基于汉字的笔顺特征进行识别,因此即使UGC文本中的汉字被替换为字形相近的字,也能够基于相近字的笔顺特征,准确识别出UGC文本的目标类型,从而能够更加准确地识别出不良UGC文本。
[0149] 上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线数据总线、控制总线等。
为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0150] 通信接口用于上述电子设备与其他设备之间的通信。
[0151] 存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0152] 上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific 
Integrated Circuit,简称ASIC)、现场可编程阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0153] 在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本信息识别方法。
[0154] 在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本信息识别方法。
[0155] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0156] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0157] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0158] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈