首页 / 专利库 / 人工智能 / 情感计算 / 基于深度学习的卫星互联网文本敏感信息检测方法及装置

基于深度学习的卫星互联网文本敏感信息检测方法及装置

阅读:297发布:2020-05-11

专利汇可以提供基于深度学习的卫星互联网文本敏感信息检测方法及装置专利检索,专利查询,专利分析的服务。并且本公开 实施例 公开了一种基于 深度学习 的卫星互联网文本敏感信息检测方法及装置,所述基于深度学习的卫星互联网文本敏感信息检测方法包括对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中,所述情感倾向类型包括第一倾向类型和第二倾向类型;基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本 摘要 。本公开实施例将敏感词检测和情感倾向分类结合,减少对目标文本的误判,并通过神经网络模型将内容较长的目标文本变成内容较短的目标文本摘要,有效地提高了敏感信息检测的准确度和效率。,下面是基于深度学习的卫星互联网文本敏感信息检测方法及装置专利的具体信息内容。

1.一种基于深度学习的卫星互联网文本敏感信息检测方法,其特征在于,包括:
对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中,所述情感倾向类型包括第一倾向类型和第二倾向类型;
基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行敏感词检测,确定所述目标文本中的敏感词,包括:
对所述目标文本进行非文字信息处理,清除所述目标文本中的非文字信息,获取第一处理目标文本,所述非文字信息包括符号和格式标记;
根据确定有穷自动机算法确定所述第一处理目标文本中的所述敏感词;
记录所述敏感词在所述第一处理目标文本中的位置
3.根据权利要求1所述的方法,其特征在于,所述FastText模型的训练过程包括:
获取第一训练样本,所述第一训练样本包括第一训练文本样本及其对应的评估值;
基于所述第一训练样本训练所述FastText模型,获取训练好的所述FastText模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,包括:
将所述敏感词的上下文进行分词,获取所述敏感词的上下文分词;
根据第一预设词表,将所述敏感词的上下文分词转换为敏感词的上下文分词数字,其中,第一预设词表为词汇与数字的1:1映射表;
将所述敏感词的上下文分词数字输入至已训练好的所述FastText模型中,获取所述敏感词的上下文分词数字所对应的评估值;
当所述敏感词的上下文分词数字所对应的评估值大于或等于预设阈值时,将所述目标文本确定为所述第一倾向类型;
当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将所述目标文本确定为所述第二倾向类型。
5.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括编码模型和解码模型,其中,所述编码模型包括Bert模型,所述解码模型包括Transformer模型。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型的训练过程包括:
获取第二训练样本,所述第二训练样本包括第二训练文本样本和第二训练文本摘要样本;
基于所述第二训练样本训练所述Transformer模型,获取训练好的所述Transformer模型。
7.根据权利要求5所述的方法,其特征在于,所述基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要,包括:
将所述第二倾向类型的所述目标文本进行分词,获取所述目标文本分词;
根据第二预设词表,将所述目标文本分词转换为所述目标文本数字,其中,所述第二预设词表为字符与数字的1:1映射词表;
将所述目标文本数字输入至预训练的所述Bert模型,获取所述目标文本的第一向量;
将所述目标文本的第一向量输入至已训练好的所述Transformer模型,获取所述目标文本的第二向量;
根据所述第二预设词表,将所述目标文本的第二向量转换为所述目标文本字符;
基于所述目标文本字符生成所述目标文本摘要。
8.根据权利要求1所述的方法,其特征在于,还包括:
将所述第二倾向类型的所述目标文本及所述目标文本摘要存储在预设数据库中,以便于根据所述目标文本摘要确定所述目标文本是否为违禁内容。
9.一种基于深度学习的卫星互联网文本敏感信息检测装置,其特征在于,包括:
第一确定模,被配置为对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
第二确定模块,被配置为基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
生成模块,被配置为基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
10.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。

说明书全文

基于深度学习的卫星互联网文本敏感信息检测方法及装置

技术领域

[0001] 本公开涉及自然语言处理技术领域,具体涉及一种基于深度学习的卫星互联网文本敏感信息检测方法及装置。

背景技术

[0002] 卫星互联网是指基于卫星通信系统,以互联网协议地址(IP)为网络服务平台,以互联网应用为服务对象,能够成为互联网的一个组成部分,并能够独立运行的网络系统。目前国外的商用卫星互联网快速发展,具有运营平台部署在国外、传输网络没有明显物理边界等特点,这加剧了卫星网络的管控难度。管控卫星互联网最佳的方式不是阻止其连接,而是有选择地对其进行阻断或限速,因此,要求对其传输的文本信息进行分析,在不影响用户正常使用的前提下,检测卫星互联网传输的敏感信息。
[0003] 敏感信息检测是指通过一定的方法将卫星互联网中的文本或信息流中的敏感信息进行定位并提取出来,以识别目标文本中或信息流中是否存在敏感信息。敏感信息检测是网络舆情管理的重要技术。从传统的关键词筛查到语义筛查,敏感信息检测方法的研究取得到了很大的进展。
[0004] 尽管敏感信息检测方法的研究得到了很大的进展,但是,由于卫星互联网中的文本信息的复杂性,仍然有很多问题有待解决。敏感信息检测的挑战主要包括几个方面:(1)对于存在敏感词的文本,不能仅仅通过包含敏感词就判断其包括不良信息,还需要结合敏感词的上下文语义才能判别文本的意图,否则会造成误判;(2)对于内容较多的文本,且与敏感词相关联的上下文较长,通过传统的自然语言处理方法很难判断其语义,为了减少误判,需要人工介入判断;(3)人工介入判断的成本过高,由于对于长文本,人工阅读时间较长,严重影响判断效率。因此,如何提高卫星互联网中的敏感信息检测的准确度和效率是亟待解决的问题。发明内容
[0005] 为了解决相关技术中的问题,本公开实施例提供一种基于深度学习的卫星互联网文本敏感信息检测方法及装置。
[0006] 第一方面,本公开实施例中提供了一种基于深度学习的卫星互联网文本敏感信息检测方法。
[0007] 具体地,所述基于深度学习的卫星互联网文本敏感信息检测方法,包括:
[0008] 对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0009] 基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中,所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0010] 基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要
[0011] 可选地,所述对目标文本进行敏感词检测,确定所述目标文本中的敏感词,包括:
[0012] 对所述目标文本进行非文字信息处理,清除所述目标文本中的非文字信息,获取第一处理目标文本,所述非文字信息包括符号和格式标记;
[0013] 根据确定有穷自动机算法确定所述第一处理目标文本中的所述敏感词;
[0014] 记录所述敏感词在所述第一处理目标文本中的位置
[0015] 可选地,所述FastText模型的训练过程包括:
[0016] 获取第一训练样本,所述第一训练样本包括第一训练文本样本及其对应的评估值;
[0017] 基于所述第一训练样本训练所述FastText模型,获取训练好的所述FastText模型。
[0018] 可选地,所述基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,包括:
[0019] 将所述敏感词的上下文进行分词,获取所述敏感词的上下文分词;
[0020] 根据第一预设词表,将所述敏感词的上下文分词转换为敏感词的上下文分词数字,其中,第一预设词表为词汇与数字的1:1映射表;
[0021] 将所述敏感词的上下文分词数字输入至已训练好的所述FastText模型中,获取所述敏感词的上下文分词数字所对应的评估值;
[0022] 当所述敏感词的上下文分词数字所对应的评估值大于或等于预设阈值时,将所述目标文本确定为所述第一倾向类型;
[0023] 当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将所述目标文本确定为所述第二倾向类型。
[0024] 可选地,所述神经网络模型包括编码模型和解码模型,其中,所述编码模型包括Bert模型,所述解码模型包括Transformer模型。
[0025] 可选地,所述神经网络模型的训练过程包括:
[0026] 获取第二训练样本,所述第二训练样本包括第二训练文本样本和第二训练文本摘要样本;
[0027] 基于所述第二训练样本训练所述Transformer模型,获取训练好的所述Transformer模型。
[0028] 可选地,所述基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要,包括:
[0029] 将所述第二倾向类型的所述目标文本进行分词,获取所述目标文本分词;
[0030] 根据第二预设词表,将所述目标文本分词转换为所述目标文本数字,其中,所述第二预设词表为字符与数字的1:1映射词表;
[0031] 将所述目标文本数字输入至预训练的所述Bert模型,获取所述目标文本的第一向量;
[0032] 将所述目标文本的第一向量输入至已训练好的所述Transformer模型,获取所述目标文本的第二向量;
[0033] 根据所述第二预设词表,将所述目标文本的第二向量转换为所述目标文本字符;
[0034] 基于所述目标文本字符生成所述目标文本摘要。
[0035] 可选地,还包括:
[0036] 将所述第二倾向类型的所述目标文本及所述目标文本摘要存储在预设数据库中,以便于根据所述目标文本摘要确定所述目标文本是否为违禁内容。
[0037] 第二方面,本公开实施例中提供了一种基于深度学习的卫星互联网文本敏感信息检测装置。
[0038] 具体地,所述基于深度学习的卫星互联网文本敏感信息检测装置,包括:
[0039] 第一确定模,被配置为对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0040] 第二确定模块,被配置为基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0041] 生成模块,被配置为基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
[0042] 可选地,所述对目标文本进行敏感词检测,确定所述目标文本中的敏感词,包括:
[0043] 对所述目标文本进行非文字信息处理,清除所述目标文本中的非文字信息,获取第一处理目标文本,所述非文字信息包括符号和格式标记;
[0044] 根据确定有穷自动机算法确定所述第一处理目标文本中的所述敏感词;
[0045] 记录所述敏感词在所述第一处理目标文本中的位置。
[0046] 可选地,所述FastText模型的训练过程包括:
[0047] 获取第一训练样本,所述第一训练样本包括第一训练文本样本及其对应的评估值;
[0048] 基于所述第一训练样本训练所述FastText模型,获取训练好的所述FastText模型。
[0049] 可选地,所述基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,包括:
[0050] 将所述敏感词的上下文进行分词,获取所述敏感词的上下文分词;
[0051] 根据第一预设词表,将所述敏感词的上下文分词转换为敏感词的上下文分词数字,其中,第一预设词表为词汇与数字的1:1映射表;
[0052] 将所述敏感词的上下文分词数字输入至已训练好的所述FastText模型中,获取所述敏感词的上下文分词数字所对应的评估值;
[0053] 当所述敏感词的上下文分词数字所对应的评估值大于或等于预设阈值时,将所述目标文本确定为所述第一倾向类型;
[0054] 当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将所述目标文本确定为所述第二倾向类型。
[0055] 可选地,所述神经网络模型包括编码模型和解码模型,其中,所述编码模型包括Bert模型,所述解码模型包括Transformer模型。
[0056] 可选地,所述神经网络模型的训练过程包括:
[0057] 获取第二训练样本,所述第二训练样本包括第二训练文本样本和第二训练文本摘要样本;
[0058] 基于所述第二训练样本训练所述Transformer模型,获取训练好的所述Transformer模型。
[0059] 可选地,所述基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要,包括:
[0060] 将所述第二倾向类型的所述目标文本进行分词,获取所述目标文本分词;
[0061] 根据第二预设词表,将所述目标文本分词转换为所述目标文本数字,其中,所述第二预设词表为字符与数字的1:1映射词表;
[0062] 将所述目标文本数字输入至预训练的所述Bert模型,获取所述目标文本的第一向量;
[0063] 将所述目标文本的第一向量输入至已训练好的所述Transformer模型,获取所述目标文本的第二向量;
[0064] 根据所述第二预设词表,将所述目标文本的第二向量转换为所述目标文本字符;
[0065] 基于所述目标文本字符生成所述目标文本摘要。
[0066] 可选地,还包括:
[0067] 存储模块,被配置为将所述第二倾向类型的所述目标文本及所述目标文本摘要存储在预设数据库中,以便于根据所述目标文本摘要确定所述目标文本是否为违禁内容。
[0068] 第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
[0069] 对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0070] 基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0071] 基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
[0072] 根据本公开实施例提供的技术方案,通过对目标文本进行敏感词检测,确定目标文本中的敏感词,并基于敏感词的上下文,利用已训练好的FastText模型确定目标文本的情感倾向类型,其中,情感倾向类型包括第一倾向类型和第二倾向类型,然后基于第二倾向类型的目标文本,利用已训练好的神经网络模型生成目标文本摘要。本公开实施例将敏感词检测和情感倾向分类结合,可以减少对目标文本的误判和漏判,并通过神经网络模型将具有第二倾向类型的目标文本生成目标文本摘要,从而将内容较长的目标文本变成内容较短的目标文本摘要,有效地提高了卫星互联网中敏感信息检测的准确度和效率。
[0073] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明
[0074] 结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
[0075] 图1示出根据本公开实施例的基于深度学习的卫星互联网文本敏感信息检测方法的流程图
[0076] 图2示出根据本公开的实施例的对目标文本进行敏感词检测,确定所述目标文本中的敏感词的流程图;
[0077] 图3示出根据本公开的实施例的FastText模型的训练过程的流程图;
[0078] 图4示出根据本公开的实施例的基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型的流程图;
[0079] 图5示出根据本公开的实施例的神经网络模型的训练过程的流程图;
[0080] 图6示出根据本公开的实施例的基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要的流程图;
[0081] 图7示出根据本公开的实施例的基于深度学习的卫星互联网文本敏感信息检测装置的结构框图
[0082] 图8示出根据本公开的实施例的电子设备的结构框图;
[0083] 图9示出适于用来实现根据本公开实施例的基于深度学习的卫星互联网文本敏感信息检测方法的计算机系统的结构示意图。

具体实施方式

[0084] 下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
[0085] 在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
[0086] 另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0087] 图1示出根据本公开实施例的基于深度学习的卫星互联网文本敏感信息检测方法的流程图。如图1所示,所述基于深度学习的卫星互联网文本敏感信息检测方法包括以下步骤S101-S103:
[0088] 在步骤S101中,对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0089] 在步骤S102中,基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中,所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0090] 在步骤S103中,基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
[0091] 根据本公开的实施例,卫星互联网舆情管理中需要检测互联网中的目标文本是否包括不良信息,其中,目标文本可以为通过卫星互联网传输的文本,可以建立一个敏感词库,其中,敏感词库包括多个敏感词,本公开对具体的敏感词不做具体限定,可以根据需要进行设定。可以对目标文本进行敏感词检测,即确定该目标文本中是否出现了敏感词库中的敏感词,若目标文本没有出现任何敏感词,可以将该目标文本标识上第一标识(例如“否”);若目标文本出现了敏感词库中的任意一个敏感词,可以将该目标文本标识上第二标识(例如“是”)。
[0092] 根据本公开的实施例,对于具有第二标识的目标文本,即存在敏感词的目标文本,不能仅仅通过包含敏感词就判断目标文本包括不良信息,还需要结合敏感词的上下文语义来判别目标文本的意图,本公开对上下文不做具体限定,例如,可以为目标文本中包括敏感词的一句话或者一段话。确定敏感词的上下文之后,可以利用已训练好的FastText模型确定敏感词的上下文的情感倾向类型,从而确定目标文本的情感倾向类型,其中,情感倾向类型包括第一倾向类型和第二倾向类型。当通过FastText模型确定敏感词的上下文的情感倾向类型为第一倾向类型时,可以确定目标文本的情感倾向类型为第一倾向类型,且将该目标文本标识上第三标识(例如“违禁文本”);当通过FastText模型确定敏感词的上下文的情感倾向类型为第二倾向类型时,可以确定目标文本的情感倾向类型为第二倾向类型,且将该目标文本标识上第四标识(例如“待定文本”)。
[0093] 根据本公开的实施例,对于具有第四标识的目标文本,即第二倾向类型的目标文本,由于通过上述步骤不能确定该目标文本是否包括不良信息,且该目标文本的内容较长,可以利用已训练好的神经网络模型将第二倾向类型的目标文本生成目标文本摘要,从而将内容较长的目标文本变成内容较短的目标文本摘要,以便于后续仅根据该目标文本摘要确定目标文本是否包括不良信息。
[0094] 根据本公开实施例提供的技术方案,通过对目标文本进行敏感词检测,确定目标文本中的敏感词,并基于敏感词的上下文,利用已训练好的FastText模型确定目标文本的情感倾向类型,其中,情感倾向类型包括第一倾向类型和第二倾向类型,然后基于第二倾向类型的目标文本,利用已训练好的神经网络模型生成目标文本摘要。本公开实施例将敏感词检测和情感倾向分类结合,可以减少对目标文本的误判和漏判,并通过神经网络模型将具有第二倾向类型的目标文本生成目标文本摘要,从而将内容较长的目标文本变成内容较短的目标文本摘要,有效地提高了卫星互联网中敏感信息检测的准确度和效率。
[0095] 图2示出根据本公开的实施例的对目标文本进行敏感词检测,确定所述目标文本中的敏感词的流程图。如图2所示,所述步骤S101,包括以下步骤S201-S203:
[0096] 在步骤S201中,对所述目标文本进行非文字信息处理,清除所述目标文本中的非文字信息,获取第一处理目标文本,所述非文字信息包括符号和格式标记;
[0097] 在步骤S202中,根据确定有穷自动机算法确定所述第一处理目标文本中的所述敏感词;
[0098] 在步骤S203中,记录所述敏感词在所述第一处理目标文本中的位置。
[0099] 根据本公开的实施例,为了避免在对目标文本进行敏感词检测过程中出现的干扰信息,可以对目标文本进行非文字信息处理获取第一处理目标文本,例如,可以清除目标文本中的非文字信息,其中,非文字信息可以包括符号和格式标记等。
[0100] 根据本公开的实施例,可以根据确定有穷自动机算法确定第一处理目标文本中是否包括敏感词库中的敏感词,例如,假设敏感词库中包括的一个敏感词为ABC,可以构建ABC的敏感词树结构为:A→B→C;在第一处理目标文本中检测字符A,若没有检测到字符A,可以判断第一处理目标文本中不包括敏感词ABC;当检测到了字符A之后,可以进一步检测字符B,若没有检测到字符B,可以判断第一处理目标文本中不包括敏感词ABC;当检测到字符B之后,可以进一步检测字符C,若没有检测到字符C,可以判断第一处理目标文本中不包括敏感词ABC;若检测到了字符C,可以判断第一处理目标文本中包括敏感词ABC。
[0101] 根据本公开的实施例,当在第一处理目标文本中检测出敏感词库中的敏感词之后,可以确定该敏感词在第一处理目标文本中的位置,从而确定该敏感词在目标文本中的位置,以便于根据敏感词在目标文本中的位置获取敏感词在目标文本中的上下文。
[0102] 图3示出根据本公开的实施例的FastText模型的训练过程的流程图。如图3所示,所述FastText模型的训练过程,包括以下步骤S301-S302:
[0103] 在步骤S301中,获取第一训练样本,所述第一训练样本包括第一训练文本样本及其对应的评估值;
[0104] 在步骤S302中,基于所述第一训练样本训练所述FastText模型,获取训练好的所述FastText模型。
[0105] 根据本公开的实施例,本公开对获取第一训练样本的具体方法不做具体限定,例如,可以通过公开数据库中获取第一训练样本,其中,第一训练样本包括多个第一训练文本样本及其对应的评估值,第一训练样本与目标文本可以处于相同领域,也可以处于不同领域,评估值可以为第一训练文本样本的情感倾向值。为了提高FastText模型的准确度,可以使获取的第一训练样本与目标文本处于相同领域,例如,在娱乐网络舆情管理中,当目标文本为娱乐领域文本时,可以从娱乐微博信息中获取10万条第一训练文本样本,并标注出每一条第一训练文本样本对应的评估值,其中,评估值的取值为0或1,情感倾向为积极(例如,赞美或褒奖)的第一训练文本样本的评估值标注为1,情感倾向为消极(例如,批评或指责)的标注为0,然后基于10万条第一训练文本样本及其对应的评估值训练FastText模型,确定FastText模型中的各个参数从而获取训练好的FastText模型。
[0106] 根据本公开的实施例,在训练FastText模型时,针对每一条第一训练文本样本,可以利用分词工具对第一训练文本样本进行分词获取第一训练文本样本分词,并基于所有第一训练文本样本分词生成第一预设词表,其中,第一预设词表为词汇与数字的1:1映射表,第一预设词表中的词汇可以包括对第一训练文本样本进行分词后所获取的词汇。由于不同领域的网络舆情管理中所获取的第一训练文本样本不同,因此,针对不同领域可以生成不同词汇的第一预设词表,也可以让第一预设词表包括所有领域的词汇。获取第一训练文本样本分词之后,可以基于生成的第一预设词表将第一训练文本样本分词转换为第一训练文本样本分词数字,从而使FastText模型的输入为第一训练文本样本分词数字。
[0107] 图4示出根据本公开的实施例的基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型的流程图。如图4所示,所述步骤S102,包括以下步骤S401-S405:
[0108] 在步骤S401中,将所述敏感词的上下文进行分词,获取所述敏感词的上下文分词;
[0109] 在步骤S402中,根据第一预设词表,将所述敏感词的上下文分词转换为敏感词的上下文分词数字,其中,第一预设词表为词汇与数字的1:1映射表;
[0110] 在步骤S403中,将所述敏感词的上下文分词数字输入至已训练好的所述FastText模型中,获取所述敏感词的上下文分词数字所对应的评估值;
[0111] 在步骤S404中,当所述敏感词的上下文分词数字所对应的评估值大于或等于预设阈值时,将所述目标文本确定为所述第一倾向类型;
[0112] 在步骤S405中,当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将所述目标文本确定为所述第二倾向类型。
[0113] 根据本公开的实施例,利用分词工具对敏感词的上下文进行分词,获取敏感词的上下文分词,本公开对分词工具不做具体限定,例如,可以为jieba分词器。
[0114] 根据本公开的实施例,获取敏感词的上下文分词之后,可以根据训练FastText模型时所生成的第一预设词表,将敏感词的上下文分词转换为敏感词的上下文分词数字。例如,假设将敏感词的上下文进行分词之后,获取的敏感词的上下文分词为D1、D2、D3、D4和D5,且D1、D2、D3、D4和D5在第一预设词表中对应的数字分别为:5076、185、3725、2045和204,可以获取敏感词的上下文分词数字为[5076、185、3725、2045、204]。
[0115] 根据本公开的实施例,当将敏感词的上下文分词数字输入至已训练好的FastText模型中,FastText模型的输出为敏感词的上下文分词数字所对应的评估值,当敏感词的上下文分词数字所对应的评估值大于或等于预设阈值(例如可以为0.7)时,将目标文本确定为第一倾向类型,即该目标文本为违禁文本;当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将目标文本确定为第二倾向类型,即该目标文本为待定文本。例如,假设目标文本1的敏感词的上下文分词数字输入至FastText模型获取的评估值为0.9,则目标文本1为违禁文本;假设目标文本2的敏感词的上下文分词数字输入至FastText模型获取的评估值为0.3,则目标文本1为待定文本。
[0116] 根据本公开的实施例,所述神经网络模型包括编码模型和解码模型,其中,所述编码模型包括Bert模型,所述解码模型包括Transformer模型。Bert模型是一种自然语言识别模型,其核心架构包括预设层数的转换器,各个转换器可以基于注意机制对文本信息进行特征提取,以及对文本信息进行编码,即将文本转换为向量。由于Bert模型为预训练的模型,本公开实施例直接运用预训练的Bert模型,不对该预训练Bert模型进行训练。同时,Bert模型在预训练的过程中生成了第二预设词表,其中,第二预设词表为字符与数字的1:1映射表,字符可以为单个汉字。
[0117] 图5示出根据本公开的实施例的神经网络模型的训练过程的流程图。如图5所示,所述神经网络模型的训练过程,包括以下步骤S501-S502:
[0118] 在步骤S501中,获取第二训练样本,所述第二训练样本包括第二训练文本样本和第二训练文本摘要样本;
[0119] 在步骤S502中,基于所述第二训练样本训练所述Transformer模型,获取训练好的所述Transformer模型。
[0120] 根据本公开的实施例,本公开对获取第二训练样本的具体方法不做具体限定,例如,可以通过公开数据库中获取第二训练样本,其中,第二训练样本包括多个第二训练文本样本及其对应的第二训练文本摘要样本。然后基于第二训练文本样本及其对应的第二训练文本摘要样本训练Transformer模型,确定Transformer模型中的各个参数从而获取训练好的Transformer模型。
[0121] 根据本公开的实施例,在训练Transformer模型时,针对每一条第二训练文本样本和第二训练文本摘要样本,可以将第二训练文本样本和第二训练文本摘要样本进行分词,获取第二训练文本样本分词和第二训练文本摘要样本分词,其中,第二训练文本样本分词和第二训练文本摘要样本分词为单个汉字;并根据Bert模型预训练的过程中所生成的第二预设词表将第二训练文本样本分词和第二训练文本摘要样本分词转换为第二训练文本样本数字和第二训练文本摘要样本数字;然后将第二训练文本样本数字输入至预训练的Bert模型,获取第二训练文本样本的第一样本向量,其中,第一样本向量为768维向量,并将第一样本向量输入至待训练的Transformer模型,即神经网络模型的输入为Bert模型的输入,Bert模型的输出为Transformer模型的输入,Transformer模型的输出为神经网络模型的输出,即对于训练好的神经网络模型,当输入文本时,可以输出文本对应的摘要。
[0122] 图6示出根据本公开的实施例的基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要的流程图。如图6所示,所述步骤S103,包括以下步骤S601-S606:
[0123] 在步骤S601中,将所述第二倾向类型的所述目标文本进行分词,获取所述目标文本分词;
[0124] 在步骤S602中,根据第二预设词表,将所述目标文本分词转换为所述目标文本数字,其中,所述第二预设词表为字符与数字的1:1映射词表;
[0125] 在步骤S603中,将所述目标文本数字输入至预训练的所述Bert模型,获取所述目标文本的第一向量;
[0126] 在步骤S604中,将所述目标文本的第一向量输入至已训练好的所述Transformer模型,获取所述目标文本的第二向量;
[0127] 在步骤S605中,根据所述第二预设词表,将所述目标文本的第二向量转换为所述目标文本字符;
[0128] 在步骤S606中,基于所述目标文本字符生成所述目标文本摘要。
[0129] 根据本公开的实施例,将第二倾向类型的目标文本进行分词,获取目标文本分词,其中,目标文本分词为单个字符,即单个汉字;根据Bert模型预训练的过程中所生成的第二预设词表,查找每个目标文本分词在第二预设词表中所对应的数字,将目标文本分词转换为目标文本数字;并将获取的目标文本数字输入至预训练的所述Bert模型,获取目标文本的第一向量,其中,第一向量为768维向量,例如,第一向量可以表示为[a0,a1,a2,a3,……,a767];然后将该768维的第一向量输入至训练好的Transformer模型,获取目标文本的第二向量,其中,第二向量的维数与最后生成的目标文本摘要中的汉字的个数一致,第二向量中每维向量的具体取值来源于第二预设词表中的数字,例如,第二向量可以表示为[45,2085,10246,759,……];因此,可以基于第二预设词表,查找第二向量中每维向量的具体取值(数字)所对应的字符,形成目标文本字符(汉字),并将这些字符连接起来,从而形成目标文本摘要。即实现了向神经网络模型输入目标文本就可以生成目标文本摘要。
[0130] 根据本公开的实施例,所述基于深度学习的卫星互联网文本敏感信息检测方法还包括:将所述第二倾向类型的所述目标文本及所述目标文本摘要存储在预设数据库中,以便于根据所述目标文本摘要确定所述目标文本是否为违禁内容。
[0131] 图7示出根据本公开的实施例的基于深度学习的卫星互联网文本敏感信息检测装置的结构框图。其中,该装置可以通过软件硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示,所述基于深度学习的卫星互联网文本敏感信息检测装置包括第一确定模块710、第二确定模块720和生成模块730。
[0132] 所述第一确定模块710被配置为对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0133] 所述第二确定模块720被配置为基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0134] 所述生成模块730被配置为基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
[0135] 根据本公开的实施例,所述对目标文本进行敏感词检测,确定所述目标文本中的敏感词,包括:
[0136] 对所述目标文本进行非文字信息处理,清除所述目标文本中的非文字信息,获取第一处理目标文本,所述非文字信息包括符号和格式标记;
[0137] 根据确定有穷自动机算法确定所述第一处理目标文本中的所述敏感词;
[0138] 记录所述敏感词在所述第一处理目标文本中的位置。
[0139] 根据本公开的实施例,所述FastText模型的训练过程包括:
[0140] 获取第一训练样本,所述第一训练样本包括第一训练文本样本及其对应的评估值;
[0141] 基于所述第一训练样本训练所述FastText模型,获取训练好的所述FastText模型。
[0142] 根据本公开的实施例,所述基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,包括:
[0143] 将所述敏感词的上下文进行分词,获取所述敏感词的上下文分词;
[0144] 根据第一预设词表,将所述敏感词的上下文分词转换为敏感词的上下文分词数字,其中,第一预设词表为词汇与数字的1:1映射表;
[0145] 将所述敏感词的上下文分词数字输入至已训练好的所述FastText模型中,获取所述敏感词的上下文分词数字所对应的评估值;
[0146] 当所述敏感词的上下文分词数字所对应的评估值大于或等于预设阈值时,将所述目标文本确定为所述第一倾向类型;
[0147] 当所述敏感词的上下文分词数字所对应的评估值小于预设阈值时,将所述目标文本确定为所述第二倾向类型。
[0148] 根据本公开的实施例,所述神经网络模型包括编码模型和解码模型,其中,所述编码模型包括Bert模型,所述解码模型包括Transformer模型。
[0149] 根据本公开的实施例,所述神经网络模型的训练过程包括:
[0150] 获取第二训练样本,所述第二训练样本包括第二训练文本样本和第二训练文本摘要样本;
[0151] 基于所述第二训练样本训练所述Transformer模型,获取训练好的所述Transformer模型。
[0152] 根据本公开的实施例,所述基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要,包括:
[0153] 将所述第二倾向类型的所述目标文本进行分词,获取所述目标文本分词;
[0154] 根据第二预设词表,将所述目标文本分词转换为所述目标文本数字,其中,所述第二预设词表为字符与数字的1:1映射词表;
[0155] 将所述目标文本数字输入至预训练的所述Bert模型,获取所述目标文本的第一向量;
[0156] 将所述目标文本的第一向量输入至已训练好的所述Transformer模型,获取所述目标文本的第二向量;
[0157] 根据所述第二预设词表,将所述目标文本的第二向量转换为所述目标文本字符;
[0158] 基于所述目标文本字符生成所述目标文本摘要。
[0159] 根据本公开的实施例,还包括:
[0160] 存储模块740,被配置为将所述第二倾向类型的所述目标文本及所述目标文本摘要存储在预设数据库中,以便于根据所述目标文本摘要确定所述目标文本是否为违禁内容。
[0161] 本公开还公开了一种电子设备,图8示出根据本公开的实施例的电子设备的结构框图。
[0162] 如图8所示,所述电子设备800包括存储器801和处理器802;其中,
[0163] 所述存储器801用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器802执行以实现以下方法步骤:
[0164] 对目标文本进行敏感词检测,确定所述目标文本中的敏感词,所述目标文本通过卫星互联网传输;
[0165] 基于所述敏感词的上下文,利用已训练好的FastText模型确定所述目标文本的情感倾向类型,其中所述情感倾向类型包括第一倾向类型和第二倾向类型;
[0166] 基于所述第二倾向类型的所述目标文本,利用已训练好的神经网络模型生成所述目标文本摘要。
[0167] 图9示出适于用来实现根据本公开实施例的基于深度学习的卫星互联网文本敏感信息检测方法的计算机系统的结构示意图。
[0168] 如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行上述实施例中的各种处理。在RAM903中,还存储有系统900操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
[0169] 以下部件连接至I/O接口905:包括键盘鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0170] 特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述对象类别确定方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
[0171] 附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0172] 描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
[0173] 作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
[0174] 以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈