首页 / 专利库 / 人工智能 / 对话语料库 / 一种语句分类方法及相关设备

一种语句分类方法及相关设备

阅读:711发布:2020-05-24

专利汇可以提供一种语句分类方法及相关设备专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种语句分类方法及相关设备,包括:首先获取待判别的目标语句的语句长度;当语句长度小于预设 阈值 时,对目标语句进行分词处理得到N个分词词语,N为大于1的整数;接着按照预设的语言模型将N个分词词语进行组合,得到M个组合词语;然后根据N个分词词语和M个组合词语,确定目标语句的分类信息。采用本发明实施例,可以有效对抗敏感词 变形 对分词准确性和敏感词命中率造成的影响,从而提高辱骂语句判定的效率和准确性。,下面是一种语句分类方法及相关设备专利的具体信息内容。

1.一种语句分类方法,其特征在于,所述方法包括:
获取待判别的目标语句的语句长度;
当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于
1的整数;
根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
2.如权利要求1所述的方法,其特征在于,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中语义联系的多个词语;
将所述语义联系的多个词语组合成所述组合词语。
3.如权利要求1所述的方法,其特征在于,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
将所述位置连续的多个词语组合成所述组合词语。
4.如权利要求1所述的方法,其特征在于,所述根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息包括:
根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
确定所述词语集合中每个词语的词语类型;
根据所述词语类型,确定所述分类信息。
5.如权利要求4所述的方法,其特征在于,所述确定所述词语集合中每个词语的词语类型包括:
将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K为不小于1的整数;
按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
6.如权利要求4所述的方法,其特征在于,所述K种词语类型包括第一词语类型、第二词语类型和第三词语类型;所述分类信息包括语句类型;
所述根据所述词语类型,确定所述目标语句的分类信息包括:
当所述词语集合包含所述第一词语类型的词语、或所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述语句类型为第一语句类型。
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
当所述语句长度不小于所述第一预设阈值、或根据所述N个分词词语和所述M个组合词语无法确定所述分类信息时,获取预设语料库中的多条语料,所述多条语料中的每条语料对应一个类型标签;
确定所述每条语料的文本特征,所述文本特征包括字词特征和拼音特征中的至少一项;
将所述类型标签和所述文本特征输入待训练模型进行训练,得到文本分类模型;
根据所述文本分类模型,确定所述分类信息。
8.如权利要求7所述的方法,其特征在于,所述目标语句包括多个用户对话过程中目标用户产生的多条对话语句;所述分类信息包括分类概率和语句类型;所述语句类型包括第一语句类型、第二语句类型和第三语句类型中的至少一种;
所述确定所述分类信息之后,还包括:
确定所述多条对话语句中属于每种语句类型、且所述分类概率大于预设阈值的对话语句的累积数量;
根据所述累积数量,确定所述目标用户是否存在违规对话行为
9.如权利要求8所述的方法,其特征在于,所述根据所述累积数量,确定所述目标用户是否存在辱骂行为包括:
当所述多条对话语句中属于所述第一语句类型、且所述分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定所述目标用户存在所述违规对话行为;或当所述多条对话语句中属于所述第二语句类型、且所述分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈值时,确定所述目标用户存在所述违规对话行为;或当所述多条对话语句中属于所述第三语句类型、且所述分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定所述目标用户不存所述违规对话行为。
10.一种语句分类装置,其特征在于,所述装置包括:
获取模,用于获取待判别的目标语句的语句长度;
分词模块,用于当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
所述分词模块,还用于按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
分类模块,用于根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。

说明书全文

一种语句分类方法及相关设备

技术领域

[0001] 本发明涉及自然语言处理技术领域,尤其涉及一种语句分类方法及相关设备。

背景技术

[0002] 多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)是当前最受游戏爱好者追捧的游戏类型之一,如王者荣耀、英雄联盟等等。然而MOBA 游戏自出现以来其恶劣的游戏环境一直为人诟病,其中,言语辱骂是恶劣环境的重要因素之一。为了净化游戏环境,引导游戏环境正向发展,需要一个除了对局双方之外的第三方来对局内玩家提出
的言语辱骂举报给出公平的审判结果。目前,现有技术中包括依赖敏感词库的自动审判方
法和依赖人工客服的人工审判方法。然而,一方面,依赖敏感词库的自动审判方法无法对抗敏感词变形、谐音等情况,导致敏感词命中的准确性低;另一方面,每天有大量涉及言语辱骂的举报,这将导致人工客服工作量繁重,并且人为判定结果易受主观意识影响、以及辱骂词语形态丰富,有中文,有缩写,有拼音,有谐音,有中英结合,人工判定容易漏判、错判。

发明内容

[0003] 本发明提供一种语句分类方法及相关设备,可以辱骂语句判定的效率和准确性。
[0004] 第一方面,本发明实施例提供了一种语句分类方法,包括:
[0005] 获取待判别的目标语句的语句长度;
[0006] 当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N 个分词词语,所述N为大于1的整数;
[0007] 按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
[0008] 根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
[0009] 其中,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
[0010] 根据所述语言模型,确定所述N个分词词语中语义联系的多个词语;
[0011] 将所述语义联系的多个词语组合成所述组合词语。
[0012] 其中,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
[0013] 根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
[0014] 将所述位置连续的多个词语组合成所述组合词语。
[0015] 其中,所述根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息包括:
[0016] 根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
[0017] 确定所述词语集合中每个词语的词语类型;
[0018] 根据所述词语类型,确定所述分类信息。
[0019] 其中,所述确定所述词语集合中每个词语的词语类型包括:
[0020] 将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K 为不小于1的整数;
[0021] 按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
[0022] 其中,所述K种词语类型包括第一词语类型、第二词语类型和第三词语类型;所述分类信息包括语句类型;
[0023] 所述根据所述词语类型,确定所述目标语句的分类信息包括:
[0024] 当所述词语集合包含所述第一词语类型的词语时,确定所述语句类型为第一语句类型;或
[0025] 当所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述语句类型为所述第一语句类型。
[0026] 其中,所述方法还包括:
[0027] 当所述语句长度不小于所述第一预设阈值、或根据所述N个分词词语和所述M个组合词语无法确定所述分类信息时,获取预设语料库中的多条语料,所述多条语料中每条语
料对应一个类型标签;
[0028] 确定所述每条语料的文本特征,所述文本特征包括字词特征和拼音特征中的至少一项;
[0029] 将所述类型标签和所述文本特征输入待训练模型进行训练,得到文本分类模型;
[0030] 根据所述文本分类模型,确定所述分类信息。
[0031] 其中,所述目标语句包括多个用户对话过程中目标用户产生的多条对话语句;所述分类信息包括分类概率和语句类型;所述语句类型包括第一语句类型、第二语句类型和
第三语句类型中的至少一种;
[0032] 所述确定所述分类信息之后,还包括:
[0033] 确定所述多条对话语句中属于每种语句类型、且所述分类概率大于预设阈值的对话语句的累积数量;
[0034] 根据所述累积数量,确定所述目标用户是否存在违规对话行为
[0035] 其中,所述根据所述累积数量,确定所述目标用户是否存在辱骂行为包括:
[0036] 当所述多条对话语句中属于所述第一语句类型、且所述分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定所述目标用户存在所述违规对话行
为;或
[0037] 当所述多条对话语句中属于所述第二语句类型、且所述分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈值时,确定所述目标用户存在所述违规对话行
为;或
[0038] 当所述多条对话语句中属于所述第三语句类型、且所述分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定所述目标用户不存所述违规对话行
为。
[0039] 第二方面,本发明实施例提供了一种语句分类装置,包括:
[0040] 获取模,用于获取待判别的目标语句的语句长度;
[0041] 分词模块,用于当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
[0042] 所述分词模块,还用于按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
[0043] 分类模块,用于根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
[0044] 其中,所述分词模块还用于:
[0045] 根据所述语言模型,确定所述N个分词词语中语义联系的多个词语;
[0046] 将所述语义联系的多个词语组合成所述组合词语。
[0047] 其中,所述分词模块还用于:
[0048] 根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
[0049] 将所述位置连续的多个词语组合成所述组合词语。
[0050] 其中,所述分类模块还用于:
[0051] 根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
[0052] 确定所述词语集合中每个词语的词语类型;
[0053] 根据所述词语类型,确定所述分类信息。
[0054] 其中,所述分类模块还用于:
[0055] 将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K 为不小于1的整数;
[0056] 按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
[0057] 其中,所述K种词语类型包括第一词语类型、第二词语类型和第三词语类型;所述分类信息包括语句类型;
[0058] 所述分类模块还用于:
[0059] 当所述词语集合包含所述第一词语类型的词语时,确定所述语句类型为第一语句类型;或
[0060] 当所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述语句类型为所述第一语句类型。
[0061] 其中,所述分类模块还用于:
[0062] 当所述语句长度不小于所述第一预设阈值、或根据所述N个分词词语和所述M个组合词语无法确定所述分类信息时,获取预设语料库中的多条语料,所述多条语料中每条语
料对应一个类型标签;
[0063] 确定所述每条语料的文本特征,所述文本特征包括字词特征和拼音特征中的至少一项;
[0064] 将所述类型标签和所述文本特征输入待训练模型进行训练,得到文本分类模型;
[0065] 根据所述文本分类模型,确定所述分类信息。
[0066] 其中,所述目标语句包括多个用户对话过程中目标用户产生的多条对话语句;所述分类信息包括分类概率和语句类型;所述语句类型包括第一语句类型、第二语句类型和
第三语句类型中的至少一种;
[0067] 所述分类模块还用于:
[0068] 确定所述多条对话语句中属于每种语句类型、且所述分类概率大于预设阈值的对话语句的累积数量;
[0069] 根据所述累积数量,确定所述目标用户是否存在违规对话行为。
[0070] 其中,当所述多条对话语句中属于所述第一语句类型、且所述分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定所述目标用户存在所述违规对
话行为;或
[0071] 当所述多条对话语句中属于所述第二语句类型、且所述分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈值时,确定所述目标用户存在所述违规对话行
为;或
[0072] 当所述多条对话语句中属于所述第三语句类型、且所述分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定所述目标用户不存所述违规对话行
为。
[0073] 第三方面,本发明实施例提供了一种语句分类设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种语句分类方法中的步骤。
[0074] 在一个可能的设计中,本发明提供的实体识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件
[0075] 本发明实施例的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
[0076] 本发明实施例的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
[0077] 实施本发明实施例,首先获取待判别的目标语句的语句长度;接着当语句长度小于预设阈值时,对目标语句进行分词处理得到N个分词词语,并按照预设的语言模型(如n-
gram模型)将N个分词词语进行组合,得到M个组合词语。然后根据N个分词词语和M个组合词语,确定所述目标语句的分类信息。通过对分词处理后得到多个语义联系或位置连续的词
进行组合,可以有效对抗敏感词变形对分词和敏感词命中的准确性造成的影响。
附图说明
[0078] 为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
[0079] 图1是本发明实施例提供的一种MOBA游戏中言语举报的界面示意图;
[0080] 图2是本发明实施例提供的一种工单的审判流程的示意图;
[0081] 图3是本发明实施例提供的一种工单样式的示意图;
[0082] 图4是现有技术提供的一种辱骂判定方法的流程示意图;
[0083] 图5是本发明实施例提供的一种语句分类方法的流程示意图;
[0084] 图6是本发明实施例提供的另一种语句分类方法的流程示意图;
[0085] 图7是本发明实施例提供的一种CNN模型的结构示意图;
[0086] 图8是本发明实施例提供的一种辱骂判定方法的流程示意图;
[0087] 图9是本发明实施例提供的一种语料库的更新方法的流程示意图;
[0088] 图10是本发明实施例提供的一种人工操作平台的交互界面的示意图;
[0089] 图11是本发明实施例提供的一种语句分类装置的结构示意图;
[0090] 图12是本发明实施例提供的一种语句分类设备的结构示意图。

具体实施方式

[0091] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0092] 为了便于理解,下面将对本发明实施例提供的语句分类方法所应用的 MOBA游戏中的言语辱骂举报场景进行介绍。其中,在MOBA游戏中,一局游戏结束之后会进入举报界
面,局内游戏玩家可以对其他玩家进行举报。例如,如图1所示,某游戏玩家正在对色名为“画船听雨未眠”的游戏玩家进行举报,如图所示,通常除了可以举报画船听雨未眠在游戏中存在言语辱骂的违规对话行为外,还可以举报画船听雨未眠在游戏中存在的“恶意挂
机”、“故意送人头”等违规操作。举报玩家在点击“提交”按钮后,MOBA游戏平台受理该举报业务。然后,如图2所示,MOBA游戏平台首先根据举报内容生成一个工单。其中,图3提供了一种可能的工单的样式。如图所示,工单中可以包括被举报者在游戏中产生的每条对话语句、以及举报者所产生的多条对话语句。接着,如图2所示,基于被举报者所产生的多条对话语句和预设的辱骂判别方法,判定被举报用户是否存在言语辱骂的违规对话行为。其中,若辱骂判别方法无法判定被举报用户是否存在言语辱骂行为,还可以将工单反馈给人工客服,
并且在此之前可以将在实施辱骂判别方法时识别到的一些语句特征在对话语句中进行高
亮标识,以提高人工客服的工作效率。目前,常用的无需人工干预的辱骂判别方法通常是基于敏感词库实现的,如图4所示,该方法根据敏感词库中已知的敏感词,对被举报者所产生的每条对话语句进行过滤,若对话语句命中敏感词,则判定该对话语句为辱骂语句,然后根据辱骂语句的数量,确定被举报者违规对话的情节严重性,并进行处罚。但是由于词库固定性强、更新周期长,容易导致敏感词的感知不灵敏。此外,在游戏中玩家容易通过对敏感词的变形和谐音等方式来对抗敏感词过滤。因此这种方法的判定正确率低、有效性差,需要大量的人工客服来辅助。为了解决此问题,本发明实施例基于上述场景提供了以下语句分类
方法。
[0093] 请参考图5,图5是本发明实施例提供的一种语句分类方法的流程示意图,该方法包括但不限于如下步骤:
[0094] S501,获取待判别的目标语句的语句长度。
[0095] 具体实现中,在MOBA游戏中一局游戏结束时,可能会接收到局内玩家1 针对局内玩家2的言语辱骂举报,则玩家2在局内的发出的对话语句即为待判别的目标语句。目标语
句的语句长度可以但不限于为目标语句所包含的字数,其中,可以利用字数统计工具来统
计目标语句的字数。
[0096] 当然,本申请实施例中的方法还可以应用于其他场景,本申请实施例对此不做限制。比如,还可以接收用户随意输入的任意一条语句,并将该语句作为待判别的目标语句。
[0097] S502,当所述语句长度小于预设阈值时,对所述目标语句进行分词处理得到N个分词词语。
[0098] 具体实现中,可以利用分词工具或分词技术,如jieba分词工具、N元文法分词模型等对目标语句进行分词,其中,N为大于1的整数。分词得到的分词词语可以是一个字、也可以是两个或三个字组成的单词。考虑到标点符号对辱骂判定没有影响,因此在分词之前可以将目标语句中的标点符号全部过滤掉。其中,预设阈值可以为5、4或8。例如,经过统计,在MOBA游戏中游戏玩家在游戏时产生的对话语句的长度一般不会超过5个字,因此可以将预
设阈值设置为6。
[0099] 例如:针对目标语句“好好玩!”,可以对去掉标点符号后的目标语句“好好玩”对进行分词处理,得到“好/好/玩”,其中,“/”为分词符,从而可以得到 3分词词语“好”、“好”以及“玩”。
[0100] S503,按照预设的语言模型对所述N个分词词语进行组合,得到M个组合词语。
[0101] 具体实现中,预设的语言模型可以但不限于为n-gram模型。其中,可以根据n-gram模型确定N个分词词语中在目标语句内位置连续的多个词语,并将位置连续的多个词语组合成组合词语。例如,对目标语句“好好玩!”分词处理得到“好”、“好”以及“玩”这3分词词语,其中,通过n-gram模型可以将“好”和“玩”这两个位置连续进行组合,得到组合词语“好玩”。
[0102] 可选的,还可以根据n-gram模型确定N个分词词语中语义联系的多个词语,并将语义联系的多个词语作为组合词语。例如,目标语句为“你好吗”,分词之后得到3个分词词语“你”、“好”和“吗”。其中,通过n-gram模型可以将“你”和“好”、“好”和“吗”以及“你”、“好”和“吗”分别为一组语义联系的词语进行组合,从而得到组合词语“你好”、“好吗”和“你好吗”。
[0103] 由于在游戏中玩家会对辱骂词进行变形,导致分词不准确,而通过本步骤的词语组合操作可以有效降低此情况对分词和敏感词命中的准确性。
[0104] S504,根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
[0105] 具体实现中,根据N个分词词语和M个组合词语,确定目标语句的分类信息的步骤可以包括:
[0106] (1)、根据N个分词词语和M个组合词语,生成目标语句对应的词语集合合。其中,可以但不限于将由N个分词词语及M个组合词词语所构成的集合作为目标语句对应的词语集合。
[0107] 例如:目标语句“你好吗”所包括的3个分词词语为“你”、“好”和“吗”、以及3个组合词语为“你好”、“好吗”和“你好吗”,则该目标语句对应的词语集合为{“你”、“好”、“吗”、“你好”、“好吗”、“你好吗”}。
[0108] (2)、确定词语集合中每个词语的词语类型。具体地,可以首先将每个词语与预设的K个词库中的词语进行匹配。其中,K个词库是按照预设的K种词语类型建立的,即针对K种词语类型中的每种词语类型建立一个词库,K为不小于1的整数。K种词语类型可以包括第一词语类型、第二词语类型和第三词语类型中的至少一种,其中,第一词语类型可以为辱骂型(Abuse)、第二词语类型可以为带有辱骂性质的口头禅(以下简称口头禅)型(Tag)、以及第
三词语类型可以为实体型(Entity)。在自然语言处理领域常常提及实体的概念,实体为现
实存在且可区分的事物,可以包括人名实体(如张三、李四)、地名实体 (如北京、长沙),实体型词语即为可确定为实体的词语,在本申请实施例中实体型词语通常是指游戏角色的命
名实体,如孙尚香、孙悟空等。相应的,K个词库可以包括辱骂词词库CA、口头禅词库CT以及实体词词库CE中的至少一个。
[0109] 然后,按照每个词语所属的词库对每个词语进行分类,得到每个词语的词语类型。例如,“xx”属于词库CT,则可以确定“xx”的为口头禅型的词语。由于每个词库无法囊括属于该词库对应的词语类型的所有词语,因此可能出现词语不属于预设的任意一个词库的情
况,此时可以将该词语的词语类型确定为其他类型(Others)。
[0110] 从程序实现的角度,可以将上述词语分类的过程用函数进行表示和实现。假设目标语句对应的词语集合Cw={x1,x2,…,xK},其中,xi为一个分词词语或组合词语,i=1,
2,…,K。则可以对xi执行如(1)式所示的f(xi)以得到xi的词语类型。
[0111]
[0112] (3)、根据每个词语的词语类型,确定目标语句的分类信息,该分类信息可以包括语句类型,还可以包括词语属于该语句类型的分类概率。其中,当目标语句对应的词语集合中包括辱骂型的词语时,确定目标语句为第一语句类型的语句,第一语句类型可以为辱骂
型。也可以当该词语集合同时包含实体型的词语和口头禅型的词语时,确定目标语句为辱
骂型的语句。除了辱骂型和口头禅型,语句类型还可以包括非辱骂型、带辱骂性质的口头禅型。
[0113] 需要说明的是,因为CA中包含的均为确定为辱骂型的词语、CT中包含的均为确定为口头禅型的词语以及CE中包含的均为确定为实体型的词语,所以当词语集合中的词语属于某个词库时,可以将该词语属于该词库对应的词语类型的分类概率确定为1。
[0114] 例如:目标语句分词之后得到3个分词词语“xx1”、“xx2”和“xx3”,按照n-gram对这3个分词词语进行组合得到1个组合词语“xx4”,从而得到该目标语句对应的词语集合为
{“xx1”、“xx2”、“xx3”、“xx4”}。将Cw中的每个词语与CA、CT和CE中的每个词进行匹配,得到“xx1”属于CE、“xx2”属于CT、以及“xx3”和“xx4”不属于CA、CT和CE中的任意一个。因此可以确定“xx1”的词语类型为Entity、“xx2”的词语类型为Tag、以及“xx3”和“xx4”的词语类型为“Others”。最后,尽管目标语句不包含Abuse型的词语,但因其中同时包括中包括Tag型的词语以及Entity型的词语,所以可以确定目标语句为具有指向性的不良言论,从而将目标语
句的语句类型确定为辱骂型,并且分类概率为1。
[0115] 在本发明实施例中,首先获取待判别的目标语句的语句长度,接着当语句长度小于预设阈值时,对目标语句进行分词处理得到N个分词词语;在按照预设的语言模型将N个
分词词语进行组合,得到M个组合词语。然后根据N个分词词语和M个组合词语,确定所述目
标语句的分类信息。通过语言模型将联系的单个字进行组合,可以捕获变形的敏感词,从而提高语句分类的能和辱骂语句判别的准确性。
[0116] 请参考图6,图6是本发明实施例提供的另一种语句分类方法的流程示意图,该方法包括但不限于如下步骤:
[0117] S601,获取待判定的目标语句的语句长度。本步骤与上一实施例中的S501 相同,本步骤不再赘述。
[0118] S602,确定语句长度是否小于第一预设阈值。
[0119] 具体实现中,一方面,当语句长度小于第一预设阈值时,按照上一实施例所述的方法确定目标语句的分类信息,即首先确定根据目标语句对应的词语集合,然后根据词语集合中的每个词语的词语类型,确定目标语句的分类信息,如语句类型、分类概率等。另一方面,当语句长度不小于第一预设阈值、或按照词语集合中的词语的类型无法确定分类信息
时,执行S603。例如,若目标语句的词语集合中词语的词语类型全部为Others,则无法确定目标语句的语句类型。
[0120] S603,获取预设语料库中的多条语料,多条语料中的每条语料对应一个类型标签。
[0121] 具体实现中,多条语料中的每条语料被标注一个类型标签,每条语料可以为一条语句,类型标签用于标注该语料的语句类型。语句类型可以包括辱骂型、非辱骂型以及口头禅型。其中,类型标签可以为字母、数字或字符串。例如,可以用字母A标注辱骂型的语料、用字母B标注非辱骂型的语料、以及用字符 C标注口头禅型的语料。
[0122] S604,确定每条语料的文本特征,文本特征包括字词特征和拼音特征中的至少一项。
[0123] 具体实现中,字词特征可以是指目标语句所包括的字和词,其中,目标语句所包括的词除了利用分词技术得到的N个分词词语之外,还可以包括利用 n-gram模型将N个分词词语进行组合得到的M个组合词,其中,N为大于1的整数,M为不小于1的整数。拼音特征可以是指目标语句所包括的每个字的拼音。
[0124] 例如:预设语料库中包含语料“你好吗”。则该语料的字词特征为单字集合 {“你”、“好”、“吗”}、词语集合{“你”、“好”、“吗”、“你好”、“好吗”、“你好吗”}。拼音特征为单字的拼音集合{“ni”、“hao”、“ma”}。
[0125] S605,将文本特征和类型标签输入待训练模型进行训练,得到文本分类模型。
[0126] 具体实现中,待训练模型可以但不限于是卷积神经网络(Convolutional Neural Networks,CNN)模型。除了CNN,还可以是RCNN(Regions with CNN features)网络和循环神经网络(Recurrent Neural Network,RNN)。如图7所示,CNN模型中可以包括嵌入层
(Embedding Layer)、长短期记忆网络层(Long-Short Term Memory,LSTM)、纵向池化
(Maxpooling)层、全连接(Dense)层以及 Softmax分类层。其中,可以首先将每条语料的文本特征和类型标签作为一组训练样本输入CNN模型的Embedding层,其中,Embedding层的初始化都使用了 word2vector进行了一个初始化。利用LSTM网络生成Left和Right的信息与
当前的Embedding层的处理结果共同构成一个三元组向量[Left,Embedding, Right],接着
使用纵向Max-pooling层把三元组向量规约到一个一维向量上,该一维向量用来表达输入
的训练样本对应的语句的语义信息。然后用Dense层对多种不同维度(字(char)、词(word)
和拼音(Pinyin))的特征信息进行融合。最后,Softmax分类层基于Dense层的处理结果和训练样本中的类型标签学习语句分类。在实际使用训练得到的文本分类模型时,可以直接将
语句输入该模型,即可得到该语句属于每种类型标签对应的语句类型的分类概率。
[0127] S606,根据文本分类模型,确定目标语句的分类信息。
[0128] 具体实现中,可以将目标语句输入文本分类模型,得到目标语句相对每种类型标签对应的语句类型的分类概率,然后将分类概率最高的类型标签对应的语句类型确定为目
标语句的语句类型。例如,文本分类模型输入目标语句相对类型标签A、B和C的分类概率分别为0.8、0.2和0.34,其中,A表示辱骂型、 B表示非辱骂型以及C表示口头禅型,则可以确定目标语句的语句类型为辱骂型。
[0129] 可选的,在MOBA游戏平台的言语辱骂举报场景中,目标语句可以是指局内多个游戏玩家中被举报的玩家产生的多条对话语句。在确定每条对话语句的分类信息之后,还可
以根据分类信息确定被举报玩家是否存在辱骂行为。其中,可以确定多条对话语句中属于
每种语句类型、且分类概率大于预设阈值的对话语句的累积数量,并根据该累积数量,确定被举报玩家(即目标用户)是否存在言语辱骂的违规对对话行为。
[0130] 具体地,可以当多条对话语句中属于辱骂型、且分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定目标用户存在辱骂行为。或者,当多条对话语句中属于口头禅型、且分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈
值时,确定目标用户存在辱骂行为。或者,当多条对话语句中属于非辱骂类型、且分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定目标用户不存辱骂行
为。第七阈值可以为多条对话语句的总数量减去1,即当多条对话语句全部为非辱骂语句,且每条对话语句的分类概率均大于第七预设阈值时,才能确定目标用户不存辱骂行为。其
中,上述预设阈值可以根据该MOBA游戏平台的人工客服的数量来具体确定和调整,上述预
设阈值取值越大需要由人工客服处理的举报工单越多。其中,第二预设阈值、第四预设阈值和第六预设阈值可以相同也可以不同。第三阈值、第五阈值和第七预设阈值可以相同也可
以不同。
[0131] 以下通过一个例子来对本发明实施例提供的方法的实际应用进行说明。
[0132] 例如:举报工单中包括被举报玩家在游戏过程中产生的多条对话语句包括 w1、w2、…、wn。经过统计在游戏中玩家产生的对话语句通常不会超过5个字,因此可以假设w1、w2、…、wn均为语句长度小于5的语句。
[0133] 首先,如图8所示,获取每条对话语句的语句类型和分类概率,其中,可以先对其进行分词得到分词词语,并将分词词语组合成多个组合词语。再根据分词词和组合词语对对话语句进行敏感词过滤,其中,敏感词可以包括辱骂词、实体型词语以及带辱骂性质的口头禅,若命中预设的规则,则根据所命中的预设规则的内容确定语句的语句类型,其中,预设规则可以包括当分词词语和组合词语中包括辱骂型的词语将语句类型确定为辱骂型、以及
分词词语和组合词语中包括带辱骂性质的口头禅,将语句类型确定为口头禅型等等。若没
有命中规则,则抽取语对话语句的文本特征,将文本特征输入训练好的CNN语句分类模型,得到对话语句的语句类型和分类概率。
[0134] 然后,根据w1、w2、…、wn中的每条语句的语句类型和分类概率后,进行工单辱骂判定,其中,(1)若n条对话语句中存在1条及1条以上语句类型为辱骂型、且分类概率大于0.8的语句,则确定被举报玩家存在辱骂行为。(2)若 n条对话语句中不存在辱骂型语句,但是存在3条以上语句类型为口头禅型、且分类概率大于0.8的对话语句,则确定被举报玩家存在辱骂行为。(3)若n条对话语句全部为非辱骂型语句、且分类概率全部大于0.8时,确定被举报玩家不存在辱骂行为。其他情况则交给人工客服进行判定,并且此时可以对n条对话语句中的分词词语和组合词语进行区别标记,以便提高人工判定的效率。
[0135] 需要说明的是,为了提高言语辱骂的判定效率和准确性,可以通过人工及时对辱骂词词库、口头禅词库以及预设语料库进行更新。如图9所示,在MOBA 游戏的言语辱骂举报场景中,可以由人工按照预设的频率(如1次/周)对累积的高分判定为辱骂、非辱骂或口头
禅的历史工单进行抽检,并确定当前辱骂词词库和口头禅词库之外的新的敏感词(这里将
辱骂词和带有辱骂性质的口头禅统称为敏感词)。然后根据新的敏感词从累积的所有历史
工单中搜索相似文本作为新的语料,并通过人工给新的语料标注类型标签,然后将标注后
的新的语料加入语料库。
[0136] 其中,根据新的敏感词S0从累积的所有历史工单中搜索相似文本作为新的语料的方法可以包括:首先对新的敏感词S0的拼音进行变形得到S1、S2、…、 SM,M为不小于1的整数。拼音变形的方式包括首字符缩写,如“zhi zhang”的首字符缩写为“zz”、地方口音,如出租车的地方口音可以为“cu zu che”、以及不影响发音的拼音省略,如“shabi”对应的不影响发音的拼音省略可以为“shab”。接着通过S0、S1、S2、…、SM检索历史工单中的每句对话,取得候选语料w1、w2、…、wN。候选语料可以为命中S0、S1、S2、…、SM至少一个的对话语句。然后对wn过滤掉标点符号后进行分词,得到包含分词词语和组合词语的词语集合Cwi,Cwi={y1,
y2,…,yL},n=1,2,…,N,;再根据f(Cwi)计算wi与S0的相似度,其中,
[0137]
[0138] ,若wi命中S0,则r为1,否则r为0.9。ωL为0-1之间的值,ωL和yL与wi所命中Sm之间的相关度有关,可以由人工进行确定,m为不大于M的整数。在得到w1、w2、…、wN中的每一条语句的相似度之后,可以将相似度最高的前n条语句作为新的语料。
[0139] 可选的,还可以由人工根据S0、S1、S2、…、SM对语料库中当前所包含的语料的类型标签进行更新。其中,如图10所示,可以建立一个人工操作台,以便人工搜索、查询和更正语料库中的语料。例如,可以将新敏感词“xx”输入搜索框,然后点击“查询”按钮即可看到语料库中包含“xx”以及“xx”对应的拼音变形敏感词的语料(语料1、语料2、…)、以及每条语料与“xx”的相似度。此外,还可以得到语料库中包含“xx”及其对应的拼音变形敏感词的多条语料之间类型标签的标注差异度,若标注差异度很大的情况下,很大可能是由人的主观意识造成的差异性,则这类语料更需要重新标注类型标签。
[0140] 最后,如图9所示,每次在对语料库进行更新之后,可以根据新后的语料库对当前的文本分类模型进行重新训练,以便进一步提高文本分类模型分分类能力和分类效果。
[0141] 需要特别说明的是,本申请文件中所涉及的人名,如“关羽”、“鲁班”、“孙尚香”等,均是指MOBA游戏中的游戏角色的代号,不涉及现实中的人物。
[0142] 在本发明实施例中,首先获取待判别的目标语句的语句长度,若语句长度小于预设阈值,则根据目标语句分词分到的分词词语和分词词语的组合词语,确定目标语句的分
类信息。若语句长度不小于预设阈值,则根据预设语料库中的语料训练文本分类模型,并根据文本分类模型,确定目标语句的分类信息。通过机器学习技术和敏感词库过滤方法的结
合可以进一步提高辱骂语句判定的能力和准确性,从而可以减少MOBA游戏中言语辱骂举报
审判的人力投入。
[0143] 上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的相关设备。
[0144] 请参考图11,图11是本发明实施例提供的一种语句分类装置的结构示意图,该装置可以包括:
[0145] 获取模块1101,用于获取待判别的目标语句的语句长度。
[0146] 具体实现中,在MOBA游戏中一局游戏结束时,可能会接收到局内玩家1 针对局内玩家2的言语辱骂举报,则玩家2在局内的发出的对话语句即为待判别的目标语句。目标语
句的语句长度可以但不限于为目标语句所包含的字数。
[0147] 分词模块1102,用于当语句长度小于第一预设阈值时,对目标语句进行分词处理得到N个分词词语,N为大于1的整数。
[0148] 具体实现中,可以利用分词工具或分词技术,如jieba分词工具、N元文法分词模型等对目标语句进行分词,其中,N为大于1的整数。分词得到的分词词语可以是一个字、也可以是两个或三个字组成的单词。考虑到标点符号对辱骂判定没有影响,因此在分词之前可以将目标语句中的标点符号全部过滤掉。其中,预设阈值可以为5、4或8。例如,经过统计,在MOBA游戏中游戏玩家在游戏时产生的对话语句的长度一般不会超过5个字,因此可以将预
设阈值设置为6。
[0149] 分词模块1102,还用于按照预设的语言模型将N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数。
[0150] 具体实现中,预设的语言模型可以但不限于为n-gram模型。其中,可以根据n-gram模型确定N个分词词语中在目标语句内位置连续的多个词语,并将位置连续的多个词语组合成组合词语。
[0151] 可选的,还可以根据n-gram模型确定N个分词词语中语义联系的多个词语,并将语义联系的多个词语作为组合词语。
[0152] 分类模块1103,还用于根据N个分词词语和M个组合词语,确定目标语句的分类信息。
[0153] 具体实现中,根据N个分词词语和M个组合词语,确定目标语句的分类信息的步骤可以包括:
[0154] (1)、根据N个分词词语和M个组合词语,生成目标语句对应的词语集合合。其中,可以但不限于将由N个分词词语及M个组合词词语所构成的集合作为目标语句对应的词语集合。
[0155] 例如:目标语句“你好吗!”所包括的3个分词词语为“你”、“好”和“吗”、以及3个组合词语为“你好”、“好吗”和“你好吗”,则该目标语句对应的词语集合为{“你”、“好”、“吗”“你好”、“好吗”、“你好吗”}。
[0156] (2)、确定词语集合中每个词语的词语类型。具体地,可以首先将每个词语与预设的K个词库中的词语进行匹配。其中,K个词库是按照预设的K种词语类型建立的,即针对K种词语类型中的每种词语类型建立一个词库,K为不小于1的整数。K种词语类型可以包括第一词语类型、第二词语类型和第三词语类型中的至少一种,其中,第一词语类型可以为辱骂型(Abuse)、第二词语类型可以为带有辱骂性质的口头禅(以下简称口头禅)型(Tag)、以及第
三词语类型可以为实体型(Entity)。在自然语言处理领域常常提及实体的概念,实体为现
实存在且可区分的事物,可以包括人名实体(如张三、李四)、地名实体 (如北京、长沙),实体型词语即为可确定为实体的词语,在本申请实施例中实体型词语通常是指游戏角色的命
名实体,如孙尚香、孙悟空等。相应的,K个词库可以包括辱骂词词库CA、口头禅词库CT以及实体词词库CE中的至少一个。
[0157] 然后,按照每个词语所属的词库对每个词语进行分类,得到每个词语的词语类型。
[0158] 从程序实现的角度,可以将上述词语分类的过程用函数进行表示和实现。假设目标语句对应的词语集合Cw={x1,x2,…,xK},其中,xi为一个分词词语或组合词语,i=1,
2,…,K。则可以对xi执行如(1)式所示的f(xi)以得到xi的词语类型。
[0159] (3)、根据每个词语的词语类型,确定目标语句的分类信息,该分类信息可以包括语句类型,还可以包括词语属于该语句类型的分类概率。其中,当目标语句对应的词语集合中包括辱骂型的词语时,确定目标语句为第一语句类型的语句,第一语句类型可以为辱骂
型。也可以当该词语集合同时包含实体型的词语和口头禅型的词语时,确定目标语句为辱
骂型的语句。除了辱骂型和口头禅型,语句类型还可以包括非辱骂型、带辱骂性质的口头禅型。
[0160] 可选的,分类模块1103还用于当语句长度不小于第一预设阈值时,首先获取预设语料库中的多条语料,多条语料中的每条语料对应一个类型标签。其中,多条语料中的每条语料被标注一个类型标签,每条语料可以为一条语句,类型标签用于标注该语料的语句类
型。语句类型可以包括辱骂型、非辱骂型以及口头禅型。其中,类型标签可以为字母、数字或字符串。例如,可以用字母A标注辱骂型的语料、用字母B标注非辱骂型的语料、以及用字符C标注口头禅型的语料。
[0161] 接着,确定每条语料的文本特征,文本特征包括字词特征和拼音特征中的至少一项。具体地,可以字词特征可以是指目标语句所包括的字和词,其中,目标语句所包括的词除了利用分词技术得到的N个分词词语之外,还可以包括利用n-gram模型将N个分词词语进
行组合得到的M个组合词,其中,N为大于1的整数,M为不小于1的整数。拼音特征可以是指目标语句所包括的每个字的拼音。
[0162] 然后,将文本特征和类型标签输入待训练模型进行训练,得到文本分类模型。其中,待训练模型可以但不限于是CNN模型。除了CNN,还可以是RCNN 和RNN模型。
[0163] 最后,根据文本分类模型,确定目标语句的分类信息。其中,可以将目标语句输入文本分类模型,得到目标语句相对每种类型标签对应的语句类型的分类概率,然后将分类概率最高的类型标签对应的语句类型确定为目标语句的语句类型。
[0164] 可选的,在MOBA游戏平台的言语辱骂举报场景中,目标语句可以是指局内多个游戏玩家中被举报的玩家产生的多条对话语句。在确定每条对话语句的分类信息之后,分类
模块1103还用于根据分类信息确定被举报玩家是否存在辱骂行为。其中,可以确定多条对
话语句中属于每种语句类型、且分类概率大于预设阈值的对话语句的累积数量,并根据该
累积数量,确定被举报玩家(即目标用户)是否存在言语辱骂的违规对对话行为。
[0165] 可选的,可以当多条对话语句中属于辱骂型、且分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定目标用户存在辱骂行为。或者,当多条对话语句中属于口头禅型、且分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈
值时,确定目标用户存在辱骂行为。或者,当多条对话语句中属于非辱骂类型、且分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定目标用户不存辱骂行
为。第七阈值可以为多条对话语句的总数量减去1,即当多条对话语句全部为非辱骂语句,且每条对话语句的分类概率均大于第七预设阈值时,才能确定目标用户不存辱骂行为。其
中,上述预设阈值取值越大可以根据该MOBA游戏平台的人工客服的数量来具体确定和调
整,上述预设阈值取值越大需要由人工客服处理的举报工单越多。其中,第二预设阈值、第四预设阈值和第六预设阈值可以相同也可以不同。第三阈值、第五阈值和第七预设阈值可
以相同也可以不同。
[0166] 在本发明实施例中,首先获取待判别的目标语句的语句长度,若语句长度小于预设阈值,则根据目标语句分词分到的分词词语和分词词语的组合词语,确定目标语句的分
类信息。若语句长度不小于预设阈值,则根据预设语料库中的语料训练文本分类模型,并根据文本分类模型,确定目标语句的分类信息。通过机器学习技术和敏感词库过滤方法的结
合可以进一步提高语句分类能力和分类效果,从而提高辱骂语句判定的能力和准确性、减
少MOBA游戏中言语辱骂举报审判的人力投入。
[0167] 请参考图12,图12是本发明实施例提供的一种语句分类设备的结构示意图。如图所示,该语句分类设备可以包括:至少一个处理器1201,至少一个通信接口1202,至少一个存储器1203和至少一个通信总线1204。
[0168] 其中,处理器1201可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线1204可以是外设部件互连标准PCI总线或扩
展工业标准结构EISA总线等。所述总线可以分为地址总线数据总线、控制总线等。为便于表示,图 12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线
1204用于实现这些组件之间的连接通信。其中,本发明实施例中设备的通信接口1202用于
与其他节点设备进行信令或数据的通信。存储器1203可以包括易失性存储器,例如非挥发
性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(Phase Change RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器
(Electrically Erasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(Solid State Disk,SSD)等。存储器1203可选的还可以是至少一个位于远离前述处理器
1201的存储装置。存储器1203中存储一组程序代码,且处理器1201执行存储器1203中的程
序:
[0169] 获取待判别的目标语句的语句长度;
[0170] 当所述语句长度小于预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
[0171] 按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
[0172] 根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
[0173] 可选的,处理器1201还用于执行如下操作步骤:
[0174] 根据所述语言模型,确定所述N个分词词语中多个语义联系的多个词语;
[0175] 将所述语义联系的多个词语组合成所述组合词语。
[0176] 可选的,处理器1201还用于执行如下操作步骤:
[0177] 根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
[0178] 将所述位置连续的多个词语组合成所述组合词语。
[0179] 可选的,处理器1201还用于执行如下操作步骤:
[0180] 根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
[0181] 确定所述词语集合中每个词语的词语类型;
[0182] 根据所述词语类型,确定所述分类信息。
[0183] 可选的,处理器1201还用于执行如下操作步骤:
[0184] 将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K 为不小于1的整数;
[0185] 按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
[0186] 可选的,所述K种词语类型包括第一词语类型、第二词语类型和第三词语类型;所述分类信息包括语句类型;
[0187] 处理器1201还用于执行如下操作步骤:
[0188] 当所述词语集合包含所述第一词语类型的词语时,确定所述语句类型为第一语句类型;或
[0189] 当所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述语句类型为所述第一语句类型。
[0190] 可选的,处理器1201还用于执行如下操作步骤:
[0191] 当所述语句长度不小于所述预设阈值、或根据所述N个分词词语和所述M 个组合词语无法确定所述分类信息时,获取预设语料库中的多条语料,所述多条语料中每条语料
对应一个类型标签;
[0192] 确定所述每条语料的文本特征,所述文本特征包括字词特征和拼音特征中的至少一项;
[0193] 将所述类型标签和所述文本特征输入待训练模型进行训练,得到文本分类模型;
[0194] 根据所述文本分类模型,确定所述分类信息。
[0195] 可选的,所述目标语句包括多个用户对话过程中目标用户产生的多条对话语句;所述分类信息包括分类概率和语句类型;所述语句类型包括第一语句类型、第二语句类型
和第三语句类型中的至少一种;
[0196] 处理器1201还用于执行如下操作步骤:
[0197] 确定所述多条对话语句中属于每种语句类型、且所述分类概率大于预设阈值的对话语句的累积数量;
[0198] 根据所述累积数量,确定所述目标用户是否存在违规对话行为。
[0199] 可选的,处理器1201还用于执行如下操作步骤:
[0200] 当所述多条对话语句中属于所述第一语句类型、且所述分类概率大于第一预设阈值的对话语句的累积数量大于第二预设阈值时,确定所述目标用户存在所述违规对话行
为;或
[0201] 当所述多条对话语句中属于所述第二语句类型、且所述分类概率大于第三预设阈值的对话语句的累积数量大于第四预设阈值时,确定所述目标用户存在所述违规对话行
为。或
[0202] 当所述多条对话语句中属于所述第三语句类型、且所述分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定所述目标用户不存所述违规对话行
为。
[0203] 进一步的,处理器还可以与存储器和通信接口相配合,执行上述发明实施例中语句分类装置所执行的操作。
[0204] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或
部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者
是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以
磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0205] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈