首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 一种用于智能质检服务禁语的识别方法及系统

一种用于智能质检服务禁语的识别方法及系统

阅读:762发布:2020-05-11

专利汇可以提供一种用于智能质检服务禁语的识别方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及 自然语言处理 技术,为用于智能质检服务禁语的识别方法及系统,其方法包括:文本转写及文本预处理,对客服的文本数据进行字母大小写转换和 词性标注 ;关键词检索;文本转写错误识别,根据历史客服会话文本数据判断文本转写合理或文本转写错误;文本语义分析,通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;过滤客服没有违禁用语的识别结果,得到最终的质检结果。本发明在 文本分析 过程中结合关键词在文本中的语境以及历史的会话文本数据,并通过一些规则匹配,提升了质检的准确率。,下面是一种用于智能质检服务禁语的识别方法及系统专利的具体信息内容。

1.一种用于智能质检服务禁语的识别方法,其特征在于,包括以下步骤:
文本转写及文本预处理:根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注
关键词检索:根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
文本转写错误识别:根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
文本语义分析:通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
过滤客服没有违禁用语的识别结果,得到最终的质检结果。
2.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本转写错误识别过程中,首先收集一批历史客服会话文本数据,所收集的历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;然后基于收集到的历史客服会话文本数据,训练语言模型;最后对命中服务禁语关键词的客服会话内容进行预测,基于语言模型通过历史客服会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
3.根据权利要求2所述的用于智能质检服务禁语的识别方法,其特征在于,所述语言模型为2_gram语言模型。
4.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本转写及文本预处理过程中,词性标注采用基于统计模型的标注方法,通过词性标注集标注句子分词后每个词的词性。
5.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本语义分析过程,包括关键词的否定词前缀识别和关键词所指对象识别两部分。
6.根据权利要求5所述的用于智能质检服务禁语的识别方法,其特征在于,关键词的否定词前缀识别过程中,判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,再判断文本中服务禁语关键词前面的第一个词是否属于动词,如果不是动词则判断客服违禁用语,如果是动词则判断文本中服务禁语关键词前面的第二个词是否属于否定词,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语。
7.根据权利要求5所述的用于智能质检服务禁语的识别方法,其特征在于,关键词所指对象识别过程中,根据词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。
8.一种用于智能质检服务禁语的识别系统,其特征在于,包括:
文本转写及文本预处理模,用于根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注;
关键词检索模块,用于根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
文本转写错误识别模块,用于根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
文本语义分析模块,用于通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
结果输出模块,用于过滤客服没有违禁用语的识别结果,得到最终的质检结果。
9.根据权利要求8所述的用于智能质检服务禁语的识别系统,其特征在于,所述文本转写错误识别模块首先收集一批历史客服会话文本数据,所收集的历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;然后基于收集到的历史客服会话文本数据,训练语言模型;最后对命中服务禁语关键词的客服会话内容进行预测,基于语言模型通过历史客服会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
10.根据权利要求8所述的用于智能质检服务禁语的识别系统,其特征在于,所述文本语义分析模块,包括:
关键词的否定词前缀识别模块,用于判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,再判断文本中服务禁语关键词前面的第一个词是否属于动词,如果不是动词则判断客服违禁用语,如果是动词则判断文本中服务禁语关键词前面的第二个词是否属于否定词,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语;
关键词所指对象识别模块,用于根据词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。

说明书全文

一种用于智能质检服务禁语的识别方法及系统

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体而言,涉及一种用于智能质检服务禁语的识别方法及系统。

背景技术

[0002] 服务质检是热线服务运营过程中非常重要的一个品质管控环节。传统的服务质检主要依托人工抽检日常座席员的录音进行跟听、分析。对发现的各类问题制定提升计划,实施改善方案,从而进一步完善内部服务质量控制体系,并从数据上客观真实地反映出呼叫中心前台与后台在各环节上的快速响应性与紧密合作性,寻找服务短板,提出改进意见、建议并协助做好业务流程改善,从而不断提升呼叫中心客户服务热线的服务平。然而,传统的质检采取了人工抽检方式,抽检结果覆盖率较低,人员抽检耗时,时效性较低。
[0003] 随着语音转化成文本技术的成熟,智能质检逐步取代人工质检。智能质检,是通过将语音转化成文本实现智能质检分析,从而实现语音全覆盖自动质检,大大减少了运营成本。
[0004] 服务禁语质检,即判断客服是否有说到违禁用语,是智能质检最基础、最重要的一个质检流程。目前智能质检中服务禁语质检方式比较单一,往往是直接对客服的会话文本内容进行服务禁语关键字检索,检索到服务禁语关键字则客服服务不规范,在语音转化成文本存在误差和没结合文本语义理解的情况下,质检结果不够准确,进而无法满足实际需求。

发明内容

[0005] 针对现有技术所存在的问题,本发明提供一种用于智能质检服务禁语的识别方法及系统,在文本分析过程中结合关键词在文本中的语境以及历史的会话文本数据,并通过一些规则匹配,提升了质检的准确率。
[0006] 本发明用于智能质检服务禁语的识别方法,包括以下步骤:
[0007] 文本转写及文本预处理:根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注
[0008] 关键词检索:根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
[0009] 文本转写错误识别:根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
[0010] 文本语义分析:通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
[0011] 过滤客服没有违禁用语的识别结果,得到最终的质检结果。
[0012] 在优选的实施例中,文本转写错误识别过程中,首先收集一批历史客服会话文本数据,所收集的历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;然后基于收集到的历史客服会话文本数据,训练语言模型;最后对命中服务禁语关键词的客服会话内容进行预测,基于语言模型通过历史客服会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
[0013] 而文本语义分析过程,包括关键词的否定词前缀识别和关键词所指对象识别两部分。在关键词的否定词前缀识别过程中,判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,再判断文本中服务禁语关键词前面的第一个词是否属于动词,如果不是动词则判断客服违禁用语,如果是动词则判断文本中服务禁语关键词前面的第二个词是否属于否定词,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语。在关键词所指对象识别过程中,根据词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。
[0014] 本发明用于智能质检服务禁语的识别系统,包括:
[0015] 文本转写及文本预处理模,用于根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注;
[0016] 关键词检索模块,用于根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
[0017] 文本转写错误识别模块,用于根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
[0018] 文本语义分析模块,用于通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
[0019] 结果输出模块,用于过滤客服没有违禁用语的识别结果,得到最终的质检结果。
[0020] 与现有技术相比,本发明具有如下优点及有益效果:可理解文本语义和区分转写错误,在文本分析过程中结合关键词在文本中的语境以及历史的会话文本数据,并通过一些规则匹配,对客服文本中是否有违禁用语进行分析及识别,可过滤客服没有违禁用语的识别结果,提升了质检的准确率。附图说明
[0021] 图1为本发明智能质检服务禁语的识别流程图
[0022] 图2为客服文本语义分析中关键词的否定词前缀识别流程图;
[0023] 图3为客服文本语义分析中关键词所指对象识别流程图。

具体实施方式

[0024] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0025] 实施例
[0026] 本发明用于智能质检服务禁语的识别方法,总体流程如图1,包括以下步骤:
[0027] S1、数据输入,文本转写:将客服录音数据转写为客服的文本数据。
[0028] S2、文本预处理:对所转写的客服的文本数据进行字母大小写转换和词性标注。由于文本数据字母大小写不统一,字母大小写转换可保证文本数据的一致性,因此将文本数据中的小写字母统一转换成大字母。词性标注,采用基于统计模型的标注方法,通过词性标注集标注句子分词后每个词的词性,以便后续文本语义分析的应用。
[0029] S3、关键词检索:根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配。
[0030] S4、文本转写错误识别:首先需要收集一批历史客服会话文本数据,这批历史客服会话文本数据需要满足2个条件,第一个是命中服务禁语关键词的客服会话内容,第二个是命中的服务禁语关键词是转写错误的。然后基于收集到的历史客服会话文本数据,训练2_gram语言模型。最后对命中服务禁语关键词的客服会话内容进行预测,基于2_gram语言模型通过历史客服会话文本数据计算句子概率。句子概率的计算值超过一定的句子概率预设阈值时判断步骤S1文本转写合理,否则判断步骤S1文本转写错误,从而优化质检准确率。
[0031] 举例说明,客服说了一句“您的基本套餐是38元”,由于转写错误,上述客服的语音数据转写成客服文本数据为“您的几把套餐是38元”,由于服务禁语词库存在“几把”关键词,所以“您的几把套餐是38元”在步骤S3中被识别为客服文本数据中含有违禁用语。该客服文本数据智能质检的流程将进入步骤S4,假定所收集的历史客服会话文本数据的总数为 16027,句子合理性概率的阈值为0.8e-6,下列表一、表二为词语、词语组合的统计情况。
[0032]词语 您 的 几把 套餐 是 38元
词频 2039 389 52 1627 1045 242
[0033] 表一
[0034] 词语的组合 历史文本中出现次数您->的 1010
的->几把 54
几把-套餐 40
套餐->是 506
是->38元 35
[0035] 表二
[0036] 对“您的几把套餐是38元”进行句子合理性概率计算,最终得到概率为1.15e-6,由于 1.15e-6>0.8e-6,即句子合理性概率的计算值大于句子合理性概率的阈值,所以“您的几把套餐是38元”判断为文本转写错误的句子。句子合理性概率的具体计算过程如下:
[0037]
[0038] S5、文本语义分析:包括关键词的否定词前缀识别和关键词所指对象识别两部分。分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果。
[0039] 关键词的否定词前缀识别过程中,判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词。本实施例基于否定词库进行匹配识别,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,判断文本中服务禁语关键词前面的第一个词是否属于动词,根据jieba词性标注进行判断,如果不是动词,则判断客服违禁用语;如果服务禁语关键词前面的第一个词是动词,则判断文本中服务禁语关键词前面的第二个词是否属于否定词,同样采用基于否定词库进行匹配识别,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语,具体流程见图 2。
[0040] 举例说明,三段客服会话文本“真坑啊”、“不是坑啊没说假”、“不是说坑你”依次命中的服务禁语关键词为“坑啊”、“坑啊”、“坑你”。经过上述关键词的否定词前缀识别流程最终依次得到的识别结果为“客服违禁用语”、“客服没有违禁用语”、“客服没有违禁用语”,具体如下表三所示:
[0041]
[0042] 表三
[0043] 关键词所指对象识别过程中,根据jieba词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,基于第二人称代词词典进行关键词匹配,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。具体流程见图 3。
[0044] 举例说明,两段客服会话文本“他在搞笑”、“你是在搞笑”,由于服务禁语词库存在“搞笑”关键词,所以两段客服会话文本都是到命中到服务禁语关键词,进入关键词所指对象识别过程中,两段客服会话文本都存在代词,依次为“他”和“你”,再进入代词是否为第二人称代词识别中,“你”为第二人称代词,所以“他在搞笑”客服会话文本代表客服没有违禁用语,“你是在搞笑”客服会话文本代表客服违禁用语。具体如下表四:
[0045]
[0046] 表四
[0047] S6、输入的客服会话文本数据经过步骤S2-S5的处理,过滤客服没有违禁用语的识别结果,得到最终的质检结果,从而提高质检准确率。
[0048] 本发明用于智能质检服务禁语的识别系统,包括:文本转写及文本预处理模块,用于实现上述步骤S1、S2;关键词检索模块,用于实现上述步骤S3;文本转写错误识别模块,用于实现上述步骤S4;文本语义分析模块,用于实现上述步骤S5;以及结果输出模块,用于实现上述步骤S6。
[0049] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈