专利汇可以提供一种用于智能质检服务禁语的识别方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及 自然语言处理 技术,为用于智能质检服务禁语的识别方法及系统,其方法包括:文本转写及文本预处理,对客服的文本数据进行字母大小写转换和 词性标注 ;关键词检索;文本转写错误识别,根据历史客服会话文本数据判断文本转写合理或文本转写错误;文本语义分析,通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;过滤客服没有违禁用语的识别结果,得到最终的质检结果。本发明在 文本分析 过程中结合关键词在文本中的语境以及历史的会话文本数据,并通过一些规则匹配,提升了质检的准确率。,下面是一种用于智能质检服务禁语的识别方法及系统专利的具体信息内容。
1.一种用于智能质检服务禁语的识别方法,其特征在于,包括以下步骤:
文本转写及文本预处理:根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注;
关键词检索:根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
文本转写错误识别:根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
文本语义分析:通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
过滤客服没有违禁用语的识别结果,得到最终的质检结果。
2.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本转写错误识别过程中,首先收集一批历史客服会话文本数据,所收集的历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;然后基于收集到的历史客服会话文本数据,训练语言模型;最后对命中服务禁语关键词的客服会话内容进行预测,基于语言模型通过历史客服会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
3.根据权利要求2所述的用于智能质检服务禁语的识别方法,其特征在于,所述语言模型为2_gram语言模型。
4.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本转写及文本预处理过程中,词性标注采用基于统计模型的标注方法,通过词性标注集标注句子分词后每个词的词性。
5.根据权利要求1所述的用于智能质检服务禁语的识别方法,其特征在于,文本语义分析过程,包括关键词的否定词前缀识别和关键词所指对象识别两部分。
6.根据权利要求5所述的用于智能质检服务禁语的识别方法,其特征在于,关键词的否定词前缀识别过程中,判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,再判断文本中服务禁语关键词前面的第一个词是否属于动词,如果不是动词则判断客服违禁用语,如果是动词则判断文本中服务禁语关键词前面的第二个词是否属于否定词,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语。
7.根据权利要求5所述的用于智能质检服务禁语的识别方法,其特征在于,关键词所指对象识别过程中,根据词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。
8.一种用于智能质检服务禁语的识别系统,其特征在于,包括:
文本转写及文本预处理模块,用于根据客服录音数据转写为客服的文本数据,对客服的文本数据进行字母大小写转换和词性标注;
关键词检索模块,用于根据服务禁语词库的关键词对预处理后的客服的文本数据进行匹配;
文本转写错误识别模块,用于根据历史客服会话文本数据判断文本转写合理或文本转写错误,所述历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;
文本语义分析模块,用于通过分析命中服务禁语关键词的客服会话内容中文本的语义,得到客服没有违禁用语或客服违禁用语的识别结果;
结果输出模块,用于过滤客服没有违禁用语的识别结果,得到最终的质检结果。
9.根据权利要求8所述的用于智能质检服务禁语的识别系统,其特征在于,所述文本转写错误识别模块首先收集一批历史客服会话文本数据,所收集的历史客服会话文本数据是命中服务禁语关键词的客服会话内容且命中的服务禁语关键词是转写错误的;然后基于收集到的历史客服会话文本数据,训练语言模型;最后对命中服务禁语关键词的客服会话内容进行预测,基于语言模型通过历史客服会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
10.根据权利要求8所述的用于智能质检服务禁语的识别系统,其特征在于,所述文本语义分析模块,包括:
关键词的否定词前缀识别模块,用于判断客服会话文本中服务禁语关键词前面的第一个词是否属于否定词,如果服务禁语关键词前面的第一个词为否定词,则判断客服没有违禁用语;如果服务禁语关键词前面的第一个词不是否定词,再判断文本中服务禁语关键词前面的第一个词是否属于动词,如果不是动词则判断客服违禁用语,如果是动词则判断文本中服务禁语关键词前面的第二个词是否属于否定词,如果是否定词,则判断客服没有违禁用语,反之则判断客服违禁用语;
关键词所指对象识别模块,用于根据词性标注后的词性判断客服会话文本中服务禁语关键词前所有词语是否存在代词,如果不存在代词,则判断客服没有违禁用语;如果存在代词,则判断存在的代词是否为第二人称代词,如果不是第二人称代词,则判断客服没有违禁用语,反之则判断客服违禁用语。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
结构化处理方法、装置、计算机设备及介质 | 2020-05-13 | 841 |
客户行为预测方法、装置、设备及介质 | 2020-05-14 | 512 |
问答阅读理解模型获取方法、装置、电子设备及存储介质 | 2020-05-11 | 12 |
一种基于机器学习的从半结构化文档中提取问答对的方法 | 2020-05-12 | 608 |
用于循环神经网络自然语言处理的稀疏矩阵乘法加速器 | 2020-05-13 | 217 |
一种基于句法模式和机器学习的开放式关系的抽取方法 | 2020-05-14 | 806 |
一种基于双向长短期记忆网络的实体属性值的抽取方法 | 2020-05-14 | 134 |
视频内容热度预测方法和装置 | 2020-05-12 | 490 |
一种地址信息文本的提取方法及相关设备 | 2020-05-08 | 562 |
基于机器学习的高校前沿科研团队探测系统 | 2020-05-12 | 395 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。