技术领域
[0001] 本
发明涉及语音识别技术领域,具体为一种离线质检用语音识别方法及系统。
背景技术
[0002] 语音识别技术相当复杂,包括了声学、语言学、数字
信号处理、统计模式、概率论和信息论、发声机理和听觉机理、
人工智能等多学科技术的一项综合性技术,研究所投入的人
力、物力等非常大,所需时间相对也比较长。
[0003] 语音识别属于多维
模式识别和智能计算机
接口的范畴,语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的语音命令,理解人的意图并作出相应的反应。事实上,让机器听懂人的语言,一直是人类长期追求的理想,有着广泛的应用需求。在目前的客服系统中,需要广泛的应用到语音识别功能来对客户的需求进行识别和监测,方便团队及时做出政策调整,实现两种语言间的直接通信,即通过“语音识别-
机器翻译-文本合成”将一种语言直接转换成另一种语言;语音世界可以使用户通过语音直接检索
数据库,也就是类似互联网
搜索引擎的语音搜索,获取所需的信息,或者语音电话拨号。
[0004] 但是,现有的离线质检语音识别系统,在使用的过程中,识别的错误率较高并且识别过程较复杂。
发明内容
[0005] 本发明所要解决的技术问题在于,提供一种离线质检用语音识别方法及系统,具备错误率较低和流程较简单等优点,解决了以往离线质检系统错误率较高和流程较复杂的问题。
[0006] 为解决上述技术问题,本发明的一方面,提供一种离线质检用语音识别方法,其包括以下步骤:
[0007] 步骤一、语音转码:对客服系统的通话录音进行语音转码;
[0008] 步骤二、语音
文本分析:将转码后的文本或者命令转码为相应的语音文件;
[0009] 步骤三、语义理解:将转换后的文本或者命令通过预先设置好的程序进行上下文语义分析;
[0010] 步骤四、语义核对:将分析后的语义在
知识库进行查询,并根据对比结果返回答案;
[0011] 步骤五、声纹检测:将返回的语义提取声纹,并和已登记的声纹进行比较,对用户进行身份校验和
鉴别。
[0012] 优选地,在所述步骤一中,所述的转码过程采用ASR语音识别技术,转码完毕后上传至
云平台。
[0013] 优选地,在所述步骤二中,所述的语音文本分析过程中采用TTS语音合成技术,在合成的同时,进行语音数据的传输和云端的识别,将收集到的语料进行模型的优化训练。
[0014] 优选地,在所述步骤三中,具体包括:由识别机器首先对客户的需求信息进行对比合成,并由知识库返回答案后,进行智能问答。
[0015] 优选地,在所述步骤五中,所述的声纹检测过程由系统对录音的音色进行识别,使用i-vector
算法进行比对。
[0016] 相应地,本发明的另一方面,还提供一种离线质检用语音识别系统,其包括:
[0017] 语音转码单元,用于对客服系统的通话录音进行语音转码;
[0018] 语音文本分析单元,用于将转码后的语音文件转码为相应的文本或者命令;
[0019] 语义理解单元,用于将转换后的文本或者命令通过预先设置好的程序进行上下文语义分析;
[0020] 语义核对单元,用于将分析后的语义在知识库进行查询,并根据对比结果返回答案;
[0021] 声纹检测单元,用于将返回的语义提取声纹,并和已登记的声纹进行比较,对用户进行身份校验和鉴别。
[0022] 优选地,所述语音转码单元采用ASR语音识别技术,转码完毕后上传至云平台。
[0023] 优选地,所述语音文本分析单元具体地采用TTS语音合成技术,在合成的同时,进行语音数据的传输和云端的识别,将收集到的语料进行模型的优化训练。
[0024] 优选地,所述语义理解单元具体地采用识别机器首先对客户的需求信息进行对比合成,并由知识库返回答案后,进行智能问答。
[0025] 优选地,所述声纹检测单元具体地对录音的音色进行识别,使用i-vector算法进行比对。
[0026] 实施本发明
实施例,具有以下的有益效果:
[0027] 本发明所提供的一种离线质检用语音识别系统及方法,可以对8k语音连续语音识别率可以达到80%,定
制模型识别率可以达到85%以上,并可根据实际需要进行
声学模型和语言模型的定制,在定制领域内,可较大幅度的提高识别率;
[0028] 在本发明提供的实施例中,语义理解技术可实现意图理解与智能问答两类核心功能,支持上下文语义分析、多轮对话和实体属性,可适配多领域,理解准确率高和误识率低,支持用户自定义词典、同义词和敏感词等功能,使计算机能够理解和运用人类社会自然语言,实现人与机器之间的自然语言通信等;
[0029] 在本发明提供的实施例中,能够通过说话人语音中的声纹和已登记的声纹进行比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的某个人。
附图说明
[0030] 图1是本发明提供的一种离线质检用语音识别方法的主流程示意图;
[0031] 图2是图1中涉及的声纹识别技术的原理图;
[0032] 图3是本发明提供的一种离线质检用语音识别系统的结构示意图。
具体实施方式
[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0034] 为使本领域的普通技术人员更加清楚地理解发明的目的、技术方案和优点,以下结合附图和实施例对发明做进一步的阐述。
[0035] 如图1所示,是本发明提供的一种离线质检用语音识别方法的主流程示意图,一并结合图2所示。在本实施例中,所述离线质检用语音识别方法包括如下步骤:
[0036] 步骤S11、语音转码步骤:对客服系统的通话录音进行语音转码;
[0037] 步骤S12、语音文本分析步骤:将转码后的文本或者命令转码为相应的语音文件;
[0038] 步骤S13、语义理解步骤:将转换后的文本或者命令通过预先设置好的程序进行上下文语义分析;
[0039] 步骤S14、语义核对步骤:将分析后的语义在知识库进行查询,并根据对比结果返回答案;
[0040] 步骤S15、声纹检测步骤:将返回的语义提取声纹,并和已登记的声纹进行比较,对用户进行身份校验和鉴别。
[0041] 在一个具体的例子中,在所述步骤S11中,所述的转码过程采用ASR(Automatic Speech Recognition,自动语音识别)语音识别技术,转码完毕后上传至云平台。
[0042] 在一个具体的例子中,在所述步骤S12中,所述的语音文本分析过程中采用TTS(Text To Speech,文本转语音)语音合成技术,在合成的同时,进行语音数据的传输和云端的识别,将收集到的语料进行模型的优化训练,此处收集到的语料指来自客户呼出的语音,而模型的优化训练的内容主要是模型内语音的过滤和筛选,可以参考图2所示。
[0043] 在一个具体的例子中,在所述步骤S13中,具体包括:由识别机器首先对客户的需求信息进行对比合成,并由知识库返回答案后,进行智能问答。具体地,将转换后的文本或者命令通过预先设置好的程序进行上下文语义分析,语义理解技术由识别机器首先对客户的需求信息进行对比合成,并由知识库返回答案后,进行智能问答,语义理解技术可实现意图理解与智能问答两类核心功能,支持上下文语义分析、多轮对话和实体属性,可适配多领域,理解准确率高和误识率低,支持用户自定义词典、同义词和敏感词等功能,使计算机能够理解和运用人类社会自然语言,实现人与机器之间的自然语言通信等;
[0044] 在一个具体的例子中,在步骤S14中,将分析后的语义在知识库进行查询,并根据对比结果返回答案;此时返回的内容也是经转码后的语音文件;
[0045] 在一个具体的例子中,在所述步骤S14中,所述的声纹检测过程由系统对录音的音色进行识别,使用i-vector算法(身份认证矢量,identity vector)进行比对。具体地,将返回的语义提取声纹,并和已登记的声纹进行比较,对用户进行身份校验和鉴别,声纹监测过程由系统对录音的音色进行识别,使用i-vector算法进行比对,能够通过说话人语音中的声纹和已登记的声纹进行比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的某个人;可以理解的是,如果是客户首次呼入,则进行记录,方便下次核对。
[0046] 可以理解的是,本发明提供的离线质检用语音识别方法,可以通过语音识别技术,是在无客服人员的情况下系统进行智能应答,此处的离线质检识别强调为无客服人员情况所做的智能识别和应答,其对8k语音连续语音识别率可以达到80%,定制模型识别率可以达到85%以上,并可根据实际需要进行声学模型和语言模型的定制,在定制领域内,可较大幅度的提高识别率,此处的定制模型指预先存储在系统中的模型;语义理解技术可实现意图理解与智能问答两类核心功能,支持上下文语义分析、多轮对话和实体属性,可适配多领域,理解准确率高和误识率低,支持用户自定义词典、同义词和敏感词等功能,使计算机能够理解和运用人类社会自然语言,实现人与机器之间的自然语言通信等,能够通过说话人语音中的声纹和已登记的声纹进行比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的某个人。
[0047] 如图3所示,示出了本发明提供的一种离线质检用语音识别系统的结构示意图。在本实施例中,所述离线质检用语音识别系统1包括:
[0048] 语音转码单元10,用于对客服系统的通话录音进行语音转码;
[0049] 语音文本分析单元11,用于将转码后的语音文件转码为相应的文本或者命令;
[0050] 语义理解单元12,用于将转换后的文本或者命令通过预先设置好的程序进行上下文语义分析;
[0051] 语义核对单元13,用于将分析后的语义在知识库进行查询,并根据对比结果返回答案;
[0052] 声纹检测单元14,用于将返回的语义提取声纹,并和已登记的声纹进行比较,对用户进行身份校验和鉴别。
[0053] 在一个具体的例子中,所述语音转码单元10采用ASR语音识别技术,转码完毕后上传至云平台。
[0054] 在一个具体的例子中,所述语音文本分析单元11具体地采用TTS语音合成技术,在合成的同时,进行语音数据的传输和云端的识别,将收集到的语料进行模型的优化训练。
[0055] 在一个具体的例子中,所述语义理解单元12具体地采用识别机器首先对客户的需求信息进行对比合成,并由知识库返回答案后,进行智能问答。
[0056] 在一个具体的例子中,所述声纹检测单元14具体地对录音的音色进行识别,使用i-vector算法进行比对。
[0057] 更多细节,可参考前述对图1及图2的描述,在此不进行赘述。
[0058] 实施本发明实施例,具有以下的有益效果:
[0059] 本发明所提供的一种离线质检用语音识别系统及方法,可以对8k语音连续语音识别率可以达到80%,定制模型识别率可以达到85%以上,并可根据实际需要进行声学模型和语言模型的定制,在定制领域内,可较大幅度的提高识别率;
[0060] 在本发明提供的实施例中,语义理解技术可实现意图理解与智能问答两类核心功能,支持上下文语义分析、多轮对话和实体属性,可适配多领域,理解准确率高和误识率低,支持用户自定义词典、同义词和敏感词等功能,使计算机能够理解和运用人类社会自然语言,实现人与机器之间的自然语言通信等;
[0061] 在本发明提供的实施例中,能够通过说话人语音中的声纹和已登记的声纹进行比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的某个人。
[0062] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉
本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。