语音文件检索方法及系统专利检索-音素信号处理专利检索查询-专利查询网

语音文件检索方法及系统

阅读：1022发布：2020-08-16

专利汇可以提供语音文件检索方法及系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种语音文件检索方法及系统，该方法包括：训练对应检索关键词的用户兴趣模型；获取待检索的各语音文件；对所述语音文件进行语音转写，得到转写结果；根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征；利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句；根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；根据所述相关度展示检索出的语音文件。利用本发明，可以提高语音文件检索效率及准确性。，下面是语音文件检索方法及系统专利的具体信息内容。

权利要求

1.一种语音文件检索方法，其特征在于，包括：
训练对应检索关键词的用户兴趣模型；
获取待检索的各语音文件；
对所述语音文件进行语音转写，得到转写结果；
根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征；
利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句；
根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；
根据所述相关度展示检索出的语音文件信息。
2.根据权利要求1所述的方法，其特征在于，所述检索关键词是用户在检索时输入的一个或多个检索关键词，或者是预先从一些特定情景语料中搜集得到的一个或多个关键词。
3.根据权利要求1所述的方法，其特征在于，所述训练对应检索关键词的用户兴趣模型包括：
收集包含所述检索关键词的语料；
计算所述语料中各词的词向量；
利用所述词向量训练回归模型，将所述回归模型作为用户兴趣模型。
4.根据权利要求1所述的方法，其特征在于，所述转写结果为词级混淆网络格式，所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度；
所述多知识源特征包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分。
5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
对所述混淆网络中的各词进行切分，得到该词对应的音素信息；
所述多知识源特征还包括以下任意一种或多种：各词对应的音素后验概率、状态帧方差；词位置系数；词长；是否为停止词；时长；竞争词个数；短时平均能量。
6.根据权利要求4或5所述的方法，其特征在于，所述对所述文本文件中各词进行置信度评估包括：
根据所述多知识源特征为各词生成一组多维特征向量；
利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
7.根据权利要求6所述的方法，其特征在于，所述根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度包括：
对于每个文本文件，计算所述文本文件中各词的词向量；
将各词的置信度重估结果作为该词的权重，对所述文本文件中出现的所有词的词向量进行加权平均，得到所述文本文件的向量：
根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
8.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述相关度展示检索出的语音文件信息包括：
按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息；或者按照相关度从大到小依次展示设定个数的语音文件信息。
9.根据权利要求8所述的方法，其特征在于，所述方法还包括：
设定针对不同重要性级别的相关度阈值；
根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别；
在展示所述语音文件信息时，展示所述语音文件的重要性级别信息。
10.一种语音文件检索系统，其特征在于，包括：
模型训练模块，用于训练对应检索关键词的用户兴趣模型；
语音文件获取模块，用于获取待检索的各语音文件；
语音转写模块，用于对所述语音文件进行语音转写，得到转写结果；
文本文件生成模块，用于根据所述转写结果获得所述语音文件对应的文本文件；
特征获取模块，用于获取所述文本文件中各词的多知识源特征；
置信度重估模块，用于利用所述多知识源特征对各词进行置信度重估；
过滤模块，用于滤除所述文本文件中无意义的词句；
相关度计算模块，用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；
展示模块，用于根据所述相关度展示检索出的语音文件信息。
11.根据权利要求10所述的系统，其特征在于，所述模型训练模块包括：
语料收集单元，用于收集包含所述检索关键词的语料；
词向量计算单元，用于计算所述语料中各词的词向量；
训练单元，用于利用所述词向量训练回归模型，将所述回归模型作为用户兴趣模型。
12.根据权利要求10所述的系统，其特征在于，所述转写结果为词级混淆网络格式，所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度；所述多知识源特征包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分；
所述置信度重估模块包括：
多维特征向量生成单元，用于根据所述多知识源特征为各词生成一组多维特征向量；
置信度计算单元，用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
13.根据权利要求10所述的系统，其特征在于，所述相关度计算模块包括：
词向量计算单元，用于对于每个文本文件，计算所述文本文件中各词的词向量；
文件向量计算单元，用于将各词的置信度重估结果作为该词的权重，对所述文本文件中出现的所有词的词向量进行加权平均，得到所述文本文件的向量：
相关度计算单元，用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
14.根据权利要求10至13任一项所述的系统，其特征在于，所述展示模块具体用于按照相关度从大到小依次展示相关度大于设定阈值的语音文件，或者按照相关度从大到小依次展示设定个数的语音文件。
15.根据权利要求14所述的系统，其特征在于，所述系统还包括：
设定模块，用于设定针对不同重要性级别的相关度阈值；
级别确定模块，用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别；
所述展示模块，还用于在展示所述语音文件信息时，展示所述语音文件的重要性级别信息。

说明书全文

语音文件检索方法及系统

技术领域

[0001] 本发明涉及语音信号处理领域，具体涉及一种语音文件检索方法及系统。

背景技术

[0002] 随着语音处理技术的不断发展，在越来越多的应用中，相关技术人员已尝试从语音数据中获取所需信息，如从海量语音数据中检索出特定应用场景所需的语音文件。传统的从大量语音文件中检索出有用文件的做法主要有两种：

[0003] 第一种是人工进行语音文件监听，进而找出相关性较高、有用的文件，而这种方法需要耗费大量的人力和物力，效率较低。

[0004] 第二种是先将语音文件进行转写，得到文本文件，然后对文本文件进行检索。由于受复杂的噪声环境、远场等因素的影响，语音转写的正确率还不能较好的保证，因而在进行语音文件检索时，为保证检索的准确性，通常都需要对语音转写的结果进行人工校验，因而同样存在人力消耗大、效率低的问题。

发明内容

[0005] 本发明提供一种语音文件检索方法及系统，以解决现有语音文件检索时由于语音转写错误导致的效率低、准确性差的问题。

[0006] 为此，本发明提供如下技术方案：

[0007] 一种语音文件检索方法，包括：

[0008] 训练对应检索关键词的用户兴趣模型；

[0009] 获取待检索的各语音文件；

[0010] 对所述语音文件进行语音转写，得到转写结果；

[0011] 根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征；

[0012] 利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句；

[0013] 根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；

[0014] 根据所述相关度展示检索出的语音文件信息。

[0015] 优选地，所述检索关键词是用户在检索时输入的一个或多个检索关键词，或者是预先从一些特定情景语料中搜集得到的一个或多个关键词。

[0016] 优选地，所述训练对应检索关键词的用户兴趣模型包括：

[0017] 收集包含所述检索关键词的语料；

[0018] 计算所述语料中各词的词向量；

[0019] 利用所述词向量训练回归模型，将所述回归模型作为用户兴趣模型。

[0020] 优选地，所述转写结果为词级混淆网络格式，所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度；

[0021] 所述多知识源特征包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分。

[0022] 优选地，所述方法还包括：

[0023] 对所述混淆网络中的各词进行切分，得到该词对应的音素信息；

[0024] 所述多知识源特征还包括以下任意一种或多种：各词对应的音素后验概率、状态帧方差；词位置系数；词长；是否为停止词；时长；竞争词个数；短时平均能量。

[0025] 优选地，所述对所述文本文件中各词进行置信度评估包括：

[0026] 根据所述多知识源特征为各词生成一组多维特征向量；

[0027] 利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。

[0028] 优选地，所述根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度包括：

[0029] 对于每个文本文件，计算所述文本文件中各词的词向量；

[0030] 将各词的置信度重估结果作为该词的权重，对所述文本文件中出现的所有词的词向量进行加权平均，得到所述文本文件的向量：

[0031] 根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。

[0032] 优选地，所述根据所述相关度展示检索出的语音文件信息包括：

[0033] 按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息；或者[0034] 按照相关度从大到小依次展示设定个数的语音文件信息。

[0035] 优选地，所述方法还包括：

[0036] 设定针对不同重要性级别的相关度阈值；

[0037] 根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别；

[0038] 在展示所述语音文件信息时，展示所述语音文件的重要性级别信息。

[0039] 一种语音文件检索系统，包括：

[0040] 模型训练模块，用于训练对应检索关键词的用户兴趣模型；

[0041] 语音文件获取模块，用于获取待检索的各语音文件；

[0042] 语音转写模块，用于对所述语音文件进行语音转写，得到转写结果；

[0043] 文本文件生成模块，用于根据所述转写结果获得所述语音文件对应的文本文件；

[0044] 特征获取模块，用于获取所述文本文件中各词的多知识源特征；

[0045] 置信度重估模块，用于利用所述多知识源特征对各词进行置信度重估；

[0046] 过滤模块，用于滤除所述文本文件中无意义的词句；

[0047] 相关度计算模块，用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；

[0048] 展示模块，用于根据所述相关度展示检索出的语音文件信息。

[0049] 优选地，所述模型训练模块包括：

[0050] 语料收集单元，用于收集包含所述检索关键词的语料；

[0051] 词向量计算单元，用于计算所述语料中各词的词向量；

[0052] 训练单元，用于利用所述词向量训练回归模型，将所述回归模型作为用户兴趣模型。

[0053] 优选地，所述转写结果为词级混淆网络格式，所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度；所述多知识源特征包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分；

[0054] 所述置信度重估模块包括：

[0055] 多维特征向量生成单元，用于根据所述多知识源特征为各词生成一组多维特征向量；

[0056] 置信度计算单元，用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。

[0057] 优选地，所述相关度计算模块包括：

[0058] 词向量计算单元，用于对于每个文本文件，计算所述文本文件中各词的词向量；

[0059] 文件向量计算单元，用于将各词的置信度重估结果作为该词的权重，对所述文本文件中出现的所有词的词向量进行加权平均，得到所述文本文件的向量：

[0060] 相关度计算单元，用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。

[0061] 优选地，所述展示模块具体用于按照相关度从大到小依次展示相关度大于设定阈值的语音文件，或者按照相关度从大到小依次展示设定个数的语音文件。

[0062] 优选地，所述系统还包括：

[0063] 设定模块，用于设定针对不同重要性级别的相关度阈值；

[0064] 级别确定模块，用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别；

[0065] 所述展示模块，还用于在展示所述语音文件信息时，展示所述语音文件的重要性级别信息。本发明实施例提供的语音文件检索方法及系统，针对语音转写得到的文本文件存在一定数量的转写错误的现象，通过提取语音转写得到的文本文件中各词的多知识源特征，利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句，根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；根据所述相关度展示检索出的语音文件，从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件检索方法及系统，不仅大大提高了语音文件检索的效率，而且保证了检索结果的准确性。附图说明

[0066] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

[0067] 图1是本发明实施例语音文件检索方法的流程图；

[0068] 图2是本发明实施例语音文件检索系统的一种结构示意图；

[0069] 图3是本发明实施例中相关度计算模块的一种结构示意图；

[0070] 图4是本发明实施例语音文件检索系统的另一种结构示意图。

具体实施方式

[0071] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

[0072] 如图1所示，是本发明实施例语音文件检索方法的流程图，包括以下步骤：

[0073] 步骤101，训练对应检索关键词的用户兴趣模型。

[0074] 需要说明的是，所述检索关键词可以是用户在检索时输入的一个或多个检索关键词，也可以是预先从一些特定情景语料中搜集得到的一个或多个检索关键词，对此本发明实施例不做限定。

[0075] 所述用户兴趣模型可以采用回归模型，比如SVM(支持向量机)模型或RNN(Recurrent Neural Network、循环神经网络)模型，在训练回归模型时，可以采用现有的Word Embedding技术计算检索关键词的词向量表示，并结合待检索文本中与检索词无关的词向量动态训练回归模型，作为最终的用户兴趣模型。具体地，可以分别在预先准备的大语料库和待检索语音的文本中搜索包含所述检索关键词的语料作为正例样本，并随机抽取一些与所述检索关键词无关的语料作为反例样本，然后利用Word Embedding方法将这些样本语料转换为词向量，利用这些正例词向量和反例词向量即可训练回归模型。

[0076] 步骤102，获取待检索的各语音文件。

[0077] 步骤103，对所述语音文件进行语音转写，得到转写结果。

[0078] 具体地，可以采用大规模语音转写技术对所述语音文件进行转写，得到转写结果。

[0079] 在本发明实施例中，转写结果采用词级混淆网络格式，其不仅包括最优候选词，还包括多个竞争候选词。所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度等信息，以方便后续获取各词的多知识源特征。其中，所述原始置信度可以根据每个词的后验概率计算得到。

[0080] 需要说明的是，在实际应用中，可以设置每个词的相同位置上最多可以保留的竞争候选词的个数，比如15个。这些竞争候选词可以按照设定数量依照各词的原始置信度由大到小来选择，也可以按照设定的置信度阈值选择大于该阈值的候选词。而且，相同位置上所有竞争候选词的原始置信度之和为1。

[0081] 步骤104，根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征。

[0082] 具体地，通过混淆网络解码，可以得到所述语音文件对应的文本文件。

[0083] 所述多知识源特征可以包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分。当然，为了使后续置信度重估结果更准确，提取的多知识源特征还可进一步包括以下任意一种或多种：各词对应的音素后验概率、状态帧方差；词位置系数；词长；是否为停止词；时长；竞争词个数；短时平均能量等。

[0084] 下面对上述这些特征分别加以说明：

[0085] (1)词后验概率：当前词的后验概率；

[0086] (2)竞争词的后验概率差：混淆网络上两个相邻节点间最优的两个候选词的后验概率之差；

[0087] (3)语言模型得分；即当前词的N-Gram语言模型得分；

[0088] (4)帧平均声学模型得分：当前词的声学模型得分除以该词的特征总帧数；比如提取语音的声学特征(如MFCC)时帧移为10毫秒，则1秒钟语音能提出约100帧特征。按照这样的计算，比如“科大讯飞”这个词在语音文件中所占的长度为0.7秒，换算成总帧数就是70帧；

[0089] (5)音素后验概率：当前词对应各音素后验概率的平均值；

[0090] (6)状态帧方差：当前词对应各状态上特征总帧数的方差；

[0091] (7)词位置系数：当前词在句子中的位置i除以该词所在句子的总词数N；

[0092] (8)词长：当前词包含的总字数；

[0093] (9)是否为停止词；

[0094] (10)时长：当前词持续的时间长度；

[0095] (11)竞争词个数：混淆网络中两个相邻节点之间词的总数；

[0096] (12)短时平均能量：当前词对应语音文件中相应片段的短时平均能量。

[0097] 需要说明的是，可以通过对所述混淆网络中的各词进行FA进行强制切分，得到状态级信息(即语音的最小建模单元，一般一个词包含多个音素，每个音素包含多个状态)，即得到每个状态的后验概率，则每个音素的后验概率为该音素中所有状态后验概率的均值。

[0098] 步骤105，利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句。

[0099] 具体地，可以根据上述多知识源特征为各词生成一组多维特征向量，然后利用预先训练的回归模型(后面以SVM模型为例)及各词的多维特征向量计算该词的置信度。

[0100] 下面以后验概率及竞争词的后验概率差这两种知识源特征，说明为各词生成一组多维特征向量(以18维为例)的过程。

[0101] 为了描述方便，下面按照各特征在所述多维特征向量中的下标顺序进行说明：

[0102] 1)第1至9维：词的后验概率WPP(i-1),WPP2(i-1),WPP3(i-1),WPP(i),WPP2(i),WPP3(i),WPP(i+1),WPP2(i+1),WPP3(i+1)，其中i为当前词在句子中的位置，词i的后验概率WPP(i)的定义如下：

[0103]

[0104] p(i)＝pac(i)plm(i) (2)

[0105] 其中，αt(i)表示词i在t时刻的前向概率，βt(i)表示词i在t时刻的后向概率，前后向概率使用现有的前向后向算法计算得到，Ω表示t时刻出现的所有候选词的集合；pac(i)为词i的声学模型得分，plm(i)为词i的语言模型得分。

[0106] 2)第10至18维：竞争词的后验概率差

[0107]

[0108]

[0109]

[0110]

[0111]

[0112] 其中i为当前词在句子中的位置，下标onebest代表第一候选，twobest代表第二候选。

[0113] 将该多知识源特征向量在事先训练好的SVM模型上计算得分Sword：

[0114] Sword＝w1·x+b1 (3)

[0115] 上式中，w1是SVM分类平面的法向量，x是输入的多知识源特征向量，b1是偏置参数(常量)，这里的w1和b1是事先利用词的正例和反例数据训练出的。

[0116] 由于标准SVM分类器的输出结果不是以概率的形式给出，而本发明实施例需要使用SVM分类器获得关键词新的置信度，因此必须对SVM的输出结果施加变换以获得概率形式的得分输出。具体可以采用现有的方法对SVM输出结果进行变换，方法之一是对SVM的输出结果进行sigmoid变换：

[0117]

[0118] 其中，WPPword即为词置信度的重估结果；变量A和B是变换参数，采用最大似然准则训练得到。

[0119] 下面再以上述12种特征为例，说明为各词生成一组多维特征向量(以32维为例)的过程。

[0120] 为了描述方便，下面按照各特征在所述多维特征向量中的下标顺序进行说明：

[0121] 1)第1至9维：词的后验概率WPP(i-1),WPP2(i-1),WPP3(i-1),WPP(i),WPP2(i),WPP3(i),WPP(i+1),WPP2(i+1),WPP3(i+1)，其中i为当前词在句子中的位置，词i的后验概率WPP(i)的定义参照前面公式(1)、(2)。

[0122] 2)第10至18维：竞争词的后验概率差

[0123]

[0124]

[0125]

[0126]

[0127]

[0128] 其中i为当前词在句子中的位置，下标onebest代表第一候选，twobest代表第二候选。

[0129] 3)第19至21维：词的N-Gram语言模型得分Plm(i-1),Plm(i),Plm(i+1)；

[0130] 4)第22至24维：帧平均声学模型得分Pac(i-1)/Ni-1，Pac(i)/Ni，Pac(i+1)/Ni+1，其中Ni代表词i对应的语音帧数；

[0131] 5)第25维：词的音素后验概率PPPi

[0132]

[0133]

[0134] 本案采用深度神经网络(如RNN)对音素的声学分布建模，其输入是声学特征，输出是音素的后验概率，上式中M表示神经网络的输出维度。对于中文而言，M表示40个无调的音素加上sil(表示静音)和sp(表示词间停顿)共42个音素。上式中Nphone表示词i对应的音素总数，p(phj|Ot)是当前语音帧为Ot时音素为j的后验概率，ts和te分别表示当前(待重估)音素的开始帧和结束帧(语音转写过程中得到)，和为当前音素中第s个状态的开始帧和结束帧(对词做状态级切分后获得)。

[0135] 6)第26维：状态帧方差σsframe

[0136]

[0137]

[0138] 上式中，Ns表示当前词对应的状态数，Fs表示当前词第s个状态上获得的帧数(对词做状态级切分后获得)，μsframe是Ns个状态对应帧数的平均值。

[0139] 7)第27维：词的位置系数iloc/Nw，iloc表示当前词在句子中的位置序号，Nw表示当前句子包含的词的总数；

[0140] 8)第28维：词长，即当前词包含的字数；

[0141] 9)第29维：判断当前词是否为停止词，是停止词时为1，否则为0；

[0142] 10)第30维：当前词的时间长度，单位为秒；

[0143] 11)第31维：当前词对应的竞争词总数，即混淆网络中两个相邻结点间弧的总数；

[0144] 12)第32维：当前关键词对应语音文件中相应片段的短时平均能量。

[0145] 利用上述多知识源特征生成的32维特征向量对各词进行置信度重估的过程可参照前面公式(3)、(4)的描述，在此不再赘述。

[0146] 上面所述滤除文本文件中无意义的词句可以采用依存句法分析技术对转写后的文本进行句法分析，并将句法分析结果转换为词向量(如one-hot向量)，将该词向量作为特征，结合分类器(如SVM)对转写后文本中的词进行分类，依据分类结果过滤掉无意义的词(如语气词)和句子等内容。

[0147] 需要说明的是，上述对各词进行置信度重估和滤除文本文件中无意义的词句这两个过程在处理时不分先后，即可以先对各词进行置信度重估，再滤除文本文件中无意义的词句；也可以先滤除所述文本文件中无意义的词句，再对各词进行置信度重估。

[0148] 步骤106，根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度。

[0149] 首先，对过滤后的文本文件，采用现有的Word Embedding技术计算过滤后文本文件中每个词的词向量，记为V。

[0150] 然后，将各词的置信度重估结果作为该词的权重，对文本文件中出现的所有词的词向量进行加权平均，得到该文本文件的向量：

[0151]

[0152]

[0153] 上式中Nword为过滤后的文本文件包含词的总数，WPPi表示第i个词的置信度，Vi表示第i个词的词向量，Vdoc表示过滤后文本文件的向量。

[0154] 最后，计算当前文本文件与用户兴趣模型(以SVM模型为例)之间的相关度；

[0155] Sdoc＝w2·Vdoc+b2 (11)

[0156] 其中，参数w2为SVM分类平面的法向量、b2为偏置参数(常量)，由大量训练数据训练得到。

[0157] 进一步的，还可以将上述SVM输出的相关度值进行归一化处理，以便更直观地进行检索文件的排序。

[0158] 步骤107，根据所述相关度展示检索出的语音文件信息。

[0159] 具体地，可以按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息；或者按照相关度从大到小依次展示设定个数的语音文件信息。

[0160] 此外，还可对文件相关度得分划分对应不同级别的阈值，得到原始语音文件的重要性级别，如“高”、“中”和“低”等级别，将最终展示的语音文件信息和其级别信息一起展示给用户。

[0161] 需要说明的是，展示的语音文件信息可以是语音文件的主题名称、摘要、链接等信息，对此本发明实施例不做限定。

[0162] 本发明实施例提供的语音文件检索方法，针对语音转写得到的文本文件存在一定数量的转写错误的现象，通过提取语音转写得到的文本文件中各词的多知识源特征，利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句，根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；根据所述相关度展示检索出的语音文件，从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件排序方法，不仅大大提高了语音文件检索的效率，而且保证了检索结果的准确性。

[0163] 相应地，本发明实施例还提供一种语音文件检索系统，如图2所示，是该系统的一种结构示意图。

[0164] 在该实施例中，所述系统包括：

[0165] 模型训练模块201，用于训练对应检索关键词的用户兴趣模型；

[0166] 语音文件获取模块202，用于获取待检索的各语音文件；

[0167] 语音转写模块203，用于对所述语音文件进行语音转写，得到转写结果；

[0168] 文本文件生成模块204，用于根据所述转写结果获得所述语音文件对应的文本文件；

[0169] 特征获取模块205，用于获取所述文本文件中各词的多知识源特征；

[0170] 置信度重估模块206，用于利用所述多知识源特征对所述文本文件中各词进行置信度重估；

[0171] 过滤模块207，用于滤除所述文本文件中无意义的词句；

[0172] 相关度计算模块208，用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；

[0173] 展示模块209，用于根据所述相关度展示检索出的语音文件信息。

[0174] 需要说明的是，在实际应用中，所述检索关键词可以是用户在检索时输入的一个或多个检索关键词，也可以是预先从一些特定情景语料中搜集得到的一个或多个检索关键词，对此本发明实施例不做限定。

[0175] 所述用户兴趣模型可以采用回归模型，模型训练模块201在训练回归模型时，可以采用现有的Word Embedding技术计算检索关键词的词向量表示，并结合待检索文本中与检索词无关的词向量动态训练回归模型，作为最终的用户兴趣模型。相应地，模型训练模块201的一种具体结构可以包括以下各单元：

[0176] 语料收集单元，用于收集包含所述检索关键词的语料；

[0177] 词向量计算单元，用于计算所述语料中各词的词向量；

[0178] 训练单元，用于利用所述词向量训练回归模型，将所述回归模型作为用户兴趣模型。

[0179] 在本发明实施例中，所述转写结果为词级混淆网络格式，其不仅包括最优候选词，还包括多个竞争候选词。所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度。另外，所述多知识源特征包括以下特征中的至少两种：词后验概率；竞争词的后验概率差；语言模型得分；帧平均声学模型得分。当然，为了使后续置信度重估结果更准确，所述多知识源特征还可进一步包括以下任意一种或多种：各词对应的音素后验概率、状态帧方差；词位置系数；词长；是否为停止词；时长；竞争词个数；短时平均能量等。对于这些特征前面已有详细说明，在此不再赘述。

[0180] 相应地，所述置信度重估模块206可以利用上述多知识源特征为各词生成一组多维特征向量，然后利用预先训练的回归模型(后面以SVM模型为例)及各词的多维特征向量计算该词的置信度。置信度重估模块206的一种具体结构可以包括：多维特征向量生成单元和置信度计算单元，其中，所述多维特征向量生成单元用于根据所述多知识源特征为各词生成一组多维特征向量；置信度计算单元用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。

[0181] 如图3所示，是本发明实施例中相关度计算模块的一种结构示意图，该模块包括：

[0182] 词向量计算单元31，用于对于每个文本文件，计算所述文本文件中各词的词向量；

[0183] 文件向量计算单元32，用于将各词的置信度重估结果作为该词的权重，对所述文本文件中出现的所有词的词向量进行加权平均，得到所述文本文件的向量：

[0184] 相关度计算单元33，用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。

[0185] 上述各计算单元的具体计算过程可参照前面本发明方法实施例中的描述，在此不再赘述。

[0186] 上展示模块209可以根据所述相关度展示检索出的语音文件信息。在实际应用中，可以按照相关度从大到小的顺序依次展示相应语音文件信息，比如，可以展示相关度大于设定阈值的所有语音文件信息，或者展示设定个数的语音文件信息。所述语音文件信息可以是语音文件的主题名称、摘要、链接等信息，对此本发明实施例不做限定。

[0187] 如图4所示，是本发明实施例语音文件检索系统的另一种结构示意图。

[0188] 与图2所示实施例不同的是，在该实施例中，所述系统还包括：设定模块401和级别确定模块402。其中，设定模块401用于设定针对不同重要性级别的相关度阈值；级别确定模块402用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别。

[0189] 相应地，在该实施例中，展示模块209不仅用于展示检索出的语音文件信息，还用于在展示所述语音文件信息时，展示所述语音文件的重要性级别信息。

[0190] 本发明实施例提供的语音文件检索系统，针对语音转写得到的文本文件存在一定数量的转写错误的现象，通过提取语音转写得到的文本文件中各词的多知识源特征，利用所述多知识源特征对各词进行置信度重估，并滤除所述文本文件中无意义的词句，根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度；根据所述相关度展示检索出的语音文件，从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件检索系统，不仅大大提高了语音文件检索的效率，而且保证了检索结果的准确性。

[0191] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0192] 以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

标题	发布/更新时间	阅读量
一种基于CLDNN+CTC声学模型的语音识别方法	2020-05-11	970
一种跨语言情感语音合成方法及系统	2020-05-12	743
一种样本生成方法、装置、服务器及存储介质	2020-05-12	609
基于深度学习的VR智能语音交互英语方法	2020-05-12	409
一种实时音频驱动的虚拟人物口型同步控制方法	2020-05-08	665
音频生成方法、装置、计算机可读存储介质及计算设备	2020-05-11	524
语音数据重构方法、装置及电子设备	2020-05-08	610
音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法	2020-05-08	811
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	212
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム	2020-05-11	452

语音文件检索方法及系统

语音文件检索方法及系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：