用于语音处理的方法与系统专利检索-音调工艺品专利检索查询-专利查询网

用于语音处理的方法与系统

阅读：7发布：2021-03-16

专利汇可以提供用于语音处理的方法与系统专利检索，专利查询，专利分析的服务。并且提供了一种用于语音处理的方法和系统，所述系统包括：语音特性参数获取模块，用于获取表现第一语音和第二语音的语音特性的语音特性参数；语音模版生成模块，用于将第一语音的语音特性参数生成为语音模版；语音处理模块，用于根据语音模版调整第二语音的语音特性参数，并将调整后的语音特性参数应用于第二语音。，下面是用于语音处理的方法与系统专利的具体信息内容。

权利要求

1.一种语音处理系统，所述系统包括：
语音特性参数获取模块，用于获取表现第一语音和第二语音的语音特性的语音特性参数；
语音模版生成模块，用于将第一语音的语音特性参数生成为语音模版；
语音处理模块，用于根据语音模板调整第二语音的语音特性参数，并将调整后的语音特性参数应用于第二语音。
2.如权利要求1所述的系统，还包括：语音获取模块，用于获取第一语音和/或第二语音。
3.如权利要求1所述的系统，还包括：存储模块，用于存储语音模板。
4.如权利要求1所述的系统，其中，所述语音特性包括语音的音量、音调和音色特性中的至少一个。
5.如权利要求2所述的系统，其中，所述语音获取模块从预先存储的语音中选取第一语音和/或第二语音。
6.如权利要求2所述的系统，其中，所述语音获取模块使用录音设备录制第一语音和/或第二语音。
7.如权利要求4所述的系统，其中，所述语音特性参数包括下述参数中的至少一个：表现音量特性的音量大小参数、表现音调特性的基音的频率和幅度参数、表现音色特性的预定数量的泛音的频率和幅度参数。
8.如权利要求1所述的系统，其中，语音特性参数获取模块直接设置形成语音模板所需的第一语音的各语音特性参数，使得设置的语音特性参数被语音模板生成模块生成为语音模板。
9.如权利要求3所述的系统，其中，语音处理模块对从存储的语音模板中选择的语音模板所包含的语音特性参数进行调整，并根据调整后的语音特性参数由语音模板生成模块生成与选择的语音模板不同的另一语音模板。
10.一种语音处理方法，所述方法包括：
获取表现第一语音和第二语音的语音特性的语音特性参数；
将第一语音的语音特性参数生成为语音模版；
根据语音模板调整第二语音的语音特性参数，并将调整后的语音特性参数应用于第二语音。
11.如权利要求10所述的方法，还包括：获取第一语音和/或第二语音。
12.如权利要求10所述的方法，还包括：存储语音模板。
13.如权利要求10所述的方法，其中，所述语音特性包括语音的音量、音调和音色特性中的至少一个。
14.如权利要求11所述的方法，其中，从预先存储的语音中选取第一语音和/或第二语音。
15.如权利要求11所述的方法，其中，使用录音设备录制第一语音和/或第二语音。
16.如权利要求13所述的方法，其中，所述语音特性参数包括下述参数中的至少一个：
表现音量特性的音量大小参数、表现音调特性的基音的频率和幅度参数、表现音色特性的预定数量的泛音的频率和幅度参数。
17.如权利要求10所述的方法，其中，直接设置形成语音模板所需的第一语音的各项语音特性参数，使得设置的语音特性参数被生成为语音模板。
18.如权利要求12所述的方法，其中，对从存储的语音模版中选择的语音模板所包含的语音特性参数进行调整，并根据调整后的语音特性参数生成与选择的语音模板不同的另一语音模板。

说明书全文

用于语音处理的方法与系统

技术领域

[0001] 本发明涉及一种用于语音处理的方法与系统，更具体地讲，涉及一种能够使用语音模板对语音进行处理的方法与系统。

背景技术

[0002] 近年来，随着语音处理技术的快速发展，人们对语音的认识越来越深入，并出现了多种关于语音的应用，例如，语音识别、录音、鹦鹉学舌等。由于各种语音应用的出发点有所不同，因而这些应用各具特色，并能够满足各类人群的不同需求。

[0003] 尽管在现有技术中已出现了关于语音处理中的语音变声的许多应用和方法，但是大多数变声应用只能以预先确定的模式对语音进行处理，而难以对多样性的、变化性的语音进行有效处理和变声，使得用户无法根据实际需求来对语音进行灵活处理。因此，随着数字装置的广泛应用以及数字装置的用户需求的不断变化，现有的变声应用已无法满足当前和未来发展的需要。在这种情况下，需要一种能够灵活地根据用户的需求来对语音进行处理以实现变声的方法和系统。

发明内容

[0004] 本发明的目的在于提供一种能够根据用户需求来生成语音模板并使用语音模板对语音进行处理的方法与系统，从而使得用户能够更加灵活和有效地对语音进行处理，其中，可通过提取语音信号的语音特性参数来产生语音模板。

[0005] 根据本发明的一方面，提供了一种语音处理系统，所述系统包括：语音特性参数获取模块，用于获取表现第一语音和第二语音的语音特性的语音特性参数；语音模版生成模块，用于将第一语音的语音特性参数生成为语音模版；语音处理模块，用于根据语音模板调整第二语音的语音特性参数，并将调整后的语音特性参数应用于第二语音。

[0006] 所述系统还可包括：语音获取模块，用于获取第一语音和/或第二语音。

[0007] 所述系统还可包括：存储模块，用于存储语音模板。

[0008] 所述语音特性可包括语音的音量、音调和音色特性中的至少一个。

[0009] 所述语音获取模块可从预先存储的语音中选取第一语音和/或第二语音。

[0010] 所述语音获取模块可使用录音设备录制第一语音和/或第二语音。

[0011] 所述语音特性参数可包括下述参数中的至少一个：表现音量特性的音量大小参数、表现音调特性的基音的频率和幅度参数、表现音色特性的预定数量的泛音的频率和幅度参数。

[0012] 语音特性参数获取模块可直接设置形成语音模板所需的第一语音的各项语音特性参数，使得设置的语音特性参数被语音模板生成模块生成为语音模板。

[0013] 语音处理模块对从存储的语音模板中选择的语音模板所包含的语音特性参数进行调整，并根据调整后的语音特性参数由语音模板生成模块生成与选择的语音模板不同的另一语音模板。

[0014] 根据本发明的另一方面，还提供了一种语音处理方法，所述方法包括：获取表现第一语音和第二语音的语音特性的语音特性参数；将第一语音的语音特性参数生成为语音模版；根据语音模板调整第二语音的语音特性参数，并将调整后的语音特性参数应用于第二语音。

[0015] 所述方法还可包括：获取第一语音和/或第二语音。

[0016] 所述方法还可包括：存储语音模板。

[0017] 所述语音特性可包括语音的音量、音调和音色特性中的至少一个。

[0018] 可从预先存储的语音中选取第一语音和/或第二语音。

[0019] 可使用录音设备录制第一语音和/或第二语音。

[0020] 所述语音特性参数可包括下述参数中的至少一个：表现音量特性的音量大小参数、表现音调特性的基音的频率和幅度参数、表现音色特性的预定数量的泛音的频率和幅度参数。

[0021] 可直接设置形成语音模板所需的第一语音的各项语音特性参数，使得设置的语音特性参数被生成为语音模板。

[0022] 对从存储的语音模板中选择的语音模板所包含的语音特性参数进行调整，并根据调整后的语音特性参数生成与选择的语音模板不同的另一语音模板。

[0023] 通过使用本发明的语音处理方法和系统，可更灵活地按照用户的需求对语音进行处理，使得语音处理的结果更加逼真和多样，实现丰富用户的娱乐生活的目的。

[0024] 将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。附图说明

[0025] 通过下面结合附图进行的详细描述，本发明的上述和/或其它目的、特点和优点将会变得更加清楚，其中：

[0026] 图1是示出根据本发明的示例性实施例的语音处理系统的框图；

[0027] 图2是示出根据本发明的示例性实施例的语音处理方法的流程图；

[0028] 图3是示出根据本发明的另一示例性实施例的语音模板生成方法的流程图；

[0029] 图4是示出根据本发明的又一示例性实施例的语音模板生成方法的流程图。

具体实施方式

[0030] 以下，将参照附图更充分地描述本发明的示例性实施例，示例性实施例在附图中示出。然而，可以以许多不同的形式实施示例性实施例，并且不应被解释为局限于在此阐述的示例性实施例。相反，提供这些实施例从而本公开将会彻底和完整，并将完全地将示例性实施例的范围传达给本领域的技术人员。在附图中，相同的标号表示相同的部分。

[0031] 图1是示出根据本发明的示例性实施例的语音处理系统100的框图。参照图1，根据本发明的示例性实施例的语音处理系统100包括：语音特性参数获取模块120、语音模版生成模块130以及语音处理模块140。

[0032] 参照图1，语音特性参数获取模块120可用于获取表现至少一种语音特性(例如，语音的音量、音调以及音色特性等)的语音特性参数。仅作为示例，下面将描述使用PCM流格式的语音音频信号(以下，简称为“PCM音频信号”)来获取表现音量、音调和音色特性中的至少一种语音特性的语音特性参数的方法。

[0033] 音量是指人耳对所听到的声音大小强弱的主观感受，其客观评价尺度是声音的幅度大小。因此可使用PCM音频信号的幅度来表现语音的音量大小。

[0034] 音调通常指具有特定且稳定音高的信号，是声音听起来调子的高低，主要取决于频率。频率高的声音人耳的反应是音调高，频率低的声音人耳的反应是音调低。音调主要由声音的基频决定，因此，可以通过提取PCM音频信号的基音的频率(即，基频)和幅度来获取音调参数。

[0035] 音色是声音的特色，每一个人的语音有不同的音色，因此可以根据其音色辨别出不同的人，音色的不同取决于不同的泛音，在每一种乐器、不同的人以及所有能发声的物体发出的声音中，除了一个基音外，还有许多不同频率的泛音伴随，正是这些泛音的频率和幅度的不同组合决定了不同的音色。因此，可通过提取音频信号的预定数量的泛音的频率和幅度来获取音色特性参数。

[0036] 常用的语音特性还可以概括为基音、共振峰、线性预测倒谱系数、Mel频率倒谱系数等数字参数，通过目前现有的一些主流技术，如基于LPCC的特征提取技术、基于MFCC的特征提取技术、短时傅里叶变换(处理平稳信号的传统方法)技术，可获取表现语音特性的至少一个以下参数：表现音量特性的音量大小参数、表现音调特性的基音的频率和幅度参数、表现音色特性的预定数量的泛音的频率和幅度参数。

[0037] 在提取操作完成之后，语音特性参数获取模块120可将获取的语音特性参数发送到语音模板生成模块130以生成语音模板，或者保留所述参数，以利用这些参数随后对该语音进行处理。

[0038] 语音模版生成模块130根据从语音特性参数获取模块120获得的多个语音特性参数来生成语音模版，并将生成的语音模版存储在存储模块150中，其中，所述语音模版是指表现特定语音的多种语音特性的语音特性参数的集合，所述语音特性可包括，但不限于，音量、音色和音调特性中的至少一个。可选择地，根据另一实施例，语音模版生成模块130也可直接将生成的语音模板输入到语音处理模块140来对一语音进行处理。

[0039] 此外，还可通过语音特性参数获取模块120按照形成语音模板所需的各种参数来直接设置各个语音特性参数，并将设置的语音特性参数传递到语音模板生成模块130，以生成自定义的语音模版。具体地讲，在本发明的实施例中，可由用户直接设置音量大小，基音的频率和幅度以及预定数量的泛音的频率和幅度，并将设置好的语音特性参数发送到语音模板生成模块130，以生成用户期望的语音模板。

[0040] 此外，还可通过对已有的语音模板的参数进行修改来生成新的语音模板。通过这种方式，可容易增加能够生成和应用的语音模版的种类，从而实现更丰富的语音处理效果。

[0041] 语音处理模块140用于对待处理的语音进行处理。可根据用户需求选择用户期望的语音模版，并将选择的语音模板输出到语音处理模块140，以使用户能够根据所选择的语音模版对语音进行处理。详细地说，语音处理模块140可根据选择的语音模版中记录的语音特性参数来对由语音特性参数获取模块120从待处理的语音提取的语音特性参数进行调整，并将调整后的语音特性参数应用于待处理的语音，从而使待处理的语音具有用户期望的语音特性。

[0042] 例如，可将待处理的语音的基音频率和幅度分别调整为与选择的语音模版中记录的基音的频率和幅度一致，可将待处理的语音的各个泛音的频率和幅度分别调整为与选择的语音模版中记录的各个对应的泛音的频率和幅度一致，还可将待处理的语音音量大小调整为与选择的语音模版中记录的音量大小一致，从而使获取的语音的音量、音调和音色特性与语音模版能够表现的音量、音调和音色特性一致，实现模仿语音模版所表现的语音的效果。

[0043] 仅作为示例，假设通过语音特性参数获取模块120获得的待处理语音的参数如下：基音的频率和幅度参数为(f0，C0)，并且提取了16组泛音参数，每个泛音的频率和幅度参数分别为(f1，C1)、(f2，C2)、......、(f16，C16)，音量大小为V，其中，f0，f1，...f16是频率参数，C0，C1，...C16是幅度参数。用户使用语音模板1对待处理的语音进行处理，其中，语音模板1中包含的语音特性参数为：基音的频率和幅度分别为(fR0，CR0)，泛音的频率和幅度参数为(fR1，CR1)、(fR2，CR2)、......、(fR16，CR16)，音量大小为VR，其中，fR0，fR1，...fR16是频率参数，CR0，CR1，...CR16是幅度参数。为使待处理的语音在进行处理之后能够与语音模板中的语音特性参数所表现出的语音特点相同或相似，分别将待处理语音的基音、泛音以及音量参数调整为模板中的记录的基音、泛音以及音量参数，具体地讲，使得待处理的语音的语音参数值分别被调整为：f0＝fR0、f1＝fR1、f2＝fR2、...、f16＝fR16，C0＝CR0、C1＝CR1、...、C2＝CR2、C16＝CR16，并使得待处理的语音的音量大小V调整为VR，也就是说，使得音量大小V＝VR。

[0044] 在完成对待处理语音的语音特性参数的调整之后，将调整过的语音参数应用于待处理的语音，从而完成变声过程。具体地讲，在本实施例中，通过使用与提取语音特性参数信息的操作相应的逆操作，将调整后的语音特性参数应用到待处理的语音，从而完成对待处理的语音的变声处理。

[0045] 应该理解，上述方法仅是示例性的，应用语音模板对待处理的语音进行处理的方法不限于于此，可根据用户需要或是预定的设置来应用语音模板对待处理的语音进行处理。或者用户可不使用语音模板对待处理的声音进行变声，而是在语音处理模块140中直接调整提取的待处理的语音的各个语音特性参数来完成待处理的语音的变声过程。

[0046] 此外，还可在语音处理模块140中实现对经过处理的语音进行调整和美化处理，从而使得所述语音能够获得更加逼真的音效。作为示例，这里仅描述通过使用调整泛音参数来调整语音的音色效果的方法。

[0047] 无论人声、歌声，还是乐器的语音，它们都不是一个单音，而是一个复合音。也就是由语音的基音和一系列的泛音所构成。这些泛音都是基音频率的倍数，并对音色的特性有非常重要的影响。泛音可分为低频泛音、中频泛音和高频泛音。如果低频泛音的幅度较强，音色就表现得混厚；中频泛音的幅度比较强，音色就表现得圆润、自然、和谐；高频泛音的幅度比较强，音色就表现得明亮、清透、解析力强。

[0048] 泛音的数量和泛音幅度的不同构成音色的频率特性曲线。这条曲线就体现了音色的表现力。音色的频率特性曲线各不相同。将基音到第16个泛音的强度在坐标上连成一条直线，这条直线就被称为最佳美声线。音色的频率特性曲线越接近这条直线，所述音色的低、中、高频泛音的比例也最为均衡，其音色的表现力也最好。

[0049] 可以通过四段均衡器对音色进行频率处理，来提高音色的艺术表现力。可将音频分为4个大的频率段，即：

[0050] HF：6kHz-16kHz，影响音色的表现力、解析力；

[0051] MID HF：600Hz～6kHz，影响音色的明亮度、清晰度；

[0052] MID LF：200Hz～600Hz，影响音色和力度和结实度；

[0053] LF：20Hz～200Hz，影响音色的混厚度和丰满度。

[0054] 如果高频段频率过弱，音色就变得色彩、韵味、个性的失落；如果高频段频率过强，音色就会变得尖噪、嘶哑、刺耳。如果中高频段的频率过弱，音色就变得暗淡、朦胧；如果中高频段的频率过强，其音色就会变得呆板。如果中低频段的频率过弱，音色会变得空虚、无力、软绵绵的；如果中低频段的频率过强，音色会变得生硬、失去活力。如果低频段的频率过弱，音色将会变得单薄、苍白；如果低频段的频率过强，音色会变得浑浊不清。

[0055] 要使音色有美感，就要泛音丰富、有层次。提升某一频段后，还要考虑对其他频段的影响，要总体地考虑歌声的清晰度和丰满度。例如，女声在高频部分容易产生S音(嘶声)，则可在7-10KHz衰减3dB来消除S音；男语音域比女声低一个8度音程，频率低一个倍频，在100Hz衰减3dB左右，可以增加清晰度。通过这种方式，可完成对音色信息的调整。

[0056] 如上所述，尽管已描述了通过调整泛音来对语音做进一步的调整和美化的方法，但本发明不限于此，还可使用其他方法实现对语音的调整和美化。

[0057] 此外，根据本发明的示例性实施例，语音处理系统100还可包括：语音获取模块110和存储模块150。如图1所示，语音获取模块110用于获取待处理的语音，在本发明的示例性实施例中，语音获取模块110可至少使用两种语音获取方式来获取待处理的语音：
可通过语音获取装置(例如，麦克风)从外界录制语音；还可直接从预先存储的语音中选择待处理的语音。在完成获取之后，语音获取模块110可将待处理的语音输出到语音特性参数获取模块120。存储模块150用于存储生成的语音模板，并将用户选择的语音模板提供给语音处理模块140，以帮助完成对待处理的语音的变声处理。

[0058] 此外，根据本发明的示例性实施例，所述语音处理系统100还可包括播放模块(未示出)来播放语音。

[0059] 图2是示出根据本发明的示例性实施例的语音处理的流程图。以下将参照图2描述使用本发明的语音处理方法完成对语音的处理的过程。

[0060] 在步骤201，语音获取模块110可利用录音装置从外界录制待处理的语音，或者从预先存储的语音中选择待处理的语音，然后将获取的待处理的语音输出到语音特性参数获取模块120。

[0061] 在步骤203，语音特性参数获取模块120将待处理的语音解码为可用于语音特性参数提取的格式(例如，PCM流格式)，然后对解码的语音进行分析，以提取各语音特性参数(例如，音量、音调和音色特性中的至少一种的语音特性参数)。

[0062] 在步骤205，确定是否将在步骤203中提取的语音特性参数生成为语音模版。如果确定生成语音模版，则进入步骤207；如果确定不将所述语音特性信息生成为语音模版，则进入步骤209。

[0063] 在步骤207，在语音模版生成模块130中根据接收的语音特性参数生成相应的语音模版，并将所述语音模版保存在存储模块150中。可选择地，根据另一实施例，也可直接将语音模版生成模块130生成的语音模板输入到语音处理模块140来对一语音进行处理。

[0064] 在步骤209，确定是否对获取的语音进行处理，如果需要对获取的语音进行处理，则进入步骤211。

[0065] 在步骤211，从存储模块150选择用户期望的语音模版，然后将选择的语音模版与在步骤203中提取的语音特性参数一起输入到语音处理模块140。

[0066] 在步骤213，根据步骤211中选择的语音模版对待处理的语音的语音特性参数进行调整，已结合图1描述了详细的参数调整过程，因此在此不再对其进行描述。将调整后的语音特性参数应用到待处理的语音以获得新的语音，从而实现模仿语音模版的语音效果的目的。

[0067] 此外，还可在步骤213实现对语音的美化调整处理，例如，可通过调整语音的音色(即，泛音的频率和幅度参数)以使所述变化后的语音音效更加逼真。

[0068] 图3是示出根据本发明的另一示例性实施例的生成语音模板的流程图。

[0069] 如图3所示，在步骤301，在语音特性参数获取模块120直接设置生成语音模板所需的各项语音特性参数，具体地说，仅作为示例，在本发明的示例性实施例中，可直接设置音量大小、基音的幅度和频率以及泛音的幅度和频率。

[0070] 在步骤303，确定语音特性参数的设置是否完成。

[0071] 如果在步骤303确定完成了语音特性参数的设置，则在步骤305，在语音模板生成模块130使用设置的各个语音特性参数来生成相应的语音模板，并在步骤307将生成的语音模板保存在存储模块150。如果在步骤303语音特性参数的设置还没有结束，则可继续设置参数，或者根据另一实施例，可选择直接结束图3中示出的处理

[0072] 图4是示出根据本发明的又一示例性实施例的生成语音模板的流程图。

[0073] 如图4所示，在步骤401，从存储模块150选择语音模板。

[0074] 在步骤403，通过语音处理模块140修改选择的模板中的各语音特性参数。

[0075] 在步骤405，确定语音特性参数的修改是否完成。

[0076] 如果在步骤405确定已完成对选择的语音模板的语音特性参数的修改，则在步骤407，在语音模板生成模块130中使用修改后的各个语音特性参数来生成新的语音模板，并将所述新的语音模板保存在存储模块150中。如果在步骤405语音特性参数的修改还没有结束，则可继续修改语音特性参数，或者根据另一实施例，可选择直接结束图4中示出的处理。

[0077] 应该理解，在完成对选择的语音模板的语音特性参数的修改之后，也可不生成的新的语音模板，而是直接在所选择的语音模板上保存修改后的语音特性参数，从而实现调整语音模板的效果。

[0078] 尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

标题	发布/更新时间	阅读量
一种音频处理方法、音频处理装置及终端设备	2021-12-09	3
化身图像处理单元以及具有其的洗涤机	2022-08-29	2
用于音乐报警的视频序列	2021-12-17	1
识别浊音/清音的方法和装置及其语音编码方法	2020-11-02	3
电缆网络环境中的射频信号故障表征隔离	2020-09-23	2
一种信号处理方法及信号处理装置	2022-02-16	4
音箱式弦子杆	2020-10-13	6
在移动通信系统中用于支持多址信号的方法和装置	2021-02-12	3
用于确定信号中的信道的方法和装置	2021-03-06	3
一种铙钹	2020-08-21	3

用于语音处理的方法与系统

用于语音处理的方法与系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：