首页 / 专利库 / 专利权 / 实施例 / 用于自动调整音频数据的播放速度的方法和装置

用于自动调整音频数据的播放速度的方法和装置

阅读:829发布:2022-05-23

专利汇可以提供用于自动调整音频数据的播放速度的方法和装置专利检索,专利查询,专利分析的服务。并且一种管理音频数据的方法包括识别音频数据中的状况。响应识别状况,自动调整音频数据的回放速率。还公开其它 实施例 。,下面是用于自动调整音频数据的播放速度的方法和装置专利的具体信息内容。

1.一种用于管理音频数据的方法,包括:
识别所述音频数据中的第一状况;
识别所述音频数据中的第二状况;以及
响应所述音频数据中的所述第一状况和所述第二状况,自动调整所述音频数据的回放速率。
2.如权利要求1所述的方法,其中所述第一状况是语速。
3.如权利要求2所述的方法,其中所述第二状况是噪声。
4.如权利要求2所述的方法,其中所述第二状况是填补式停顿。
5.如权利要求1所述的方法,其中识别所述第一状况包括:
将所述音频数据从时域转换到频域;
在所述频域中提取所述音频数据的特征;以及
分析所述音频数据的特征。
6.如权利要求1所述的方法,其中识别所述第一状况包括:
将所述音频数据从时域转换到频域;
在所述频域中提取所述音频数据的特征;以及
将所述音频数据的特征与模型进行比较。
7.如权利要求5所述的方法,其中所述特征包括子带能量
8.如权利要求5所述的方法,其中所述特征包括音位特性。
9.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行选择性采样
10.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行同步重叠相加。
11.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行谐波定标。
12.一种用于管理音频数据的方法,包括:
通过将所述音频数据从时域转换到频域而识别音频数据中的状况;在所述频域中提取所述音频数据的特征;以及测量所述频域中提取的特征的改变速率;及响应所述音频数据的所述特征的改变速率,自动调整所述音频数据的回放速率。
13.如权利要求12所述的方法,其中所述状况是语速。
14.如权利要求12所述的方法,其中所述状况是噪声。
15.如权利要求12所述的方法,其中所述状况是填补式停顿。
16.一种播放速度调整单元,包括:
用于识别音频数据的语速变化的变化速率积分器单元;
用于识别所述音频数据中与语速变化不同的状况的比较器单元;以及用于响应所述语速变化和所述状况而调整所述音频数据的回放速率的音频数据处理单元。
17.如权利要求16所述的播放速度调整单元,其中所述状况是背景噪声。
18.如权利要求16所述的播放速度调整单元,还包括用于识别所述音频数据中的特征的特征提取器单元。
19.如权利要求16所述的播放速度调整单元,所述状况是填补式停顿。

说明书全文

用于自动调整音频数据的播放速度的方法和装置

技术领域

[0001] 本发明实施例涉及用于播放音频数据的媒体播放器。更具体地说,本发明的实施例涉及用于自动调整音频数据的播放速度的方法和装置。

背景技术

[0002] 存在具有允许以比正常速率快的速率播放音频和音频-视频会话的记录的功能部件的媒体播放器。这允许用户在较短的时间周期内收听或观看这些会话。这些功能部件的使用在商业应用中很常见,例如在员工观看和/或收听培训会话、会议、会谈和报告时。这些功能部件的使用在娱乐应用中也很常见,例如在用户听收音机或播客、或看电视时。这些功能部件允许快速回放而无音频和视频小故障(glitch)。
[0003] 通常,用户认为以正常回放速率的约1.2-1.9倍的回放速率回放音频数据是可以听清楚和理解的。但是,由于发言者的语速、背景噪声、沉默或填补式停顿的存在、和在音频数据回放过程中发生改变的其它标准,最佳速率会在回放期间改变。
[0004] 现有的媒体播放器允许用户手动地调整音频数据的回放速率。当最佳回放速率在回放音频数据的过程中频繁改变时,手动做出调整会很不方便。此外,当做出手动调整时,收听者只会对音频数据的变化做出反应。在检测音频数据的变化和对此做出反应时体验到的延迟会导致以收听者不可理解的速率回放音频数据的部分。这会使收听者重新播放音频数据,并且因此否定了快速播放的一些益处。附图说明
[0005] 举例说明了本发明的实施例的特征和优点,不希望它们将本发明的实施例的范围限制在所示的特定实施例。
[0006] 图1是可以在其中实现本发明的一个示范实施例的示例性系统的框图
[0007] 图2是根据本发明的一个示范实施例的播放速度调整单元的框图。
[0008] 图3是根据本发明的一个示范实施例的变化速率积分器单元的框图。
[0009] 图4是说明根据本发明的第一实施例用于管理音频数据的方法的流程图
[0010] 图5是说明根据本发明的第二实施例用于管理音频数据的方法的流程图。
[0011] 图6是说明根据本发明的一个实施例用于生成播放速度控制值的方法的流程图。

具体实施方式

[0012] 在以下描述中,出于说明的目的,阐述了特定术语,以便充分理解本发明的实施例。但是,本领域的技术人员将明白,不需要这些具体细节也可以实现本发明的实施例。在其它情况下,以框图形式示出熟知的电路、设备和过程,以免不必要地使本发明的实施例晦涩难懂。
[0013] 图1是可以在其中实现本发明的实施例的系统的第一实施例的框图。该系统是计算机系统100。计算机系统100包括用于处理数据信号的一个或多个处理器。如图所示,计算机系统100包括第一处理器和第n个处理器105,其中n可以是任何数字。处理器101和105可以是复杂指令集计算机微处理器、精简指令集计算微处理器、超长指令字微处理器、用于实现指令集的组合的处理器或其它处理器设备。处理器101和105可以是在每个芯片上具有多个处理器核的多核处理器。处理器101和105耦合到CPU总线110,CPU总线110用于在处理器101和105与计算机系统100内的其它组件之间传送数据信号。
[0014] 计算机系统100包括存储器113。存储器113包括可以是动态随机存取存储器(DRAM)设备的主存储器。存储器113可以存储由数据信号表示的指令和代码,这些指令和代码可由处理器101和105执行。高速缓存存储器(处理器高速缓存)可驻留在每个处理器101和105内以存储来自存储器113的数据信号。高速缓存可以通过利用它的存取局部性来加速处理器101和105的存储器存取。在计算机系统100的一个备选实施例中,高速缓存可驻留在处理器101和105的外部。
[0015] 桥存储器控制器111耦合到CPU总线110和存储器113。桥存储器控制器111指挥处理器101和105、存储器113与计算机系统100内的其它组件之间的数据信号,并桥接CPU总线110、存储器113与第一输入输出(IO)总线120之间的数据信号。
[0016] 第一IO总线120可以是单个总线或多个总线的组合。第一IO总线120提供计算机系统100中的组件之间的通信链接。网络控制器121耦合到第一IO总线120。网络控制器121可以将计算机系统100链接到计算机网络(未示出),并支持机器间的通信。显示设备控制器122耦合到第一IO总线120。显示设备控制器122允许将显示设备(未示出)耦合到计算机系统100,并充当显示设备与计算机系统100之间的接口
[0017] 第二IO总线130可以是单个总线或多个总线的组合。第二IO总线130提供计算机系统100中的组件之间的通信链接。数据存储设备131耦合到第二IO总线130。数据存储设备131可以是硬盘驱动器软盘驱动器、CD-ROM设备、闪存设备或其它大容量存储设备。输入接口132耦合到第二IO总线130。输入接口132可以是例如键盘和/或鼠标控制器或其它输入接口。输入接口132可以是专用设备,或者可以驻留在诸如总线控制器或其它控制器的另一设备内。输入接口132允许将输入设备耦合到计算机系统100,并将数据信号从输入设备传送到计算机系统100。音频控制器133耦合到第二IO总线130。音频控制器133进行操作以便协调声音的记录和播放。总线桥123将第一IO总线120耦合到第二IO总线130。总线桥123进行操作以便缓冲和桥接第一IO总线120与第二IO总线130之间的数据信号。
[0018] 根据本发明的一个实施例,可以在计算机系统100上实现播放速度调整单元140。根据一个实施例,响应处理器101执行存储器113中由播放速度调整单元140表示的指令序列,计算机系统100执行音频数据管理。这些指令可从诸如数据存储设备131的其它计算机可读介质或从经由网络控制器112连接到网络的计算机读入到存储器113中。存储器
113中的指令序列的执行使处理器支持音频数据的管理。根据本发明的一个实施例,播放速度调整单元140识别音频数据的状况。响应识别到状况,播放速度调整单元140自动调整音频数据的回放速率。状况可以是例如语速(rate of speech)、背景噪声、填补式停顿(filled pause)或其它状况。
[0019] 图2是根据本发明的一个示范实施例的播放速度调整单元200的框图。播放速度调整单元200可用于实现如图1所示的播放速度调整单元140。应明白,播放速度调整单元200可驻留在其它类型的系统中。播放速度调整单元200包括能以软件实现的多个模
在备选实施例中,硬接线电路可以替代软件或与软件组合用于执行音频数据管理。因此,本发明的实施例不限于硬件电路和软件的任何特定组合。
[0020] 播放速度调整单元200包括特征提取器单元210。特征提取器单元210从它接收的音频数据中提取特征。根据本发明的一个实施例,特征提取器单元210将音频数据从时域变换到频域,并在频域中识别特征。在一个实施例中,特征可以基于子带能量。在该实施例中,可以利用Mel频率倒谱系数或通过利用其它技术或过程来识别特征。根据一个备选实施例,特征可以基于音位特性。在该实施例中,音位特性可通过利用隐尔可夫模型、维特比排列或动态时间规整相对于基准语音信号进行模式匹配或模式分类、或通过利用其它技术或过程来识别。应明白,特征可以基于其它性质并利用其它技术来识别。
[0021] 播放速度调整单元200包括变化速率积分器单元220。变化速率积分器单元220辨识其中音频数据包含以发生变化的速率产生的语音的状况。根据一个实施例,变化速率积分器单元220产生对应于来自单元210的特征的在时间上平均的变化速率的输出。变化速率积分器220可以生成可用于调整音频数据的回放速率的播放速度控制值。根据其中特征是基于子带能量的实施例,变化速率积分器单元220可以测量特征的连续样本之间的差。通过对来自多个特征的测量结果取平均值,识别特征的总的变化速率。变化速率可用于确定语音变化速率和要生成的合适的播放速度控制值。根据其中特征是基于音位的实施例,可以在时间上对音位特性的变化速率求平均值以生成合适的播放速度控制值。
[0022] 播放速度调整单元200可包括比较器单元230。比较器单元230辨识音频数据中何时存在其它状况。比较器单元230可以生成一个或多个播放速度控制值,这个或这些控制值可用于基于状况调整音频数据的回放速率。根据播放速度调整单元200的一个实施例,比较器单元230可以将音频数据的特征与反映不同状况的语音模型中的特征进行比较。可以将音频数据的特征与反映背景噪声的高、低量的语音模型进行比较,以便确定音频数据中存在的背景噪声的程度和录音的质量。根据本发明的一个实施例,如果音频数据中存在较大程度的背景噪声,则比较器单元230生成减缓回放速率的播放速度控制值。可以将音频数据的特征与反映语音停顿或用不会对音频数据的内容造成影响的措辞填补的停顿的语音模型进行比较,以便确定音频数据的一部分是否可在回放期间加速或进行编辑。应明白,还可类似地检测其它状况。例如,比较器单元230可以生成用于基于视频图像的变化来调整音频数据的回放速率的播放速度控制值。
[0023] 播放速度调整单元200包括音频数据处理单元240。音频数据处理单元240接收一个或多个播放速度控制值。当音频数据处理单元240接收到多于一个播放速度控制值时,它可以取这些值的平均值,计算这些值的加权平均值,或取最小或最大值。音频数据处理单元240还接收待播放的音频数据,并响应上述一个或多个播放速度控制值而调整音频数据的回放速率。根据本发明的一个实施例,音频数据处理单元240可以通过执行选择性采样、同步重叠相加(synchronizedoverlap-add)、谐波定标(harmonic scaling)、或通过执行其它过程或技术来调整回放速率。
[0024] 播放速度调整单元200可包括时间延迟单元250。时间延迟单元250延迟音频数据处理单元240接收音频数据的时间。通过插入延迟,时间延迟单元250允许变化速率积分器单元220和比较器单元230在通过音频数据处理单元240播放音频数据之前分析音频数据的特征并生成合适的播放速度控制值。
[0025] 根据播放速度调整单元200的一个实施例,特征提取器单元210、变化速率积分器单元220、比较器单元230、音频数据处理单元240和时间延迟单元250可利用任何合适的过程、技术或电路来实现。应明白,所示的一些组件是可选的,如比较器单元230和时间延迟单元250。
[0026] 图3是根据本发明的一个示范实施例的变化速率积分器单元300的框图。变化速率积分器单元300可以作为如图2所示的变化速率积分器单元220的一个实施例来实现。变化速率积分器单元300包括多个差单元。根据变化速率积分器单元300的一个实施例,为通过变化速率积分器单元300处理的每个特征类型提供一个差(difference)单元。方框310表示第一差单元。方框311表示第n个差单元,其中n可以是任何数字。差单元310和311将在不同时间周期从特征提取器单元接收的特征的性质进行比较,并计算差的绝对值(绝对差值)。例如,差单元310可以计算在时间t识别的第一类型的特征与在t-1识别的第一类型的特征的绝对差值。差单元311可以计算在时间t识别的第二类型的特征与在t-1识别的第二类型的特征的绝对差值。
[0027] 变化速率积分器单元300可包括多个可选的加权单元。根据变化速率积分器单元300的一个实施例,为通过变化速率积分器单元300处理的每个特征类型提供一个加权单元。方框320表示第一加权单元。方框321表示第n个加权单元。每个加权单元对特征类型的绝对差值加权。加权单元320和321可以基于特征的性质对绝对差值加权。
[0028] 变化速率积分器单元300包括求和单元330。求和单元330将由加权单元320和321接收的加权后的绝对差值求和。
[0029] 变化速率积分器单元300包括播放速度控制单元340。播放速度控制单元340根据加权后的绝对差值的和生成播放速度控制值。根据变化速率积分器单元300的一个实施例,播放速度控制单元340对加权后的绝对差值的和取平均值。根据一个备选实施例,播放速度控制单元340在一定时间周期内对加权后的绝对差值的和求积分。
[0030] 图4是说明根据本发明的第一实施例用于管理音频数据的方法的流程图。在401,将音频数据从时域变换到频域。根据本发明的一个实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频域。
[0031] 在402,从变换到频域的音频数据识别特征。根据本发明的一个实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱系数来识别特征。根据本发明的一个备选实施例,频率可以基于音位特性(phoneme characteristics)。
[0032] 在403,生成特征的变化速率的测量值(measure)。根据本发明的一个实施例,可以通过分析音频数据的特征来生成特征的变化速率的测量值。特征的变化速率的测量值可用于识别其中发言者的语速发生改变的状况。根据本发明的一个实施例,生成播放速度控制值。
[0033] 在404,调整音频数据的回放速率。该调整可以基于在403确定的如播放速度控制值所反映的特征的变化速率。根据本发明的一个实施例,可以通过执行选择性采样、同步重叠相加、谐波定标、或通过执行其它过程来调整音频的回放速率。
[0034] 图5是说明根据本发明的第二实施例用于管理音频数据的方法的流程图。在501,将音频数据从时域变换到频域。根据本发明的一个实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频域。
[0035] 在502,从变换到频域的音频数据识别特征。根据本发明的一个实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱系数来识别特征。根据本发明的一个实施例,特征也可以基于音位特性。
[0036] 在503,生成特征的变化速率的测量值。根据本发明的一个实施例,可以通过分析音频数据的特征来生成特征的变化速率的测量值。特征的变化速率的测量值可用于识别其中发言者的语速发生改变的状况。根据本发明的一个实施例,生成播放速度控制值。
[0037] 在504,将在502识别的音频数据的特征与反映不同状况的语音模型中的特征进行比较,以便确定状况的存在。例如,可以将音频数据的特征与反映背景噪声的高、低量的语音模型进行比较,以便确定音频数据中存在的背景噪声的程度。也可以将音频数据的特征与反映语音停顿或用不会对音频数据的内容造成影响的措辞填补的停顿的语音模型进行比较,以便确定音频数据的一部分是否可在回放过程中加速或剪去或删去。应明白,还可检测其它状况。根据本发明的一个实施例,生成一个或多个播放速度控制值。
[0038] 在505,根据所生成的播放速度控制值来确定播放速度调整。根据本发明的一个实施例,对播放速度控制值求平均值以便确定要对音频数据的回放速率做出调整的程度。根据本发明的一个备选实施例,取播放速度控制值的加权平均值以便确定要对音频数据的回放速率做出调整的程度。
[0039] 在506,调整音频数据的回放速率。该调整可以基于所生成的播放速度控制值的平均值或加权平均值。根据本发明的一个实施例,可以通过执行选择性采样、同步重叠相加、谐波定标、或通过执行其它过程来调整音频的回放速率。
[0040] 图6是说明根据本发明的一个实施例用于生成播放速度控制值的方法的流程图。如图6所示的方法可用于实现如图4和5所示的403和503。在601,确定多个特征类型的绝对差值。根据本发明的一个实施例,取在第一时间和第二时间测量的每个特征类型的差的绝对值。
[0041] 在602,对特征类型的绝对差值加权。根据本发明的一个实施例,基于特征的性质对特征类型的绝对差值加权。
[0042] 在603,对加权后的绝对差值一起求和。
[0043] 在604,根据加权后的绝对差值的和生成播放速度控制值。根据本发明的一个实施例,取加权后的绝对差值的和的平均值。根据一个备选实施例,在一定时间周期内对加权后的绝对差值的和求积分。
[0044] 根据本发明的一个实施例,用于管理音频数据的方法包括:识别音频数据的状况;以及响应识别状况,自动调整音频数据的回放速率。状况可以包括产生语音的速率的变化、背景噪声的存在、语音中停顿或填补式停顿的存在。通过自动调整回放速率,本发明的实施例允许收听者专心于正在播放的音频数据,而不必因必须手动调整回放速度而分神。
[0045] 图4-6是说明根据本发明的实施例的方法的流程图。这些图中说明的一些技术可以连续、并行或按照与所描述的顺序不同的顺序执行。应明白,不需要执行所描述的所有技术,可以增加额外的技术,并且可以用其它技术来代替所说明的一些技术。
[0046] 本发明的实施例可以作为计算机程序产品或软件提供,它可以包括具有指令的机器可访问或机器可读介质上的制造品。机器可访问或机器可读介质上的指令可用于对计算机系统或其它电子设备编程。机器可读介质可包括但不限于软盘、光盘、CD-ROM和磁-光盘或其它类型的适于存储或传送电子指令的介质/机器可读介质。本文描述的技术不限于任何特定的软件配置。它们可以应用于任何计算或处理环境。本文所用的术语“机器可访问介质”或“机器可读介质”应包括能够存储、编码或传送可供机器执行并使机器执行本文描述的任何一种方法的指令序列的任何介质。此外,本领域中常说一种或另一种形式的软件(例如,程序、过程、进程、应用程序、模块、单元、逻辑等)采取动作或导致结果。这些表述只是用来陈述通过处理系统执行软件而使处理器执行动作或产生结果的一种简略的方式。
[0047] 在以上说明书中,参照其具体示例性实施例描述了本发明的实施例。但是,很明显,在不偏离本发明的实施例的广泛精神和范围的情况下,可以对此作出各种修改和改变。因此,应将说明书和附图视为是具说明性而不是限制性意义的。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈