首页 / 专利分类库 / 电通信技术 / 电话通信 / 移动捕获的音频增强

移动捕获的音频增强

申请号 CN202280061137.0 申请日 2022-09-07 公开(公告)号 CN117917094A 公开(公告)日 2024-04-19
申请人 杜比实验室特许公司; 发明人 李凯; 罗皓; 甘雷; 李煦; 文玮玮; 马远星;
摘要 公开了一种用于实时监控用户生成的音频内容以发现音频异常的系统和相关方法。在一些 实施例 中,所述系统被编程为实时地接收由第一移动设备(比如智能手机)生成的音频数据。所述系统被编程为根据音频数据实时地确定是否发生音频异常。所述系统被编程为响应于检测到音频异常的发生而实时地向第二移动设备(其可以是同一部智能手机)呈现警报。
权利要求

1.一个或多个非暂态存储介质,所述非暂态存储介质存储有指令,所述指令当由一个或多个计算设备执行时,使得执行实时监控用户生成的音频内容以发现音频异常的方法,所述方法包括:
实时地接收由第一移动设备生成的音频数据;
根据所述音频数据实时地检测包括麦克异常在内的多种类型的音频异常中的一种类型的音频异常的发生的开始;
实时地将所述发生的警报传输到第二设备,所述警报引起对所述类型的音频异常的所述发生的注意或描述所述类型的音频异常的所述发生。
2.如权利要求1所述的一个或多个非暂态存储介质,所述第一移动设备是具有一个或多个内置麦克风的智能手机。
3.如权利要求1或2所述的一个或多个非暂态存储介质,
所述传输包括使得所述警报以视觉形式在屏幕上进行显示或以听觉形式在扬声器上进行播放,
所述屏幕或所述扬声器包括在所述第二设备中或耦接到所述第二设备。
4.如权利要求1至3中任一项所述的一个或多个非暂态存储介质,
所述麦克风异常是由包括在所述第一移动设备中或耦接到所述第一移动设备的麦克风的遮挡、故障或错放引起的,
所述发生是麦克风异常。
5.如权利要求4所述的一个或多个非暂态存储介质,所述检测包括:在到当前时间为止的时间段内,识别来自包括在所述第一移动设备中或耦接到所述第一移动设备的每个麦克风的信号的高频分量,确定来自每个麦克风的所述信号的幅度值,或者接收来自包括在每个麦克风中或耦接到每个麦克风的加速传感器或骨振动传感器的测量值。
6.如权利要求4或5所述的一个或多个非暂态存储介质,
所述传输包括发送用于终止所述麦克风异常的发生的建议,
所述建议包括将麦克风识别为所述发生的来源并指示对所述麦克风解除堵塞、进行修复或重新放置。
7.如权利要求1至6中任一项所述的一个或多个非暂态存储介质,
所述多种类型的音频异常进一步包括由非人类来源中的背景噪声或混响引起的环境异常,
所述发生是环境异常。
8.如权利要求7所述的一个或多个非暂态存储介质,
所述传输包括发送用于终止所述环境异常的发生的建议,
所述建议包括开启由所述第一移动设备实施的噪声抑制特征。
9.如权利要求1至8中任一项所述的一个或多个非暂态存储介质,
所述多种类型的音频异常进一步包括由记录的语音的某些质量指标的低值表示的语音异常,
所述某些质量指标包括音量或清晰度,
所述发生是语音异常。
10.如权利要求9所述的一个或多个非暂态存储介质,
所述传输包括发送用于终止所述语音异常的发生的建议,
所述建议包括调整人类说话者的语音以提高所述某些质量指标中的质量指标的值。
11.如权利要求1至10中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括实时地实施补救方法以终止所述类型的音频异常的发生或呈现实施所述补救方法的请求
12.如权利要求1至11中任一项所述的一个或多个非暂态存储介质,所述传输包括呈现删除音频内容的请求,所述音频内容包含所述类型的音频异常的发生的一部分。
13.如权利要求1至12中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括:
实时地连续确定是否检测到所述类型的音频异常的发生的结束;
实时地禁止所述第一移动设备生成音频内容,直到检测到所述发生的结束为止。
14.如权利要求1至13中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括:
沿时间轴显示所述音频数据的图形表示;
在所述图形表示上叠加异常信息,
所述异常信息描述所述类型的音频异常的发生,并且被示出在描绘所述类型的音频异常的发生的图形表示的一部分的顶部。
15.如权利要求14所述的一个或多个非暂态存储介质,
所述叠加是可选择的,并且所述异常信息指示用于解决所述类型的音频异常的发生以增强所述音频数据的建议,
所述方法进一步包括:
接收对所述叠加的选择;
实施所述建议以获得增强的音频数据。
16.如前述权利要求中任一项所述的一个或多个非暂态存储介质,其中,所述多种类型的音频异常包括由混响引起的噪声。
17.如前述权利要求中任一项所述的一个或多个非暂态存储介质,其中,所述检测包括:接收由所述第一移动设备的加速度计产生的加速度计信号,以及基于所述加速度计信号来确定所述第一移动设备的加速度。
18.如权利要求17所述的一个或多个非暂态存储介质,其中,所述多种类型的音频异常包括所述第一移动设备的错放。

说明书全文

移动捕获的音频增强

[0001] 相关申请的交叉引用
[0002] 本申请要求于2021年9月10日提交的PCT国际申请号PCT/CN2021/117685、2021年9月15日提交的美国临时申请号63/244,261和2021年11月10日提交的欧洲专利申请号21207498.3的优先权,其中每个申请均通过引用以其全文并入本文。

技术领域

[0003] 本申请涉及音频数据的实时增强。更具体地,下面描述的(多个)示例实施例涉及对用户生成的音频内容中音频异常的实时检测和警报。

背景技术

[0004] 在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术
[0005] 当用户使用智能手机拍摄图片或录制视频时,智能手机的屏幕会立即显示智能手机的相机已捕获到的内容。因此,用户可以实时地感知图片或视频中的遮挡和其他异常情况。然而,在捕获音频内容时,智能手机的扬声器一般不会立即播放智能手机的麦克已捕获到的内容。因此,用户不会实时地意识到所捕获音频内容中存在的音频质量问题。例如,智能手机可能具有多个麦克风,所述麦克风中的至少一个可能被堵塞,从而降低了所捕获音频内容的质量。另外,语音电平可能过高或过低,或者环境噪声可能过大(比如室外环境中存在的风噪声),从而进一步降低了所捕获音频内容的质量。
[0006] 如果有一种系统允许用户检查所捕获的音频内容并帮助用户实时地增强音频内容或解决任何音频异常问题,而不是让用户等到音频内容被捕获很久之后才单独播放,这将是有帮助的。发明内容
[0007] 公开了一种用于实时监控用户生成的音频内容以发现音频异常的系统以及相关方法和存储介质。所述系统包括存储器和一个或多个处理器,所述一个或多个处理器与存储器耦接并且被配置成执行以下操作:实时地接收由第一移动设备生成的音频数据;根据所述音频数据实时地检测包括麦克风异常在内的多种类型的音频异常中的一种类型的音频异常的发生的开始;以及实时地将所述发生的警报传输到第二设备,所述警报引起对所述类型的音频异常的所述发生的注意或描述所述类型的音频异常的所述发生。附图说明
[0008] 在附图中以举例而非限制的方式来图示本发明的(多个)示例实施例,并且其中相似的附图标记指代相似的元素,并且在附图中:
[0009] 图1图示了其中可以实践各种实施例的示例联网计算机系统
[0010] 图2图示了根据所公开的实施例的音频管理计算机系统的示例部件。
[0011] 图3图示了在发生麦克风遮挡的时间段内音频指示符的示例列表。
[0012] 图4图示了示出音频异常警报的智能手机的示例屏幕。
[0013] 图5图示了实时监控用户生成的音频内容以发现音频异常的示例过程。
[0014] 图6是图示了其上可以实施本发明的实施例的计算机系统的框图

具体实施方式

[0015] 在以下说明中,出于解释的目的,阐述了许多具体细节以便提供对本发明的(多个)示例实施例的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践所述(多个)示例实施例。在其他实例中,已知结构和设备以框图形式示出以便避免对所述(多个)示例实施例的不必要模糊。
[0016] 实施例根据以下概要在以下各小节中进行描述:
[0017] 1.总体概述
[0018] 2.示例计算环境
[0019] 3.示例计算机部件
[0020] 4.功能描述
[0021] 4.1.用户生成的音频内容的实时监控
[0022] 4.1.1.麦克风异常检测
[0023] 4.1.2.环境异常检测
[0024] 4.1.3.语音异常检测
[0025] 4.2.用于增强用户生成的音频内容的实时建议
[0026] 4.3.用户生成的音频内容的后处理
[0027] 5.示例过程
[0028] 6.硬件实施方式
[0029] 7.扩展和替代方案
[0030] **
[0031] 1.总体概述
[0032] 公开了一种用于实时监控用户生成的音频内容以发现音频异常的系统和相关方法。在一些实施例中,所述系统被编程为实时地接收由第一移动设备(比如智能手机)生成的音频数据。所述系统被编程为根据音频数据实时地确定是否发生音频异常。所述系统被编程为响应于检测到发生音频异常而实时地向第二移动设备(其可以是同一部智能手机)呈现警报。
[0033] 在一些实施例中,所述系统是智能手机或智能手机内的处理器。所述系统被编程为在室内或室外环境中连续接收由包括在所述系统中或耦接到所述系统的一个或多个麦克风生成的音频数据。所述系统还被编程为连续监控音频数据以确定任何音频异常的发生。可以监控多种类型的音频异常,比如与智能手机的麦克风相关的音频异常、与捕获音频的环境相关的音频异常、或者与环境中说话者的语音相关的音频异常。确定是否发生音频异常可以是基于音频数据或由包括在系统中或耦接到系统的传感器进行的附加测量。
[0034] 在一些实施例中,所述系统被编程为在检测到发生音频异常时实时地呈现音频异常警报。例如,警报可以在包括在系统中或耦接到系统的屏幕上进行显示,或者在包括在系统中或耦接到系统的扬声器上进行播放。警报还可以包括用于解决音频异常以继续生成正常的音频内容或增强已经生成的其中发生音频异常的音频内容的建议。所述系统可以被编程为自动地或响应于用户批准来实施建议。记录之后,所述系统可以被编程为立即以视觉方式将记录的音频与关于发生音频异常的注释一起呈现,所述注释是在检测到异常发生时记录下来的。
[0035] 所述系统具有几个技术优势。所述系统能够对移动设备生成的音频内容提供实时反馈,从而尽快防止进一步生成不期望的音频内容。所述系统还能够检测包括麦克风异常在内的多种类型的音频异常,以帮助全面地保持音频质量。所述系统还允许对发生音频异常的音频内容进行自动增强,包括实时增强。另外,所述系统允许立即可视化刚刚记录的音频内容的质量,以尽快提高质量。
[0036] 2.示例计算环境
[0037] 图1图示了其中可以实践各种实施例的示例联网计算机系统。图1以简化的示意性格式示出,用于说明清楚的示例,并且其他实施例可以包括更多、更少或不同的元件。
[0038] 在一些实施例中,联网计算机系统包括音频管理计算机系统102(“系统”)、一个或多个传感器104或输入设备以及一个或多个输出设备110,它们通过直接物理连接或经由一个或多个网络118通信地耦接。
[0039] 在一些实施例中,系统102广义地表示一个或多个计算机、虚拟计算实例和/或应用程序的实例,所述应用程序被编程或配置有数据结构和/或数据库记录,所述数据结构和/或数据库记录被布置成托管或执行与实时监控用户生成的音频内容以发现音频异常相关的功能。服务器102可以包括服务器群、计算平台、并行计算机或针对上述功能在数据处理、数据存储和网络通信方面具有足够计算能的任何其他计算设施。
[0040] 在一些实施例中,系统102广泛地表示客户端设备,比如台式计算机、膝上型计算机、平板计算机、智能手机或可穿戴设备。这样的客户端设备可以与一个或多个传感器104或者一个或多个输出设备110集成。这样的客户端设备还可以经由比如电缆等物理部件或一个或多个网络118耦接到一个或多个传感器104或一个或多个输出设备110。
[0041] 在一些实施例中,一个或多个传感器104或输入设备中的每一个可以包括麦克风或将声音转换成电信号的另一种数字记录设备。每个传感器被配置成将检测到的音频数据传输到系统102。每个传感器可以包括处理器,或者可以集成到典型的客户端设备中,如台式计算机、膝上型计算机、平板计算机、智能手机或可穿戴设备。
[0042] 在一些实施例中,一个或多个输出设备110中的每一个可以包括扬声器或将电信号转换回声音的另一种数字播放设备。每个输出设备被编程为播放从系统102接收的音频数据。类似于传感器,输出设备可以包括处理器,或者可以集成到典型的客户端设备中,如台式计算机、膝上型计算机、平板计算机、智能手机或可穿戴设备。
[0043] 一个或多个网络118可以由提供图1的各种元件之间的数据交换的任何介质或机制来实施。网络118的示例包括但不限于一个或多个蜂窝网络(通过蜂窝天线与到计算设备的数据连接通信地耦接)、近场通信(NFC)网络、局域网(LAN)、广域网(WAN)、因特网、地面或卫星链路等。
[0044] 在一些实施例中,系统102被编程为相对于产生给定环境中的声音而实时地从一个或多个传感器104接收与所述声音相对应的输入音频数据。接下来,系统102被编程为处理通常与语音和噪声的混合相对应的输入音频数据,以便根据输入音频数据、相对于接收到输入音频数据而实时地检测任何类型的音频异常的发生。系统102被编程为相对于检测到异常发生而进一步实时地将检测到的任何异常发生的警报传输到一个或多个输出设备。系统102还可以传输或实施终止异常发生或更新输入音频数据以获得增强的音频数据的建议。
[0045] 3.示例计算机部件
[0046] 图2图示了根据所公开的实施例的音频管理计算机系统的示例部件。所述图仅用于说明目的,并且系统102可以包括更少或更多的功能部件或存储部件。每个功能部件可以被实施为软件部件、通用或专用硬件部件、固件部件或其任何组合。每个功能部件还可以与一个或多个存储部件(未示出)耦接。存储部件可以使用关系数据库、对象数据库、平面文件系统或JSON存储中的任何一者来实施。存储部件可以本地或者使用编程调用、远程过程调用(RPC)设施或消息总线通过网络连接到功能部件。部件可以是独立的,也可以不是独立的。取决于实施方式特定的或其他考虑,这些部件可以是在功能上或物理上集中式的或分布式的。
[0047] 在一些实施例中,系统102包括数据收集指令202、异常检测指令204、异常通知指令206以及异常移除或音频增强指令208。系统102还包括数据库220。
[0048] 在一些实施例中,数据收集指令202能够从一个或多个输入设备(通常是麦克风)、其他传感器(比如加速度传感器)的测量或用户输入(比如用户界面元素的选择)实时收集音频数据。
[0049] 在一些实施例中,异常检测指令204能够定义多种类型的音频异常,所述音频异常可以与产生音频数据的麦克风、产生音频数据的环境以及由麦克风记录的语音相关。异常检测指令204还能够根据输入音频数据或其他传感器测量结果实时地检测某种类型的音频异常的发生。
[0050] 在一些实施例中,异常通知指令206能够实时地通知某种类型的异常的发生。所述通知可以包括呈现异常发生的警报或用于终止异常发生的建议,并且可以至少以视觉形式或听觉形式呈现。
[0051] 在一些实施例中,异常去除或音频增强指令208能够解决音频异常以在未来生成正常的音频内容或增强先前生成的发生音频异常的音频内容。音频去除或增强可以自动地、实时地或响应于用户指令而执行。
[0052] 在一些实施例中,数据库220被编程或被配置成管理相关数据(比如,输入音频数据、增强的音频数据、异常检测和通知模、音频异常定义、警报定义、建议定义、传感器测量结果、或设备数据)的存储和访问
[0053] 4.功能描述
[0054] 4.1.用户生成的音频内容的实时监控
[0055] 4.1.1麦克风异常检测
[0056] 图3图示了在发生麦克风遮挡的时间段内音频指示符的示例列表。在该示例中,智能手机中的麦克风数量为两个,并且其中一个麦克风在该时段的某些时间段期间被意外覆盖
[0057] 麦克风遮挡通常会导致移动捕获的音频信号中高频能量的强烈滚降。在一些实施例中,系统102因此可以通过评估与两个麦克风之间的高频分量相关的一个或多个音频指示符的值来检测麦克风遮挡并使麦克风遮挡标志出现。使音频异常标志(比如麦克风遮挡标志)出现通常意味着记录关于发生音频异常的信息,所述信息包括异常发生的描述和开始时间。这样的音频指示符包括由两个麦克风产生的两个信号之间的高频对数功率差和(LPDS)(比如指示符304)或者频谱斜率或频谱平衡(未示出),其指示麦克风产生的每个信号的高频能量与低频能量之间的相对比率。在图3中,麦克风遮挡检测的结果如线302所示,其中非零值对应于遮挡的实例。系统102可以根据各种参数值实时地计算LPDS,然后根据LPDS如下地确定是否发生麦克风遮挡,这可以容易地扩展到两个以上的麦克风:
[0058] function p=SoundDogDetectorInit(g,p)
[0059] %g表示频域中的音频信号,并且p表示一组参数
[0060] %g.Fs表示采样频率,并且可以设置为8000、16000或32000
[0061] %g.Block=g.Fs*frameLength(预设值)
[0062] %SoundDogDetectorInit
[0063] p=SetParam(p,'SmoothTime',0.5,'State');%(秒)电平差平滑
[0064] p=SetParam(p,'CountTime',1,'State');%(秒)检测时间阈值
[0065] %派生参数
[0066] p=SetParam(p,'SmoothAlpha',1‑exp(‑g.Block/g.Fs/p.SmoothTime),'Derived');
[0067] p=SetParam(p,'CountThreshold',p.CountTime*g.Fs/g.Block,'Derived');
[0068] %状态参数
[0069] p=SetParam(p,'LevelDiff',25,'State');
[0070] p=SetParam(p,'AnomalyLike',0,'State');
[0071] p=SetParam(p,'Count',0,'State');
[0072] p=SetParam(p,'MaxCount',60,'State');
[0073] p=SetParam(p,'MicBlocked',0,'State');
[0074] %MicBlocked指示关注的麦克风是否被堵塞或遮挡
[0075] end
[0076] function p=SoundDogDetectorProcess(g,p,StereoBands)
[0077] %StereoBands表示一组频段
[0078] %SoundDogDetectorProcess
[0079] %高频段立体声通道的电平差
[0080] LogBands_Left=10*log10(StereoBands(16:end,1)+eps);
[0081] LogBands_Right=10*log10(StereoBands(16:end,2)+eps);
[0082] %p.LevelDiff=sum(abs(LogBands_Left‑LogBands_Right))/20;
[0083] p.LevelDiff=(1‑p.SmoothAlpha)*p.LevelDiff+p.SmoothAlpha*(sum(abs(LogBands_Left‑LogBands_Right))/10);
[0084] %确定电平差异常的持续时间
[0085] p.AnomalyLike=(p.LevelDiff>30);
[0086] %寻找大于500ms且间隔大于1秒的长块
[0087] p.Count=min(p.MaxCount,p.Count+p.AnomalyLike);
[0088] 如果(p.LevelDiff<20)
[0089] p.Count=0;%如果电平差较低,则重置
[0090] end
[0091] p.MicBlocked=p.Count>p.CountThreshold;
[0092] end
[0093] 当智能手机中的麦克风发生故障时,信号的值始终为零。在一些实施例中,系统102保持由麦克风产生的每个信号的零值的数量的计数器。当计数器值超过特定阈值(比如2秒内100帧)时,系统102就会得出麦克风故障的结论并且可以使麦克风故障标志出现。
当麦克风故障修复后,可以重置计数器。
[0094] 有时,智能手机并不依赖于内置麦克风,而是依赖于嵌入到连接至智能手机的塞中的麦克风。耳塞以及因此麦克风相对于智能手机的位置可能会有所不同。当连接到智能手机的耳塞之一掉落或以其他方式被错放时,双耳场景将是不正确的,直到将掉落的耳塞重新放置在正确的位置。在一些实施例中,当耳塞掉落或以其他方式移动时,系统102检测到耳塞错放(比如突然掉落)并基于由同样嵌入在耳塞中的加速度计产生的信号来使耳塞掉落标志出现。具体地,系统102可以接收由加速度计产生的信号并确定耳塞的加速度。在其他实施例中,系统检测耳塞错放并基于由同样嵌入在耳塞中的骨振动传感器产生的信号来使耳塞掉落标志出现。具体地,系统102可以接收由骨振动传感器产生的信号并确定耳内振动或耳外移动。
[0095] 4.1.2.环境异常检测
[0096] 在一些实施例中,系统102使用本领域技术人员已知的现有技术来实时地(相对于产生发生异常的音频数据)检测用户生成的音频内容中存在的不同类型的环境噪声。系统102可以计算或跟踪音频内容中的噪声(环境噪声、空房间噪声或由除人类之外的来源产生的任何声音)的电平或清晰度、估计的信噪比(SNR)、估计的混响量或语音扩散量、或特定室外噪声(比如风声、枪声或公共广播产生的噪声)的估计电平。当这些跟踪值中的任一个值超过对应阈值时,系统102进一步确定在用户生成的音频内容中发生环境异常。例如,在SNR估计中,当检测到的信号低于10dB时,系统102可以得出已经发生环境异常的结论。响应于所述确定,系统102可以使环境异常标志或特定于所述类型的噪声的标志出现。
[0097] 4.1.3.语音异常检测
[0098] 在一些实施例中,系统102使用本领域技术人员已知的技术来实时地检测用户生成的音频内容中的不同类型的语音特性。系统102可以在音频内容中确定或跟踪语音电平是否过低、语音电平是否过高并因此发生削波、或者语音是否表现出其他不期望的属性。系统102还可以使用非侵入式语音指标(比如ITU‑T Rec.P.563)以进行实时评估。这种非侵入式语音指标仅需要终点或中间点处的信号,在所述终点或中间点处信号应该被评估并且可能非常适合于用户生成的音频内容。响应于所述确定,系统102可以使语音异常标志或特定于不期望的语音属性的标志出现。
[0099] 4.2.用于增强用户生成的音频内容的实时建议
[0100] 在一些实施例中,一旦出现音频异常标志(如第4.1节中所讨论的),系统102就会基于所述音频异常标志向用户设备或用户实时地(相对于检测到音频异常的时间)传送检测到音频异常的警报。警报可以是引起用户注意的一种方式,也可以是对音频异常的实际描述。系统可以将附加信息与警报一起传送,或者在接收到用户对警报的响应后传送附加信息。附加信息可以包括关于如何消除音频异常的来源、如何增强已经生成的音频内容、或如何使得能够在未来生成正常的无异常音频内容的建议。
[0101] 在一些实施例中,系统102以视觉方式显示警报消息,比如经由智能手机的屏幕呈现警报消息。图4图示了示出音频异常警报的智能手机的示例屏幕。在该示例中,当智能手机记录音频数据时,系统102检测到环境噪声过大。因此,智能手机的屏幕400上会立即显示警报402以向用户通知用户生成的音频内容中存在音频异常。对于任何检测到的音频异常都可以显示类似的警报,以指示例如左麦克风被堵塞、风噪声过强、人声过低或者人声电平发生削波。
[0102] 在一些实施例中,系统102以听觉形式播放警报消息,比如经由智能手机的扬声器呈现警报消息。可以立即显示在智能手机屏幕上的相同警报消息可以经由智能手机的扬声器立即播放。作为完整警报消息的替代或补充,系统102还可以播放不对音频异常标志的性质做出回复的警报信号。警报信号的示例包括一声或多声清晰的哔哔声或铃声以引起用户的注意。作为完整警报消息或警报信号的替代或补充,系统102可以播放音频内容中发生音频异常的片段。例如,在播放短警报信号或完整警报消息以提示用户停止记录之后,系统102可以继续播放音频内容中发生音频异常的片段,以便用户进一步了解音频异常情况。
[0103] 在一些实施例中,作为传送音频异常警报的替代或补充,系统102传送用于实时地(相对于检测到音频异常)处理音频异常的建议或者自动实施所述建议。每条建议至少可以以视觉或听觉方式再次传送。例如,用于处理音频异常的建议的描述可以显示在智能手机的与显示音频异常的初始警报相同的屏幕上。可替代地,可以在同一屏幕上显示查看建议的选项,并且响应于对所述选项的选择,可以在不同的屏幕上显示对所述建议的描述。又例如,可以在智能手机的扬声器上播放警报消息,无论是否请求用户听取建议。然后,系统102可以监听包括在请求中的语音提示或默认语音提示(比如“告诉我更多详情”),并播放对所述建议的描述。
[0104] 在一些实施例中,当音频异常与麦克风相关时,系统102可以建议各种动作来消除音频异常的来源或使得能够在未来生成正常的音频内容。当检测到麦克风遮挡或故障时,用于处理音频异常的建议可以包括识别麦克风并请求用户对麦克风解除堵塞或进行修复的消息。例如,故障可能是由于电量不足造成的。当检测到麦克风或耳塞错放时,建议可以类似地包括识别耳塞并请求用户重新放置耳塞的消息。还可以在掉落的耳塞中播放警报信号(比如一串高音调声音),并且可能不需要任何建议,因为预期用户会意识到哪个耳塞掉落了并相应地重新放置所述耳塞。
[0105] 在一些实施例中,系统102还可以建议各种动作来增强已生成的音频内容。当检测到麦克风遮挡或错放时,系统102可以基于遮挡量(假设麦克风未被完全堵塞)或错放的位置来确定已生成的音频内容的调整量和方式。于是,用于处理音频异常的建议可以包括以特定的量和方式执行调整的消息。系统102还可以建议将由被遮挡的麦克风记录的音频内容替换为由未被遮挡的另一麦克风记录的音频内容。系统102可以自动地或基于用户输入在某个时间实施建议以增强已生成的音频内容。
[0106] 在一些实施例中,当音频异常与环境(其可以是房间或室外环境)相关时,系统102可以建议各种动作来消除音频异常的来源或使得能够在未来生成正常的音频内容。当检测到噪声电平(例如,就频谱清晰度而言)大于第一阈值时,或者当检测到SNR大于第二阈值时,用于处理音频异常的建议可以包括重新定位至少部分声音记录设置或开启由系统102实施的某些音频处理特征。音频处理特征可以包括本领域技术人员已知的现有噪声抑制技术。
[0107] 在一些实施例中,要开启的音频处理特征还可以取决于检测到的噪声的类型。噪声可能来自音乐播放、鸣、狗叫、空调振动、风吹、放大器广播或其他意外的环境事件,并且噪声也可能来自混响。然后可以应用特定于检测到的噪声的类型的噪声抑制技术。例如,当以RT60表示的混响时间、以直接混响比(DRR)表示的混响效果或估计的声音扩散平超过相应的阈值(指示室内环境具有强烈的混响或反射)时,建议可以包括开启混响抑制技术或将麦克风移动到更靠近目标扬声器的位置。
[0108] 在一些实施例中,当噪声来自意外事件时,用户可能意识不到与噪声相关的潜在危险。例如,呜呜声可能来自从远处快速驶来的汽车,或者一段距离之外的枪声可能类似地被埋没在其他声音中。当检测到这种类型的噪声时,建议可以包括停止记录并立即离开当前位置的消息。此外,当噪声来自意外事件时,系统102可以自动确定噪声对于产生可用音频内容来说过大,并且将在短时间内终止。于是,建议可以是暂停记录。例如,当检测到正在发布公共公告或者当喷洒器处于活动状态时,可以响应于用户确认而自动暂停记录,直到检测到这种噪声终止为止。
[0109] 在一些实施例中,系统102还可以建议各种动作来增强已生成的音频内容。可以对已生成的音频内容应用在对响应于检测到环境异常而要生成的音频内容进行实时处理时所使用的相同噪声抑制技术。因此,用于处理音频异常的建议可以包括应用特定噪声抑制技术的消息。系统102可以自动地或基于用户输入在某个时间实施建议以增强已生成的音频内容。
[0110] 在一些实施例中,当音频异常与人声相关时,系统102可以建议各种动作来消除音频异常的来源或使得能够在未来生成正常的音频内容。当检测到语音电平低于第一阈值时,建议可以包括将音量提高到特定范围。类似地,当检测到语音电平高于第二阈值时(其中第二阈值可以是与麦克风相关联的削波阈值),建议可以包括将音量降低到特定范围。类似地,当检测到任一语音质量指标不满足预设标准时,建议可以包括以某种方式调整语音以提高语音质量,比如请求用户低声说话或开始喊叫。
[0111] 在一些实施例中,系统102还可以建议各种动作来增强已生成的音频内容。可以对已生成的音频内容应用在对响应于检测到语音异常而要生成的音频内容进行实时处理时所使用的相同语音调整技术。因此,建议可以包括应用特定噪声抑制技术的消息。系统102可以自动地或基于用户输入在某个时间实施建议以增强已生成的音频内容。
[0112] 在一些实施例中,系统102继续实时地监控用户生成的音频内容并且重复呈现警报或建议,直到任何检测到的音频异常得到解决,此时系统102可以清除音频异常标志。清除音频异常标志通常意味着找到了所记录的对音频异常的描述,并进一步记录音频异常发生的结束时间。例如,系统102可以跟踪耳塞的位置直到其被正确地重新放置,跟踪噪声电平直到应用噪声抑制技术,或者跟踪语音电平直到其回落到正常范围内。
[0113] 在一些实施例中,在实时地解决音频异常的同时,系统102可以确定如何处理已生成的音频内容或者如何在未来继续生成音频内容。系统102可以自动禁止进一步的生成直到音频异常得到解决为止,或者请求用户批准这种禁用。系统102可以请求用户重新创建从音频异常开始发生时起发生的事情,并请求用户批准删除音频内容中与发生音频异常相对应的片段。可以如上所讨论得那样播放音频内容片段,以帮助用户决定是否批准删除。
[0114] 4.3.用户生成的音频内容的后处理
[0115] 在一些实施例中,在播放用户生成的音频内容时,系统102可以生成要在显示设备上呈现的图形用户界面(GUI)。GUI可以包括显示用户生成的音频内容,比如沿时间轴的波形面板。GUI可以进一步包括基于音频异常标志的出现和清除,在音频内容的图形表示上叠加音频异常信息。音频异常信息可以指示异常发生的开始时间或结束时间、音频异常的类型、用于处理音频内容中的音频异常的建议、所述建议是否已经被实施等。建议可以包括删除与发生音频异常相对应的音频内容片段。建议的表示可以是可选择的,并且系统102可以在接收到所述选择后实施所述建议。GUI还可以包括用于实施所有建议的选项,并且系统102可以实施正在检查的用户生成的音频内容中的所有建议以生成增强的音频内容并更新显示增强的音频内容。
[0116] 5.示例过程
[0117] 图5图示了根据本文所描述的一些实施例的利用音频管理计算机系统执行的示例过程。图5以简化的示意性格式示出,用于说明清楚的示例,并且其他实施例可以包括以各种方式连接的更多、更少或不同的元件。图5各自旨在公开可以用于实施一个或多个计算机程序或其他软件元素的算法、规划或概要,这些计算机程序或其他软件元素在被执行时使本文描述的功能改进和技术进步得以执行。此外,本文的流程图以与本领域普通技术人员通常就形成他们计划使用其积累的技术或知识进行编写或实施的软件程序的基础的算法、规划或规范而相互交流所使用的相同的详细程度进行描述。
[0118] 在一些实施例中,在步骤502中,系统102被编程为实时地接收由第一移动设备生成的音频数据。第一移动设备可以是具有一个或多个内置麦克风的智能手机。
[0119] 在一些实施例中,在步骤504中,系统102被编程为根据音频数据实时地检测包括麦克风异常在内的多种类型的音频异常中的一种类型的音频异常发生的开始。
[0120] 在一些实施例中,在步骤506中,系统102被编程为实时地将异常发生的警报传输到第二设备,所述警报引起对所述类型的音频异常的发生的注意或描述所述类型的音频异常的发生。所述传输可以包括呈现删除音频内容的请求,所述音频内容包含所述类型的音频异常的发生的一部分。
[0121] 在一些实施例中,系统102被编程为使得警报以视觉形式在屏幕上进行显示或者以听觉形式在扬声器上进行播放,所述屏幕或所述扬声器包括在第二设备中或耦接到第二设备。
[0122] 在一些实施例中,麦克风异常是由包括在第一移动设备中或耦接到第一移动设备的麦克风的遮挡、故障或错放引起的,并且发生的异常是麦克风异常。系统102被编程为在到当前时间为止的时间段内识别来自包括在所述第一移动设备中或耦接到所述第一移动设备的每个麦克风的信号的高频分量,确定来自每个麦克风的所述信号的幅度值,或者接收来自包括在每个麦克风中或耦接到每个麦克风的加速度传感器或骨振动传感器的测量值。系统102被编程为进一步发送用于终止麦克风异常发生的建议,所述建议包括将麦克风识别为异常发生的来源并指示对麦克风解除堵塞、进行修复或重新放置。
[0123] 在一些实施例中,多种类型的音频异常进一步包括由非人类来源中的背景噪声或混响引起的环境异常,并且发生的异常是环境异常。系统102被编程为发送用于终止环境异常发生的建议,所述建议包括开启由第一移动设备实施的噪声抑制特征。
[0124] 在一些实施例中,多种类型的音频异常进一步包括由记录的语音的某些质量指标的低值表示的语音异常,其中某些质量指标包括音量或清晰度,并且发生的异常是语音异常。系统102被编程为发送用于终止语音异常发生的建议,所述建议包括调整人类说话者的语音以提高某些质量指标中的质量指标的值。
[0125] 在一些实施例中,系统102被编程为进一步实时地实施补救方法以终止所述类型的音频异常的发生或呈现实施所述补救方法的请求。在一些实施例中,系统102被编程为实时地连续确定是否检测到所述类型的音频异常发生的结束,并且实时地禁止第一移动设备生成音频内容,直到检测到异常发生的结束为止。
[0126] 在一些实施例中,系统102被编程为沿时间轴显示音频数据的图形表示,并在图形表示上叠加异常信息,所述异常信息描述所述类型的音频异常的发生,并且被示出在描绘所述类型的音频异常的发生的图形表示的一部分的顶部。在一些实施例中,叠加可以是可选择的,并且异常信息可以指示用于解决所述类型的音频异常的发生以增强音频数据的建议。系统102被编程为进一步接收对叠加的选择并实施建议以获得增强的音频数据。
[0127] 6.硬件实施方式
[0128] 根据一个实施例,本文所描述的技术由至少一个计算设备实施。可以使用至少一个服务器计算机和/或利用网络(如分组数据网络)耦接的其他计算设备的组合来全部或部分地实施这些技术。计算设备可以是硬接线的,以用于执行这些技术,或者可以包括如被持久地编程为执行这些技术的至少一个专用集成电路(ASIC)或现场可编程阵列(FPGA)等数字电子设备,或者可以包括被编程为根据固件、存储器、其他存储装置或组合中的程序指令执行这些技术的至少一个通用硬件处理器。这种计算设备也可以将定制的硬接线逻辑、ASIC或FPGA与定制编程相结合来实现这些所描述技术。计算设备可以是服务器计算机、工作站、个人计算机、便携式计算机系统、手持设备、移动计算设备、可穿戴设备、身体安装或可植入设备、智能手机、智能电器、网络互联设备、如机器人或无人驾驶地面或空中交通工具等自主或半自主设备、并入硬接线和/或程序逻辑以实施所描述的技术的任何其他电子设备、数据中心中的一个或多个虚拟计算机器或实例、和/或服务器计算机和/或个人计算机的网络。
[0129] 图6是图示了可以用来实施实施例的示例计算机系统的框图。在图6的示例中,以与本公开所属领域的普通技术人员普遍使用的就计算机架构和计算机系统实施方式进行交流的相同详细程度将计算机系统600和用于在硬件、软件或硬件和软件的组合中实施所公开技术的指令示意性地表示为例如框和圆。
[0130] 计算机系统600包括输入/输出(I/O)子系统602,其可以包括用于通过电子信号路径在计算机系统600的部件之间传送信息和/或指令的总线和/或其他(多个)通信机制。I/O子系统602可以包括I/O控制器、存储器控制器和至少一个I/O端口。电子信号路径在附图中示意性地表示为例如线、单向箭头或双向箭头。
[0131] 至少一个硬件处理器604耦接到用于处理信息和指令的I/O子系统602。硬件处理器604可以包括例如通用微处理器微控制器和/或如嵌入式系统图形处理单元(GPU)或数字信号处理器或ARM处理器等专用微处理器。处理器604可以包括集成算术逻辑单元(ALU)或者可以耦接到分离的ALU。
[0132] 计算机系统600包括存储器606的一个或多个单元,如主存储器,所述主存储器耦接到I/O子系统602从而以电子数字方式存储要由处理器604执行的数据和指令。存储器606可以包括易失性存储器(如各种形式的随机存取存储器(RAM))或其他动态存储设备。存储器606还可以用于存储在执行要由处理器604执行的指令期间的临时变量或其他中间信息。在被存储于处理器604可访问的非暂态计算机可读存储介质中时,这种指令可以使计算机系统600变成被定制用于执行在指令中指定的操作的专用机器。
[0133] 计算机系统600进一步包括非易失性存储器(如只读存储器(ROM)608)或耦接到I/O子系统602以存储处理器604的信息和指令的其他静态存储设备。ROM 608可以包括如可擦除PROM(EPROM)或电可擦除PROM(EEPROM)等各种形式的可编程ROM(PROM)。持久存储单元610可以包括如闪速存储器或固态存储设备、磁盘或光盘(如CD‑ROM或DVD‑ROM)等各种形式的非易失性RAM(NVRAM),并且可以耦接到I/O子系统602以用于存储信息和指令。存储设备
610是可以用于存储指令和数据的非暂态计算机可读介质的示例,这些指令和数据在由处理器604执行时使用于执行本文的技术的计算机实施的方法得以执行。
[0134] 存储器606、ROM 608或存储设备610中的指令可以包括被组织为模块、方法、对象、功能、例程或调用的一组或多组指令。指令可以被组织为一个或多个计算机程序、操作系统服务或包括移动应用的应用程序。指令可以包括操作系统和/或系统软件;支持多媒体、编程或其他功能的一个或多个库;用于实施TCP/IP、HTTP或其他通信协议的数据协议指令或堆栈;用于解释和呈现使用HTML、XML、JPEG、MPEG或PNG编码的文件的文件处理指令;用于呈现或解释用于图形用户界面(GUI)、命令行界面或文本用户界面的命令的用户界面指令;如办公套件、因特网访问应用、设计和制造应用、图形应用、音频应用、软件工程应用、教育应用、游戏或其他应用等应用软件。这些指令可以实施web服务器、web应用服务器或web客户端。指令可以被组织为表示层、应用层和如使用结构化查询语言(SQL)或NoSQL的关系数据库系统、对象存储、图形数据库、平面文件系统或其他数据存储等数据存储层。
[0135] 计算机系统600可以经由I/O子系统602耦接到至少一个输出设备612。在一个实施例中,输出设备612为数字计算机显示器。可以在各种实施例中使用的显示器的示例包括触摸屏显示器或发光二极管(LED)显示器或液晶显示器(LCD)或电子纸显示器。计算机系统600可以包括其他(多个)类型的输出设备612,作为显示设备的替代或补充。其他输出设备
612的示例包括打印机、票据打印机、绘图仪、投影仪、声卡或视频卡、扬声器、蜂鸣器或压电设备或其他可听设备、灯或LED或LCD指示器、触觉设备、致动器或伺服器。
[0136] 至少一个输入设备614耦接到I/O子系统602,用于将信号、数据、命令选择或手势传送到处理器604。输入设备614的示例包括触摸屏、麦克风、静态和视频数码相机、字母数字键和其他键、小键盘、键盘、图形输入板、图像扫描仪、操纵杆、时钟、开关、按钮、刻度盘、滑动装置和/或如力传感器、运动传感器、热传感器、加速度计、陀螺仪和惯性测量单元(IMU)传感器等各种类型的传感器和/或如无线(例如蜂窝或Wi‑Fi)收发器、射频(RF)收发器或红外线(IR)收发器和全球定位系统(GPS)收发器等各种类型的收发器。
[0137] 另一种类型的输入设备是控制设备616,其可以执行光标控制或其他自动控制功能,如在显示屏上的图形界面中导航,作为输入功能的替代或补充。控制设备616可以是触摸板鼠标轨迹球或光标方向键,以用于将方向信息和命令选择传送到处理器604并用于控制在显示器612上的光标移动。所述输入设备可以具有在两条轴线(第一轴线(例如,x轴)和第二轴线(例如,y轴))上的至少两个自由度,允许设备在某个平面中指定方位。另一种类型的输入设备是有线控制设备、无线控制设备或光学控制设备,如操纵杆、棒、控制台、方向盘踏板、换挡机构或其他类型的控制设备。输入设备614可以包括多个不同输入设备的组合,如摄像机和深度传感器。
[0138] 在另一实施例中,计算机系统600可以包括物联网(IoT)设备,其中,省略了输出设备612、输入设备614和控制设备616中的一个或多个。或者,在这样的实施例中,输入设备614可以包括一个或多个相机、运动检测器、温度计、麦克风、地震检测器、其他传感器或检测器、测量设备或编码器,并且输出设备612可以包括如单线LED或LCD显示器、一个或多个指示器、显示面板、仪表、门、螺线管、致动器或伺服器等专用显示器。
[0139] 当计算机系统600是移动计算设备时,输入设备614可以包括耦接到GPS模块的全球定位系统(GPS)接收器,所述GPS模块能够对多个GPS卫星进行三测量、确定并生成地理位置或位置数据,如计算机系统600的地球物理位置的纬度‑经度值。输出设备612可以包括硬件、软件、固件和接口,用于单独或与其他应用特定数据组合而生成指向主机624或服务器630的位置报告分组、通知、脉冲或心跳信号、或指定计算机系统600的位置的其他重复数据传输。
[0140] 计算机系统600可以使用定制的硬接线逻辑、至少一个ASIC或FPGA、固件和/或程序指令或逻辑来实施本文所描述的技术,所述定制的硬接线逻辑、至少一个ASIC或FPGA、固件和/或程序指令或逻辑当被加载并使用或执行时与计算机系统相结合使计算机系统作为专用机器而运行。根据一个实施例,响应于处理器604执行包含在主存储器606中的至少一个指令的至少一个序列,计算机系统600执行本文中的技术。这种指令可以从另一个存储介质(如存储设备610)读取到主存储器606中。包含在主存储器606中的指令序列的执行使处理器604执行本文描述的过程步骤。在替代性实施例中,可以使用硬接线电路来代替软件指令或者与软件指令相结合。
[0141] 如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,如存储设备610。易失性介质包括动态存储器,如存储器606。存储介质的常见形式包括例如硬盘、固态驱动器、闪存驱动器、磁数据存储介质、任何光数据存储介质或物理数据存储介质、存储芯片等。
[0142] 存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与存储介质之间的信息传递。例如,传输介质包括同轴电缆、线和光纤,包括包含I/O子系统的总线602的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的那些声波或光波。
[0143] 各种形式的介质可以涉及将至少一个指令的至少一个序列载送到处理器604以供执行。例如,指令最初可以携带在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载至其动态存储器并且使用调制解调器通过如光纤或同轴电缆或电话线等通信链路来发送这些指令。计算机系统600本地的调制解调器或路由器可以接收通信链路上的数据并转换所述数据以供计算机系统600读取。例如,如射频天线或红外检测器等接收器可以接收在无线或光信号中携带的数据,并且适当的电路系统可以将数据提供给I/O子系统602,如将数据放在总线上。I/O子系统602将数据运送至存储器606,处理器604从所述存储器中检索并执行指令。存储器606接收的指令可以可选地在由处理器604执行之前或之后存储在存储设备610上。
[0144] 计算机系统600还包括耦接到总线602的通信接口618。通信接口618提供到(多个)网络链路620的双向数据通信耦接,所述(多个)网络链路直接或间接连接到如网络622或因特网上的公共云或私有云等至少一个通信网络。例如,通信接口618可以是以太网网络接口、综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或调制解调器,以向对应类型的通信线(例如,以太网电缆或任何种类的金属电缆或光纤线或电话线)提供数据通信连接。网络622广泛地表示局域网(LAN)、广域网(WAN)、校园网、因特网或其任何组合。通信接口618可以包括提供到兼容LAN的数据通信连接的LAN卡,或根据蜂窝无线电话无线网络标准有线发送或接收蜂窝数据的蜂窝无线电话接口,或根据卫星无线网络标准有线发送或接收数字数据的卫星无线电接口。在任何这种实施方式中,通信接口618通过信号路径发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
[0145] 网络链路620通常使用例如卫星、蜂窝、Wi‑Fi或蓝牙技术直接或通过至少一个网络向其他数据设备提供电数据通信、电磁数据通信或光数据通信。例如,网络链路620可以提供通过网络622到主机计算机624的连接。
[0146] 此外,网络链路620可以提供通过网络622的连接或经由因特网服务提供商(ISP)626操作的因特网设备和/或计算机到其他计算设备的连接。ISP 626通过世界范围的分组数据通信网络(表示为因特网628)提供数据通信服务。服务器计算机630可以耦接到因特网
628。服务器630广泛地表示任何计算机、数据中心、具有或不具有管理程序的虚拟机或虚拟计算实例、或执行如DOCKER或KUBERNETES等容器化程序系统的计算机。服务器630可以表示使用多于一个计算机或实例实施的且通过传输web服务请求、具有HTTP有效负载中的参数的统一资源定位符(URL)字符串、API调用、应用服务调用、或其他服务调用来访问和使用的电子数字服务。计算机系统600和服务器630可以形成包括其他计算机、处理集群、服务器群或协作执行任务或执行应用或服务的其他计算机组织的分布式计算系统的元件。服务器
630可以包括被组织为模块、方法、对象、功能、例程或调用的一组或多组指令。指令可以被组织为一个或多个计算机程序、操作系统服务或包括移动应用的应用程序。指令可以包括操作系统和/或系统软件;支持多媒体、编程或其他功能的一个或多个库;用于实施TCP/IP、HTTP或其他通信协议的数据协议指令或堆栈;用于解释或呈现使用HTML、XML、JPEG、MPEG或PNG编码的文件的文件格式处理指令;用于呈现或解释用于图形用户界面(GUI)、命令行界面或文本用户界面的命令的用户界面指令;如办公套件、因特网访问应用、设计和制造应用、图形应用、音频应用、软件工程应用、教育应用、游戏或其他应用等应用软件。服务器630可以包括托管表示层、应用层和如使用结构化查询语言(SQL)或NoSQL的关系数据库系统、对象存储、图形数据库、平面文件系统或其他数据存储等数据存储层的web应用服务器。
[0147] 计算机系统600可以通过(多个)网络、网络链路620和通信接口618发送消息和接收数据和指令,包括程序代码。在因特网示例中,服务器630可以通过因特网628、ISP 626、本地网络622和通信接口618传输应用程序的请求代码。所接收的代码可以在被接收到时由处理器604执行,和/或存储在存储设备610、或其他非易失性存储设备中以供稍后执行。
[0148] 本节中描述的指令的执行可以实施呈被执行的、且由程序代码及其当前活动构成的计算机程序实例的形式的进程。根据操作系统(OS),进程可以由同时执行指令的多个执行线程组成。在这种上下文中,计算机程序是指令的被动集合,而进程可以是这些指令的实际执行。数个进程可以与相同程序相关联;例如,打开同一程序的数个实例通常意味着执行多于一个进程。可以实施多任务以允许多个进程共享处理器604。虽然每个处理器604或处理器的核心每次执行单个任务,但是计算机系统600可以被编程为实施多任务处理以允许每个处理器在被执行的任务之间切换而不必等待每个任务完成。在实施例中,可以在任务执行输入/输出操作时、当任务指示它可以被切换或者在硬件中断时执行切换。通过快速执行上下文切换以出现多个进程同时并发执行,可以实施分时以允许交互式用户应用的快速响应。在实施例中,为了安全性和可靠性,操作系统可以防止独立进程之间的直接通信,提供严格中介和受控的进程间通信功能。
[0149] 7.扩展和替代方案
[0150] 在前述说明书中,已经参考许多具体细节描述了本公开的实施例,这些细节可以根据实施方式而变化。因此,应当从说明性而非限制性意义上看待本说明书和附图。指明本公开范围以及本公开范围内申请人的发明意图的唯一且排他性指示是根据本申请以这套权利要求发布的具体形式发布的权利要求的文字和等效范围,包括任何后续修改
[0151] 可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
[0152] EEE 1.一个或多个非暂态存储介质,所述非暂态存储介质存储有指令,所述指令当由一个或多个计算设备执行时,使得执行实时监控用户生成的音频内容以发现音频异常的方法,所述方法包括:
[0153] 实时地接收由第一移动设备生成的音频数据;
[0154] 根据所述音频数据实时地检测包括麦克风异常在内的多种类型的音频异常中的一种类型的音频异常发生的开始;
[0155] 实时地将所述异常发生的警报传输到第二设备,所述警报引起对所述类型的音频异常的所述发生的注意或描述所述类型的音频异常的所述发生。
[0156] EEE 2.如EEE 1所述的一个或多个非暂态存储介质,所述第一移动设备是具有一个或多个内置麦克风的智能手机。
[0157] EEE 3.如EEE 1或2所述的一个或多个非暂态存储介质,
[0158] 所述传输包括使得所述警报以视觉形式在屏幕上进行显示或以听觉形式在扬声器上进行播放,
[0159] 所述屏幕或所述扬声器包括在所述第二设备中或耦接到所述第二设备。
[0160] EEE 4.如EEE 1至3中任一项所述的一个或多个非暂态存储介质,
[0161] 所述麦克风异常是由包括在所述第一移动设备中或耦接到所述第一移动设备的麦克风的遮挡、故障或错放引起的,
[0162] 所述发生的异常是麦克风异常。
[0163] EEE 5.如EEE 4所述的一个或多个非暂态存储介质,所述检测包括:在到当前时间为止的时间段内,识别来自包括在所述第一移动设备中或耦接到所述第一移动设备的每个麦克风的信号的高频分量,确定来自每个麦克风的所述信号的幅度值,或者接收来自包括在每个麦克风中或耦接到每个麦克风的加速度传感器或骨振动传感器的测量值。
[0164] EEE 6.如EEE 4或5所述的一个或多个非暂态存储介质,
[0165] 所述传输包括发送用于终止所述麦克风异常发生的建议,
[0166] 所述建议包括将麦克风识别为所述异常发生的来源并指示对所述麦克风解除堵塞、进行修复或重新放置。
[0167] EEE 7.如EEE 1至6中任一项所述的一个或多个非暂态存储介质,
[0168] 所述多种类型的音频异常进一步包括由非人类来源中的背景噪声或混响引起的环境异常,
[0169] 所述发生的异常是环境异常。
[0170] EEE 8.如EEE 7所述的一个或多个非暂态存储介质,
[0171] 所述传输包括发送用于终止所述环境异常发生的建议,
[0172] 所述建议包括开启由所述第一移动设备实施的噪声抑制特征。
[0173] EEE 9.如EEE 1至8中任一项所述的一个或多个非暂态存储介质,
[0174] 所述多种类型的音频异常进一步包括由记录的语音的某些质量指标的低值表示的语音异常,
[0175] 所述某些质量指标包括音量或清晰度,
[0176] 所述发生的异常是语音异常。
[0177] EEE 10.如EEE 9所述的一个或多个非暂态存储介质,
[0178] 所述传输包括发送用于终止所述语音异常发生的建议,
[0179] 所述建议包括调整人类说话者的语音以提高所述某些质量指标中的质量指标的值。
[0180] EEE 11.如EEE 1至10中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括实时地实施补救方法以终止所述类型的音频异常的发生或呈现实施所述补救方法的请求。
[0181] EEE 12.如EEE 1至11中任一项所述的一个或多个非暂态存储介质,所述传输包括呈现删除音频内容的请求,所述音频内容包含所述类型的音频异常的发生的一部分。
[0182] EEE 13.如EEE 1至12中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括:
[0183] 实时地连续确定是否检测到所述类型的音频异常发生的结束;
[0184] 实时地禁止所述第一移动设备生成音频内容,直到检测到所述异常发生的结束为止。
[0185] EEE 14.如EEE 1至13中任一项所述的一个或多个非暂态存储介质,所述方法进一步包括:
[0186] 沿时间轴显示所述音频数据的图形表示;
[0187] 在所述图形表示上叠加异常信息,
[0188] 所述异常信息描述所述类型的音频异常的发生,并且被示出在描所述类型的音频异常的发生的图形表示的一部分的顶部。
[0189] EEE 15.如EEE 14所述的一个或多个非暂态存储介质,
[0190] 所述叠加是可选择的,并且所述异常信息指示用于解决所述类型的音频异常的发生以增强所述音频数据的建议,
[0191] 所述方法进一步包括:
[0192] 接收对所述叠加的选择;
[0193] 实施所述建议以获得增强的音频数据。
[0194] EEE 15a.如EEE 1至15中任一项所述的一个或多个非暂态存储介质,其中,所述多种类型的音频异常包括由混响引起的噪声。
[0195] EEE 15b.如EEE 1至15a中任一项所述的一个或多个非暂态存储介质,其中,所述检测包括:接收由所述第一移动设备的加速度计产生的加速度计信号,以及基于所述加速度计信号来确定所述第一移动设备的加速度。
[0196] EEE 15c.如EEE 15b所述的一个或多个非暂态存储介质,其中,所述多种类型的音频异常包括所述第一移动设备的错放。
[0197] EEE 16.一种用于实时监控用户生成的音频内容以发现音频异常的系统,所述系统包括:
[0198] 存储器;
[0199] 一个或多个处理器,所述一个或多个处理器与所述存储器耦接并且被配置成执行以下操作:
[0200] 实时地接收音频数据;
[0201] 根据所述音频数据实时地检测包括麦克风异常在内的多种类型的音频异常中的一种类型的音频异常发生的开始;
[0202] 实时地呈现所述异常发生的警报,所述警报引起对所述类型的音频异常的所述发生的注意或描述所述类型的音频异常的所述发生。
[0203] EEE 17.如EEE 16所述的系统,进一步包括:
[0204] 一个或多个麦克风,所述一个或多个麦克风被配置成捕获所述音频数据;
[0205] 一个或多个屏幕,所述一个或多个屏幕被配置成显示所述警报;
[0206] 一个或多个扬声器,所述一个或多个扬声器被配置成播放所述警报。
[0207] EEE 18.如EEE 17所述的系统,
[0208] 所述呈现所述警报包括在所述一个或多个屏幕中的一个屏幕上显示所述警报,[0209] 所述警报识别所述一个或多个麦克风中导致发生所述类型的音频异常的某个麦克风,并请求对所述特定麦克风解除堵塞、进行修复或重新放置。
[0210] EEE 19.如EEE 16至18中任一项所述的系统,
[0211] 所述系统耦接到一个或多个耳塞,每个耳塞包括麦克风和扬声器,
[0212] 所述发生的异常是由所述一个或多个麦克风中的某个麦克风的遮挡、故障或错放引起的麦克风异常。
[0213] EEE 20.如EEE 18或19所述的系统,所述呈现所述警报包括:在所述一个或多个耳塞中的、包含被错放的第一麦克风的第一耳塞中的第一扬声器上播放所述警报,以引起对所述异常发生的注意;或者在所述一个或多个耳塞中的、包含所述一个或多个麦克风中未被错放的第二麦克风的第二耳塞中的第二扬声器上播放所述警报,以描述所述异常发生。
[0214] EEE 20a.如EEE 16至20中任一项所述的系统,其中,所述系统是移动设备。
[0215] EEE 21.一种实时监控用户生成的音频内容以发现音频异常的方法,所述方法包括:
[0216] 实时地接收由第一移动设备生成的音频数据;
[0217] 根据所述音频数据实时地检测包括麦克风异常在内的多种类型的音频异常中的一种类型的音频异常发生的开始;
[0218] 实时地将所述异常发生的警报传输到第二设备,所述警报引起对所述类型的音频异常的所述发生的注意或描述所述类型的音频异常的发生。
[0219] EEE 22.如EEE 21所述的方法,所述第一移动设备是具有一个或多个内置麦克风的智能手机。
[0220] EEE 23.如EEE 21或22所述的方法,
[0221] 所述传输包括使得所述警报以视觉形式在屏幕上进行显示或以听觉形式在扬声器上进行播放,
[0222] 所述屏幕或所述扬声器包括在所述第二设备中或耦接到所述第二设备。
[0223] EEE 24.如EEE 21至23中任一项所述的方法,
[0224] 所述麦克风异常是由包括在所述第一移动设备中或耦接到所述第一移动设备的麦克风的遮挡、故障或错放引起的,
[0225] 所述发生的异常是麦克风异常。
[0226] EEE 25.如EEE 24所述的方法,所述检测包括:在到当前时间为止的时间段内,识别来自包括在所述第一移动设备中或耦接到所述第一移动设备的每个麦克风的信号的高频分量,确定来自每个麦克风的所述信号的幅度值,或者接收来自包括在每个麦克风中或耦接到每个麦克风的加速度传感器或骨振动传感器的测量值。
[0227] EEE 26.如EEE 24或25所述的方法,
[0228] 所述传输包括发送用于终止所述麦克风异常发生的建议,
[0229] 所述建议包括将麦克风识别为所述异常发生的来源并指示对所述麦克风解除堵塞、进行修复或重新放置。
[0230] EEE 27.如EEE 21至26中任一项所述的方法,
[0231] 所述多种类型的音频异常进一步包括由非人类来源中的背景噪声或混响引起的环境异常,
[0232] 所述发生的异常是环境异常。
[0233] EEE 28.如EEE 27所述的方法,
[0234] 所述传输包括发送用于终止所述环境异常发生的建议,
[0235] 所述建议包括开启由所述第一移动设备实施的噪声抑制特征。
[0236] EEE 29.如EEE 21至28中任一项所述的方法,
[0237] 所述多种类型的音频异常进一步包括由记录的语音的某些质量指标的低值表示的语音异常,
[0238] 所述某些质量指标包括音量或清晰度,
[0239] 所述发生的异常是语音异常。
[0240] EEE 30.如EEE 29所述的方法,
[0241] 所述传输包括发送用于终止所述语音异常发生的建议,
[0242] 所述建议包括调整人类说话者的语音以提高所述某些质量指标中的质量指标的值。
[0243] EEE 31.如EEE 21至30所述的方法,进一步包括实时地实施补救方法以终止所述类型的音频异常的发生或呈现实施所述补救方法的请求。
[0244] EEE 32.如EEE 21至31中任一项所述的方法,所述传输包括呈现删除音频内容的请求,所述音频内容包含所述类型的音频异常的发生的一部分。
[0245] EEE 33.如EEE 21至32中任一项所述的方法,进一步包括:
[0246] 实时地连续确定是否检测到所述类型的音频异常发生的结束;
[0247] 实时地禁止所述第一移动设备生成音频内容,直到检测到所述异常发生的结束为止。
[0248] EEE 34.如EEE 21至33中任一项所述的方法,所述方法进一步包括:
[0249] 沿时间轴显示所述音频数据的图形表示;
[0250] 在所述图形表示上叠加异常信息,
[0251] 所述异常信息描述所述类型的音频异常的发生,并且被示出在描绘所述类型的音频异常的发生的图形表示的一部分的顶部。
[0252] EEE 35.如EEE 34所述的方法,
[0253] 所述叠加是可选择的,并且所述异常信息指示用于解决所述类型的音频异常的发生以增强所述音频数据的建议,
[0254] 所述方法进一步包括:
[0255] 接收对所述叠加的选择;
[0256] 实施所述建议以获得增强的音频数据。
[0257] EEE 35a.如EEE 20至35中任一项所述的方法,其中,所述多种类型的音频异常包括由混响引起的噪声。
[0258] EEE 35b.如EEE 20至35a中任一项所述的方法,其中,所述检测包括:接收由所述第一移动设备的加速度计产生的加速度计信号,以及基于所述加速度计信号来确定所述第一移动设备的加速度。
[0259] EEE 35c.如EEE 35b所述的方法,其中,所述多种类型的音频异常包括所述第一移动设备的错放。
[0260] EEE 36.一种具有指令的计算机程序,所述指令当由计算设备或系统执行时使所述计算设备或系统执行如EEE 21至35中任一项所述的方法。
QQ群二维码
意见反馈