触发视频分析的音频事件专利检索-语音触发器人工智能专利检索查询-专利查询网

触发视频分析的音频事件

阅读：196发布：2020-05-17

专利汇可以提供触发视频分析的音频事件专利检索，专利查询，专利分析的服务。并且一种用于在安全系统中使用音频触发器进行监视的系统、装置、方法和计算机可读介质。该方法包括经由麦克风接收音频输入流。将音频输入流分成音频段。对音频段进行滤波以获得高能量音频段。如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音。如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音。基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。，下面是触发视频分析的音频事件专利的具体信息内容。

权利要求

1.一种具有音频分析的安全系统，包括：
网络接口电路，用于经由麦克风接收音频输入流；
处理器，耦合到所述网络接口电路；
一个或多个存储设备，耦合到所述处理器，所述一个或多个存储设备包括指令，所述指令在由所述处理器执行时使所述系统：
将所述音频输入流分成音频段；
对所述音频段进行滤波以获得高能量音频段；
如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；
如果所述高能量音频段不包括语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且
基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。
2.根据权利要求1所述的安全系统，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。
3.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音并且所述语音不被识别为系统用户的语音，则所述指令在由所述处理器执行时还使所述系统开启视频。
4.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述非感兴趣声音，则所述指令在由所述处理器执行时还使所述系统关闭视频或保持视频关闭。
5.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示正常用户行为特性，则所述指令在由所述处理器执行时还使所述系统关闭视频或保持视频关闭以保护用户的隐私。
6.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示异常用户行为特性，则所述指令在由所述处理器执行时还使所述系统将视频模式置于警戒状态。
7.一种在安全系统中使用音频触发器进行监视的方法，包括：
经由麦克风接收音频输入流；
将所述音频输入流分成音频段；
对所述音频段进行滤波以获得高能量音频段；
如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；
如果所述高能量音频段不包括所述语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且
基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。
8.根据权利要求7所述的方法，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。
9.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音并且所述语音不被识别为系统用户的语音，则所述方法还包括开启视频。
10.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述非感兴趣声音，则所述方法还包括关闭视频或保持视频关闭。
11.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示正常用户行为特性，则所述方法还包括关闭视频或保持视频关闭以保护用户的隐私。
12.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示异常用户行为特性，则所述方法还包括将视频模式置于警戒状态。
13.根据权利要求7所述的方法，其中，将所述高能量音频段分类为感兴趣声音或非感兴趣声音包括：
以预定时间帧从所述高能量音频段提取频谱特征；
将所述预定时间帧与+/-15帧的更长语境连接以形成捕获时间变化的更丰富特征；并且
将所述更丰富特征馈送到深度学习分类器以实现将高能量音频段分类为所述感兴趣声音和所述非感兴趣声音之一。
14.根据权利要求7所述的方法，其中，将所述高能量音频段分类为感兴趣声音或非感兴趣声音包括：将所述高能量音频段的原始样本馈送到深度学习分类器，以实现将高能量音频段分类为所述感兴趣声音和所述非感兴趣声音之一。
15.根据权利要求7所述的方法，其中，确定所述语音是否被识别为系统用户的语音包括：
以预定时间话语帧从所述高能量音频段提取频谱特征；
将所述帧馈送到后端分类器以获得说话者得分；并且
确定所述说话者得分是否与系统用户的说话者模型匹配。
16.根据权利要求7所述的方法，其中，确定所述语音是否被识别为系统用户的语音包括：将所述高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分，并且确定所述说话者得分是否与系统用户的说话者模型匹配。
17.根据权利要求15至16中任一项所述的方法，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。
18.一种在安全系统中使用音频触发器进行监视的装置，包括：
用于经由麦克风接收音频输入流的模块；
用于将所述音频输入流分成音频段的模块；
用于对所述音频段进行滤波以获得高能量音频段的模块；
用于在高能量音频段包括语音的情况下，确定所述语音是否被识别为系统用户的语音的模块；
用于在所述高能量音频段不包括语音的情况下，将所述高能量音频段分类为感兴趣声音或非感兴趣声音的模块；以及
用于基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频的模块。
19.根据权利要求18所述的装置，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。
20.根据权利要求18所述的装置，其中，如果所述高能量音频段的分类包括所述感兴趣声音并且所述语音不被识别为系统用户的语音，则还包括用于开启视频的模块。
21.根据权利要求18所述的装置，其中，如果所述高能量音频段的分类包括所述非感兴趣声音，则还包括用于关闭视频或保持视频关闭的模块。
22.根据权利要求18所述的装置，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示正常用户行为特性，则还包括用于关闭视频或保持视频关闭以保护用户的隐私的模块。
23.根据权利要求18所述的装置，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示异常用户行为特性，则还包括用于将视频模式置于警戒状态的模块。
24.根据权利要求18所述的装置，其中，用于将所述高能量音频段分类为感兴趣声音或非感兴趣声音的模块还包括：
用于以预定时间帧从所述高能量音频段提取频谱特征的模块；
用于将所述预定时间帧与+/-预定数量的帧的更长语境连接以形成捕获时间变化的更丰富特征的模块；以及
用于将所述更丰富特征馈送到深度学习分类器以实现将高能量音频段分类为所述感兴趣声音和所述非感兴趣声音之一的模块。
25.根据权利要求18所述的装置，其中，用于将所述高能量音频段分类为感兴趣声音或非感兴趣声音的模块包括：用于将所述高能量音频段的原始样本馈送到深度学习分类器以实现将高能量音频段作为分类为所述感兴趣声音和所述非感兴趣声音之一的模块。

说明书全文

触发视频分析的音频事件

技术领域

[0001] 实施例总体涉及音频信号处理。更具体地，实施例涉及触发视频分析的音频事件。

背景技术

[0002] 当前用于安全分析的方法在能量效率、连接性、遮挡和隐私方面受到限制。捕获、处理和发送视频流到云端需要大量的能量。另外，如果房屋装有许多摄像机，则连续发送所有视频流的计算和电力成本对于消费者来说可能是过高的。

[0003] 更期望在本地处理数据而不是将视频流发送到云端。对于将数据发送到云端的安全摄像机，通常希望不传输正常家庭活动的视频。此外，在浴室、更衣室、卧室等敏感区域不建议使用摄像机。此外，仅摄像机安全解决方案基于摄像机的位置、照明条件和其他障碍物而受到限制。发明内容

[0004] 本发明的实施例提供一种具有音频分析的安全系统，包括：网络接口电路，用于经由麦克风接收音频输入流；处理器，耦合到所述网络接口电路；一个或多个存储设备，耦合到所述处理器，所述一个或多个存储设备包括指令，所述指令在由所述处理器执行时使所述系统：将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0005] 本发明的实施例还提供一种在安全系统中使用音频触发器进行监视的方法，包括：经由麦克风接收音频输入流；将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括所述语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0006] 本发明的实施例还提供一种在安全系统中使用音频触发器进行监视的装置，包括：用于经由麦克风接收音频输入流的模块；用于将所述音频输入流分成音频段的模块；用于对所述音频段进行滤波以获得高能量音频段的模块；用于在高能量音频段包括语音的情况下，确定所述语音是否被识别为系统用户的语音的模块；用于在所述高能量音频段不包括语音的情况下，将所述高能量音频段分类为感兴趣声音或非感兴趣声音的模块；以及用于基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频的模块。附图说明

[0007] 通过阅读以下说明书和所附权利要求并参考以下附图，本领域技术人员将清楚实施例的各种优点，其中：

[0008] 图1是示出根据实施例的结合触发视频分析的音频事件以用于监视的示例性安全系统的示图；

[0009] 图2是示出根据实施例的用于在安全系统中决定是否开启视频以进行监视的示例性音频处理流水线的框图；

[0010] 图3是根据实施例的基于音频分析确定是否开启视频的音频处理的示例性方法的流程图；

[0011] 图4是根据实施例的安全系统的示例的框图；

[0012] 图5是根据实施例的半导体封装装置的示例的示图；

[0013] 图6是根据实施例的示例性处理器的框图；以及

[0014] 图7是根据实施例的示例性计算系统的框图。

[0015] 在下面的详细描述中，参考形成本文一部分的附图，其中相同的附图标记始终表示相同的部分，并且其中通过示例性的方式示出可以实践的实施例。应当理解，在不脱离本公开的范围的情况下，可以利用其他实施例并且可以进行结构或逻辑上的改变。因此，下面的详细描述不应被认为是限制性的，并且实施例的范围由所附权利要求及其等同物限定。

具体实施方式

[0016] 实施例涉及通过结合触发是否开启视频的音频处理来增强视频安全摄像机分析的功能的技术。安全系统包括散布在整个监视区域中的多个麦克风，以将监视范围扩展到附加区域，并且使得音频分析能够增强特定区域中的监视探查，在该特定区域中，由于隐私或其他考虑因素，既不希望也不可能放置摄像机。安全系统包括音频分类器，其被训练为用于检测感兴趣声音(即，警报声音)以及非感兴趣声音(即，非警报声音)。该系统还包括自动说话者识别引擎，针对注册用户的声音对其进行训练以检测是否存在注册用户。开启视频的决策取决于说话者识别和音频分类结果。另外，可以结合其他语境数据来帮助确定是否开启视频。其他语境数据可以包括监视区域内的摄像机位置、一天中的时间、用户行为特性以及系统内可能存在的其他传感器数据。这样的传感器数据可以包括例如运动传感器、接近传感器等。语境数据与音频识别能力的组合可以实现异常检测，使得当在一个位置和一天中的一个时间听到不寻常的异常模式时，视频模式可以处于警戒状态。

[0017] 当检测到感兴趣声音并且系统没有检测到任何注册用户的任何语音时，可以开启视频。当在系统仅以描绘一天中该时间的通常用户行为特性的方式检测注册用户的语音的位置中检测到感兴趣声音时，可以不开启视频。但是，当在一个位置和一天中的一个时间检测到异常的感兴趣声音时，可以使视频模式处于警戒状态，以便在必要时能够快速开启。如果没有检测到感兴趣声音，则视频保持关闭以确保用户隐私。

[0018] 各种操作可以以最有助于理解所要求保护的主题的方式依次被描述为多个离散的动作或操作。然而，描述的顺序不应被解释为暗示这些操作必须依赖于顺序。具体地，这些操作可能不按照呈现的顺序执行。所描述的操作可以以与所描述的实施例不同的顺序来执行。在附加实施例中可以执行各种附加操作和/或可以省略所描述的操作。

[0019] 说明书中对“一个实施例”、“实施例”、“说明性实施例”等的引用表示，所描述的实施例可以包括特定的部件、结构或特征，但是每一个实施例可能或可能不一定包括特定的部件、结构或特征。此外，这样的短语不一定指代相同的实施例。此外，当结合实施例描述特定的部件、结构或特征时，认为结合其他实施例影响这样的部件、结构或特征在本领域技术人员的知识范围内，无论是否明确描述。附加地，应当理解，以“A、B和C中的至少一个”的形式包括在所列内容中的项目可以表示(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。类似地，以“A、B或C中的至少一个”的形式列出的项目可以表示(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。

[0020] 在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时性或非暂时性机器可读(例如，计算机可读)存储介质承载或存储的指令，其可以由一个或多个处理器读取和执行。机器可读存储介质可以体现为用于以机器可读形式存储或传输信息的任何存储装置、机构或其他物理结构(例如，易失性或非易失性存储器、介质盘或其他介质装置)。如本文中所使用的，术语“逻辑”和“模块”可以指代、为其一部分或包括：执行具有机器指令(由汇编器和/或编译器生成)的一个或多个软件或固件程序的专用集成电路(ASIC)、电子电路、处理器(共用、专用或组)和/或存储器(共用、专用或组)、提供所描述的功能的组合逻辑电路和/或其它合适的硬件组件。

[0021] 在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。附加地，在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，它可以不包括在内或者可以与其他特征组合。

[0022] 图1是示出根据实施例的结合触发视频分析的音频事件以用于监视的示例性安全系统100的示图。安全系统100包括两个摄像机102a和102b、两个麦克风104a和104b、本地部署(on-premise)处理模块/集线器106、本地存储装置108、配套设备110以及云处理模块和存储装置112。尽管系统100仅示出两个摄像机102a和102b以及两个麦克风104a和104b，但是实施例不限于两个摄像机和两个麦克风。实际上，实施例可以具有两个以上摄像机或两个以下摄像机(即，一个摄像机)以及两个以上麦克风或两个以下麦克风(即，一个麦克风)。麦克风104a和104b可以是有线的或无线的。在实施例中，麦克风可以位于可能禁止摄像机的区域中(由于隐私或其他考虑)，以将监视范围扩展到附加区域。在其他实施例中，摄像机和麦克风可以并置。在其他实施例中，可以存在远离摄像机定位的麦克风的组合以及与摄像机并置的麦克风。摄像机102a和102b也可以是有线的或无线的。摄像机102a和102b经由有线或无线连接耦合到本地部署处理模块/集线器106。麦克风104a和104b经由有线或无线连接耦合到本地部署处理模块/集线器106。本地部署处理模块/集线器106耦合到本地存储装置108。本地部署处理模块/集线器106可以包括网络接口卡(NIC)以实现与云处理和存储模块112的无线通信。配套设备110可以是计算设备，例如移动电话、平板电脑、可穿戴设备、膝上型计算机或能够控制本地部署处理模块/集线器106以及云处理模块和存储装置112的任何其他计算设备。在配套设备110上运行的应用允许配套设备110配置和控制本地部署处理模块/集线器106以及云处理模块和存储装置112两者。

[0023] 安全系统100可以放置在家庭、办公楼、停车场以及需要监视的其他位置。安全系统100的实施例使用音频分析作为附加模式来改善错误接受和错误拒绝率，并且通过仅在出现感兴趣声音时开启视频来减少仅使用相机的解决方案所需的计算量。该系统被预训练以检测感兴趣声音(例如，狗吠、玻璃破碎、枪击、尖叫等)以及非感兴趣声音(例如风吹叶子的声音、通常的家庭声音(真空吸尘器、洗衣机、烘干机、洗碗机)等)。

[0024] 消费者最关心的是隐私。尤其是对于家庭设施，家庭不希望将正常家庭活动的视频传输到云端。安全系统100将说话者识别技术应用于具有语音的音频流，以检测是否存在系统用户。如果当出现感兴趣声音并且系统100具有家庭特性(household patterns)的先验知识时存在系统用户，则如果没有发生任何其他异常事情，就可以保持视频关闭以保护用户的隐私。

[0025] 处理和分析从麦克风104a和104b到本地部署处理模块/集线器106的音频流以确定是否已检测到感兴趣音频事件，是否已检测到任何语音，以及是否检测到语音，语音是否可以被识别为来自其中一个注册用户。基于音频事件的类型和说话者识别以及其他参数，例如摄像机的位置、一天中的时间、用户行为特性和系统中可以包括(但未在图1中示出)的其他类型的传感器(运动传感器、接近传感器等)，本地部署处理模块/集线器106可以确定是否应该激活摄像机。如果摄像机102a和/或102b被激活，则可以基于从音频流(玻璃破碎、汽车警报、家中用户之间的对话等)接收的语境信息来过滤从摄像机102a和/或102b接收的视频流，以决定是否需要将视频流本地保存在本地存储装置108中，从而将私有视频保持在本地或者可以将其发送到云端以进行存储。

[0026] 可以使用在配套设备110上运行的应用来配置和控制本地部署处理模块106以及云处理模块和存储装置112。另外，本地部署处理模块106以及云处理和存储模块112可以在需要用户注意时向配套设备110发送通知和警报。

[0027] 图2是示出根据实施例的用于在安全系统中决定是否开启视频以进行监视的音频处理流水线的框图200。框图200包括麦克风202、音频分段装置204、音频滤波器206、音频分类器208、说话者识别引擎210以及决策逻辑212。麦克风202耦合到音频分段装置204。音频分段装置204耦合到音频滤波器206。音频滤波器206耦合到音频分类器208。音频分类器208耦合到说话者识别引擎210和决策逻辑212。说话者识别引擎210耦合到决策逻辑212。

[0028] 麦克风202以音频流的形式接收音频输入。如果麦克风202是模拟麦克风，则麦克风202将包括模数转换器(ADC)以将模拟音频流转换为数字音频流。在麦克风202是数字麦克风的实施例中，不需要ADC。

[0029] 音频分段装置204接收数字化音频流并将音频流分成短音频段，即音频块，大致匹配决策逻辑212所需的时间分辨率。在一个实施例中，音频段的长度可以是0.25秒到几秒。

[0030] 音频滤波器206可以用于对高能量音频段进行滤波以进行处理。忽略低能量音频段(即，背景噪声)。在实施例中，连续地获取由系统接收的音频的标准偏差，并且关于可以被认为是背景噪声(即，环境背景噪声)的对象来确定基线。当系统接收到明显大于环境背景噪声的音频段时，音频段被识别为高能量音频段。

[0031] 音频分类器208可以用于对高能量音频段进行分类。高能量音频段可以被分类为语音、警报声音或非警报声音。可以在安装安全系统之前训练音频分类器208来识别语音、警报声音和非警报声音。安装后可以继续进行训练，以使系统能够适应其安装的周围环境，并学习对系统用户来说可能重要的其他感兴趣声音。在一个实施例中，可以在工厂训练音频分类器208。警报声音可以包括例如狗吠、玻璃破碎、婴儿哭泣、人摔倒、人尖叫、汽车警报、车祸发出的较大声音、枪声或可能导致惊慌、惊恐或恐惧的任何其他声音。非警报声音可以包括例如风吹叶子的声音、真空吸尘器运行声音、洗碗机/洗衣机/烘干机运行的声音以及对于一个人的环境而言不会引起惊慌的通常噪声。

[0032] 音频分类器208提取表示警报或非警报声音的高能量音频段的频谱特征，例如梅尔频率倒谱系数(MFCC)、感知线性预测(PLP)等。可以在预定时间帧中计算特征，然后将其与更长的语境(例如，+/-15帧)连接，以形成捕获时间变化的更丰富特征。在实施例中，预定时间帧可以是10ms、20ms、30ms或40ms。然后将这些特征馈入分类器，例如高斯混合模型(GMM)、支持向量机(SVM)、深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)等。对于例如DNN、CNN或RNN的深度学习分类器，可以使用原始样本作为输入而不是光谱特征。来自深度学习分类器的输出可以预测网络被针对输入音频训练来识别的N个可能类别(即，警报声音)中的哪一个。如果选择警报声音之一，则决策逻辑212使用该信息来确定是否开启一个或多个摄像机。

[0033] 说话者识别引擎210可以用于确定由音频分类器208识别为语音的高能量音频段是否属于任何系统注册用户。为了有效地工作，系统必须能够识别系统注册用户的声音。系统注册用户可以将他们的语音登记到说话者识别引擎210中，以使系统能够使用机器学习技术来针对每个用户开发说话者模型。这允许说话者识别引擎210在通过安全系统的任何一个麦克风接收用户语音时识别注册用户语音。在一个实施例中，系统可以使用视频来帮助学习注册用户语音。当注册用户说话并且他们的嘴唇移动(通过视频捕获)时，捕获音频以登记该人的声音。在另一实施例中，注册用户可以参与注册过程，在注册过程中，要求他们阅读若干短语和段落，同时记录他们的语音。

[0034] 说话者识别引擎210可以每隔10ms的话语帧提取频谱特征，类似于由音频分类器208提取的频谱特征，例如，MFCC、PLP等。在其他实施例中，可以在除每10ms之外的时间帧处提取频谱特征。然后将帧馈送到后端分类器，例如，高斯混合模型-通用背景模型(GMM-UBM)、高斯混合模型-支持向量机(GMM-SVM)、深度神经网络或i-向量概率线性判别分析(PLDA)。对于深度神经网络分类器，能够将原始样本作为输入进行馈送，而不是频谱特征。
后端分类器的输出是说话者得分。高分可以指示与注册用户的说话者模型的紧密匹配。如果说话者识别引擎210将语音识别为注册用户之一，则在决定是否开启一个或多个摄像机以及是否在本地或在云端处理视频时，隐私问题起作用。

[0035] 开启视频摄像机的决策取决于音频分类器208和说话者识别引擎210的结果。另外，结合其他语境，例如，摄像机在听到音频的监视区域内的位置、一天中的时间、用户行为特性、接近传感器数据、运动传感器数据等。决策逻辑212采用音频分类器208输出、说话者识别引擎210输出和语境数据输入，并且确定是开启一个或多个摄像机、关闭摄像机还是使一个或多个摄像机处于警戒状态。

[0036] 决策逻辑212可以基于规则集合，其可以由注册用户调整。规则集合可以基于音频分类、语音识别和语境数据的组合。替代地，为了对系统用户友好，它可以结合由大量潜在用户标记的决策偏好训练的机器学习(ML)算法。ML算法可以将来自音频分类器208、说话者识别引擎210和其他语境的音频分析作为输入，以产生“是/否”决策。这样的算法可以包括但不限于决策树、随机森林、支持向量机(SVM)、逻辑回归和多个神经网络。预先训练的通用模型可以包含许多用户的偏好(例如，来自大量潜在用户)，其旨在对大多数人立即可用。通用模型可以随着时间的推移而改进，因为它接收来自注册用户的输入并且学习注册用户的行为特性。

[0037] 其他语境与音频识别能力(即，音频分类器208和说话者识别引擎210)的组合不仅可以确定是否开启系统中的一个或多个视频摄像机，还可以实现异常检测，使得当在一个位置和一天中的一个时间听到可疑的异常特性时，视频模式可以被置于警戒状态。在安全系统是家庭安全系统并且所讨论的摄像机位于屋内的实施例中，开启视频摄像机的决策必须考虑是否已经听到家庭成员的语音，如果是，则视频应当保持关闭。在一个实施例中，如果用户行为特性指示正常行为并且警报声音不是极端警报，例如，夹杂着人的笑声的狗吠，则视频可以保持关闭。但是在警报声音是极端警报的情况下，例如枪击，则可以在那时开启系统中的所有摄像机。

[0038] 图3是根据实施例的基于音频分析确定是否开启视频的音频处理的示例性方法的流程图。方法300通常可以在系统中实现，例如，如图1所示的示例安全系统100，具有如图2所示的音频流水线。更具体地，方法300可以在一个或多个模块中实现为存储在机器或计算机可读存储介质(例如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等)中的逻辑指令集合，其位于可配置逻辑中，例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及使用电路技术(例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术或其任何组合)的固定功能逻辑硬件。

[0039] 例如，用于执行方法300中所示操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，包括面向对象的编程语言，诸如JAVA、SMALLTALK、C++等，以及常规的程序性编程语言，诸如“C”编程语言或类似的编程语言。附加地，逻辑指令可以包括汇编指令、指令集架构(ISA)指令、机器指令、机器依赖指令、微代码、状态设定数据、集成电路的配置数据、个性化电子电路的状态信息和/或其他结构组件，其原生于硬件(例如主处理器、中央处理单元(CPU)、微控制器、数字信号处理器(DSP)等)。

[0040] 处理开始于框302，其中，处理进行到框304。在框304中，麦克风接收音频流。如果麦克风是模拟麦克风，则麦克风可以包括ADC以将模拟音频流转换为数字音频流。如果麦克风是数字麦克风，则不需要ADC。然后，处理进行到框306。

[0041] 在框306中，将数字音频流分成短音频段，即音频块，大致匹配用于确定是否开启视频的决策逻辑的时间分辨率。在一个实施例中，音频段的长度可以是0.25秒到几秒。然后，处理进行到框308。

[0042] 在框308中，对音频段进行滤波以获得高能量音频段以供进一步处理。在一个实施例中，忽略剩余的低能量音频段(即，背景噪声)。在另一实施例中，丢弃剩余的低能量音频段。

[0043] 在实施例中，连续测量由系统接收的音频信号的标准偏差。基于标准偏差，关于被认为是环境背景噪声的对象来确定基线。当系统接收到明显大于环境背景噪声的音频段时，音频段被识别为高能量音频段。然后，处理进行到决策框310。

[0044] 在决策框310中，确定高能量音频段是否是语音。如果高能量音频段是语音，则处理进行到框312。

[0045] 在框312中，确定语音是否来自安全系统的注册用户。如果语音来自注册用户，则在决定是否开启视频时考虑注册用户的隐私。在这种情况下，语音来自注册用户的指示被发送到框316。如果语音不是来自注册用户，则语音不是来自注册用户的指示被发送到框316。

[0046] 返回到决策框310，如果高能量音频段不是语音，则处理进行到框314。在框314中，执行高能量音频段的分类。将高能量音频段分类为安全系统感兴趣的声音之一可能需要开启视频进行监视。感兴趣声音是指警报声音，例如但不限于狗吠、玻璃破碎、婴儿哭泣、人摔倒、人尖叫、汽车警报、车祸发出的较大声音、枪声和/或可能导致惊慌、惊恐或恐惧的任何其他声音。高能量音频段的分类被发送到框316。

[0047] 在框316中，基于来自框314的音频分类结果、来自框312的说话者识别结果以及输入到框316的语境数据，确定是保持视频关闭还是开启视频。这可以包括基于作为警报的高能量音频段的分类严重程度，同时开启多个摄像机。

[0048] 在实施例中，如果高能量音频段的音频分类不是警报声音，则视频可以保持关闭或被关闭。如果高能量音频段的音频分类是警报声音并且没有安全系统用户的说话者识别，则可以开启视频。由于没有用户的说话者识别，因此没有隐私问题，视频可以由所有者自行决定在云端处理或在本地处理。

[0049] 如果高能量音频段的音频分类是警报声音并且存在用户的说话者识别，则是开启视频还是使视频保持关闭更多是灰色区域并且可以基于语境数据。例如，如果安全系统是家庭安全系统并且一个或多个摄像机的位置在家庭内部，则开启视频的决策应该更倾向于隐私，使得当重复识别家庭成员的语音并且用户行为特性正常时，视频可以保持关闭。例如，如果系统检测到狗吠或玻璃破碎并且大约是家人正在吃饭的正常时间，并且说话者识别包括家庭成员在晚餐时正常交谈，则系统可以阻止在晚餐时开启厨房的视频。在另一示例中，如果系统检测到狗吠和玻璃破碎，并且玻璃破碎听起来更像厨房窗户被破坏而不是玻璃杯破碎(这可能表示闯入)，并且说话者识别包括家庭成员在恐慌中发出声音而不是在晚餐时进行正常交谈，则系统可以开启厨房中的视频，并且也可以开启屋里的所有视频摄像机，以确定其他房间是否发生了闯入事件。在这种情况下，视频数据可以在本地处理或发送到云端。为了保护视频中家庭成员的隐私，可以在本地处理视频数据而不是将其发送到云端。

[0050] 图4示出可以容易地替换上面参考图1所示的安全系统的系统400。示出的系统400包括处理器402(例如，主处理器、中央处理单元/CPU)，其具有耦合到系统存储器406(例如，易失性存储器、动态随机存取存储器/DRAM)的集成存储器控制器(IMC)404。处理器402还可以耦合到输入/输出(I/O)模块408，其与网络接口电路410(例如，网络控制器、网络接口卡/NIC)和大容量存储装置612(非易失性存储器/NVM、硬盘驱动器/HDD、光盘、固态盘/SSD、闪存)通信。网络接口电路410可以从至少一个麦克风接收音频输入流，例如来自麦克风104a和/或104b(如图1所示)的音频流，其中系统存储器406和/或大容量存储装置412可以是存储指令414的存储装置，该指令在由处理器402执行时使得系统400执行已经讨论过的方法300(图3)的一个或多个方面。因此，指令414的执行可以使系统400将音频输入流分成音频段，对音频段进行滤波以获得高能量音频段，如果高能量音频段包括语音，则确定语音是否被识别为安全系统用户，如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音，并且基于作为感兴趣声音的高能量音频段的分类、用户的语音识别和语境数据来确定是否开启视频。处理器402和IO模块408可以作为片上系统(SoC)并入共享管芯416中。

[0051] 图5示出半导体封装装置500(例如，芯片)，其包括一个或多个衬底502(例如，硅、蓝宝石、砷化镓)以及耦合到一个或多个衬底502的逻辑504(例如，晶体管阵列和其他集成电路/IC组件)。可以在可配置逻辑和/或固定功能逻辑硬件中实现的逻辑504通常可以实现已经讨论过的方法300(图3)的一个或多个方面。

[0052] 图6示出根据一个实施例的处理器核600。处理器核600可以是用于任何类型的处理器的核，例如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器或执行代码的其他设备。尽管图6中仅示出一个处理器核600，但是处理元件可以替代地包括一个以上图6所示的处理器核心600。处理器核600可以是单线程核，或者对于至少一个实施例，处理器核600可以是多线程的，因为它可以包括每个核心不止一个硬件线程语境(或“逻辑处理器”)。

[0053] 图6还示出耦合到处理器核600的存储器670。存储器670可以是本领域技术人员已知或以其他方式可获得的各种存储器(包括各种存储器层级)中的任何一种。存储器670可以包括将由处理器核600执行的一个或多个代码605指令，其中代码605可以实现已经讨论过的方法300(图3)。处理器核600遵循由代码605指示的程序指令序列。每个指令可以进入前端部分610并由一个或多个解码器620处理。解码器620可以生成微操作作为其输出，例如预定格式的固定宽度微操作，或者可以生成反映原始代码指令的其他指令、微指令或控制信号。示出的前端部分610还包括寄存器重命名逻辑625和调度逻辑630，其通常分配资源并对与转换指令对应的操作进行排序以便执行。

[0054] 示出的处理器核600包括具有执行单元集合655-1至655-N的执行逻辑650。一些实施例可以包括专用于特定功能或功能集合的多个执行单元。其他实施例可以包括仅一个执行单元或可以实现特定功能的一个执行单元。示出的执行逻辑650执行由代码指令指定的操作。

[0055] 在完成由代码指令指定的操作的执行之后，后端逻辑660退出代码605的指令。在一个实施例中，处理器核600允许无序执行但需要按顺序退出指令。退出逻辑665可以采用本领域技术人员已知的各种形式(例如，重新排序缓冲器等)。以这种方式，处理器核600在代码605的执行期间被变换，至少在由解码器生成的输出、寄存器重命名逻辑625使用的硬件寄存器和表以及执行逻辑650 修改的任何寄存器(未示出)方面进行变换。

[0056] 尽管未在图6中示出，但是处理元件可以在具有处理器核600的芯片上包括其他元件。例如，处理元件可以包括存储器控制逻辑以及处理器核600。处理元件可以包括I/O控制逻辑和/或可以包括与存储器控制逻辑集成的I/O控制逻辑。处理元件还可以包括一个或多个高速缓存。

[0057] 现在参考图7，示出根据实施例的计算系统700的框图。图7示出包括第一处理元件770和第二处理元件780的多处理器系统700。虽然示出两个处理元件770和780，但是应该理解，系统700的实施例也可以仅包括一个这样的处理元件。

[0058] 系统700被示为点对点互连系统，其中第一处理元件770和第二处理元件780经由点对点互连750耦合。应该理解，图7中所示的任何或所有互连可以实现为多点总线而不是点对点互连。

[0059] 如图7所示，处理元件770和780中的每一个可以是多核处理器，包括第一和第二处理器核(即，处理器核774a和774b以及处理器核784a和784b)。这样的核774a、774b、784a、784b可以配置为以类似于上面结合图6所讨论的方式执行指令代码。

[0060] 每个处理元件770、780可以包括至少一个共享高速缓存796a、796b。共享高速缓存796a、796b可以分别存储由处理器的一个或多个组件(例如，核774a、774b和784a、784b)使用的数据(例如，指令)。例如，共享高速缓存796a、796b可以本地缓存存储在存储器732、734中的数据，以便由处理器的组件更快地访问。在一个或多个实施例中，共享高速缓存796a、
796b可以包括一个或多个中级高速缓存，例如级别2(L2)、级别3(L3)、级别4(L4)或其他级别的高速缓存、最后级别的高速缓存(LLC)和/或其组合。

[0061] 虽然仅示出两个处理元件770、780，但是应该理解，实施例的范围不限于此。在其他实施例中，一个或多个附加处理元件可以存在于给定处理器中。替代地，处理元件770、780中的一个或多个可以是除处理器之外的元件，例如加速器或现场可编程门阵列。例如，附加处理元件可以包括与第一处理器770相同的附加处理器、第一处理器770异构或非对称的附加处理器、加速器(例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理元件。在包括架构、微架构、热、功耗特征等的优点度量的范围方面，处理元件770、780之间可以存在各种差异。这些差异可以有效地表现为处理元件770、780之间的不对称性和异构性。对于至少一个实施例，各种处理元件770、780可以驻留在同一管芯封装件中。

[0062] 第一处理元件770还可以包括存储器控制器逻辑(MC)772以及点对点(P-P)接口776和778。类似地，第二处理元件780可以包括MC 782以及P-P接口786和788。如图7所示，MC
772和782将处理器耦合到相应存储器，即存储器732和存储器734，它们可以是本地附接到相应处理器的主存储器的一部分。虽然MC 772和782被示为集成到处理元件770、780中，但是对于替代实施例，MC逻辑可以是处理元件770、780外部的离散逻辑，而不是集成在其中。

[0063] 第一处理元件770和第二处理元件780可以分别经由P-P互连776、786耦合到I/O子系统790。如图7所示，I/O子系统790包括P-P接口794和798。此外，I/O子系统790包括用于将I/O子系统790与高性能图形引擎738耦合的接口792。在一个实施例中，可以使用总线749将图形引擎738耦合到I/O子系统790。替代地，点对点互连可以耦合这些组件。

[0064] 反过来，I/O子系统790可以经由接口796耦合到第一总线716。在一个实施例中，第一总线716可以是外围组件互连(PCI)总线，或者例如PCI高速总线或另一第三代I/O互连总线的总线，但实施例的范围不限于此。

[0065] 如图7所示，各种I/O设备714(例如，生物识别扫描仪、扬声器、照相机、传感器)可以与总线桥接器718一起耦合到第一总线716，该总线桥接器可以将第一总线716耦合到第二总线720。在一个实施例中，第二总线720可以是低引脚数(LPC)总线。在一个实施例中，各种设备可以耦合到第二总线720，包括例如键盘/鼠标712、通信设备726以及例如可以包括代码730的磁盘驱动器或其他大容量存储设备的数据存储单元719。示出的代码730可以实现已经讨论过的方法300(图3)，并且可以类似于已经讨论过的代码605(图6)。此外，音频I/O 724可以耦合到第二总线720，并且电池710可以向计算系统700供电。

[0066] 注意，可以预期其他实施例。例如，代替图7的点对点架构，系统可以实现多点总线或其他这样的通信拓扑。而且，图7的元件可以替代地使用比图7中所示更多或更少的集成芯片来划分。

[0067] 附加说明和示例：

[0068] 示例1可以包括一种具有音频分析的安全系统，包括：网络接口电路，用于经由麦克风接收音频输入流；处理器，耦合到网络接口电路；一个或多个存储设备，耦合到处理器，该一个或多个存储设备包括指令，该指令在由处理器执行时使系统：将音频输入流分成音频段；对音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音；如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0069] 示例2可以包括示例1的安全系统，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。

[0070] 示例3可以包括示例1的安全系统，其中，如果高能量音频段的分类包括感兴趣声音并且语音不被识别为系统用户的语音，则指令在由处理器执行时还使系统开启视频。

[0071] 示例4可以包括示例1的安全系统，其中，如果高能量音频段的分类包括非感兴趣声音，则指令在由处理器执行时还使系统关闭视频或保持视频关闭。

[0072] 示例5可以包括示例1的安全系统，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示正常用户行为特性，则指令在由处理器执行时还使系统关闭视频或保持视频关闭以保护用户的隐私。

[0073] 示例6可以包括示例1的安全系统，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示异常用户行为特性，则指令在由处理器执行时还使系统将视频模式置于警戒状态。

[0074] 示例7可以包括示例1的安全系统，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：指令在由处理器执行时使系统以预定时间帧从高能量音频段提取频谱特征，将预定时间帧与+/-预定数量的帧的更长语境连接以形成捕获时间变化的更丰富特征，并且将更丰富特征馈送到分类器中以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0075] 示例8可以包括示例1的安全系统，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：指令在由处理器执行时使系统将高能量音频段的原始样本馈送到深度学习分类器，以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0076] 示例9可以包括示例1的安全系统，其中，确定语音是否被识别为系统用户的语音还包括：指令在由处理器执行时使系统以预定时间话语帧从高能量音频段提取频谱特征，将帧馈送到后端分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0077] 示例10可以包括示例1的安全系统，其中，确定语音是否被识别为系统用户的语音还包括：指令在由处理器执行时使系统将高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0078] 示例11可以包括示例9至10中任一示例的安全系统，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0079] 示例12可以包括示例9的安全系统，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0080] 示例13可以包括示例10的安全系统，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0081] 示例14可以包括一种在安全系统中使用音频触发器进行监视的装置，包括一个或多个衬底以及耦合到一个或多个衬底的逻辑，其中，该逻辑包括一个或多个可配置逻辑或固定功能硬件逻辑，耦合到一个或多个衬底的逻辑用于：经由麦克风接收音频输入流；将音频输入流分成音频段；对音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音；如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0082] 示例15可以包括示例14的装置，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。

[0083] 示例16可以包括示例14的装置，其中，如果高能量音频段的分类是感兴趣声音之一并且语音不被识别为用户，则耦合到一个或多个衬底的逻辑开启视频。

[0084] 示例17可以包括示例14的装置，其中，如果高能量音频段的分类不是感兴趣声音之一，则耦合到一个或多个衬底的逻辑关闭视频或保持视频关闭。

[0085] 示例18可以包括示例14的装置，其中，如果高能量音频段的分类是感兴趣声音之一，语音被识别为用户，并且语境数据指示正常用户行为特性，则耦合到一个或多个衬底的逻辑关闭视频或保持视频关闭以保护用户的隐私。

[0086] 示例19可以包括示例14的装置，其中，如果高能量音频段的分类是感兴趣声音之一，语音被识别为用户，并且语境数据指示异常用户行为特性，则耦合到一个或多个衬底的逻辑将视频模式置于警戒状态。

[0087] 示例20可以包括示例14的装置，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：耦合到一个或多个衬底的逻辑以预定时间帧从高能量音频段提取频谱特征，将预定时间帧与+/-预定数量的帧的更长语境连接以形成捕获时间变化的更丰富特征，并且将更丰富特征馈送到分类器中以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0088] 示例21可以包括示例14的装置，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：耦合到一个或多个衬底的逻辑将高能量音频段的原始样本馈送到深度学习分类器，以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0089] 示例22可以包括示例14的装置，其中，确定语音是否被识别为系统用户的语音还包括：耦合到一个或多个衬底的逻辑以预定时间话语帧从高能量音频段提取频谱特征，将帧馈送到后端分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0090] 示例23可以包括示例14的装置，其中，确定语音是否被识别为系统用户的语音还包括：耦合到一个或多个衬底的逻辑将高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0091] 示例24可以包括示例22至23中任一示例的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0092] 示例25可以包括示例22的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0093] 示例26可以包括示例23的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0094] 示例27可以包括一种在安全系统中使用音频触发器进行监视的方法，包括：经由麦克风接收音频输入流；将音频输入流分成音频段；对音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音；如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0095] 示例28可以包括示例27的方法，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。

[0096] 示例29可以包括示例27的方法，其中，如果高能量音频段的分类包括感兴趣声音并且语音不被识别为系统用户的语音，则方法还包括开启视频。

[0097] 示例30可以包括示例27的方法，其中，如果高能量音频段的分类包括非感兴趣声音，则方法还包括关闭视频或保持视频关闭。

[0098] 示例31可以包括示例27的方法，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示正常用户行为特性，则方法还包括关闭视频或保持视频关闭以保护用户的隐私。

[0099] 示例32可以包括示例27的方法，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示异常用户行为特性，则方法还包括将视频模式置于警戒状态。

[0100] 示例33可以包括示例27的方法，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音包括：以预定时间帧从高能量音频段提取频谱特征，将预定时间帧与+/-15帧的更长语境连接以形成捕获时间变化的更丰富特征，并且将更丰富特征馈送到深度学习分类器中以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0101] 示例34可以包括示例27的方法，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音包括：将高能量音频段的原始样本馈送到深度学习分类器，以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0102] 示例35可以包括示例27的方法，其中，确定语音是否被识别为系统用户的语音包括：以预定时间话语帧从高能量音频段提取频谱特征，将帧馈送到后端分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0103] 示例36可以包括示例27的方法，其中，确定语音是否被识别为系统用户的语音包括：将高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0104] 示例37可以包括示例35至36中任一示例的方法，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0105] 示例38可以包括示例35的方法，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0106] 示例39可以包括示例36的方法，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0107] 示例40可以包括一种或多种计算机可读介质，其包括指令集和，该指令集合在由计算设备执行时使计算设备：经由麦克风接收音频输入流；将音频输入流分成音频段；对音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音；如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

[0108] 示例41可以包括示例40的一种或多种计算机可读介质，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。

[0109] 示例42可以包括示例40的一种或多种计算机可读介质，其中，如果高能量音频段的分类包括感兴趣声音并且语音不被识别为系统用户的语音，则指令在由计算设备执行时还使计算设备开启视频。

[0110] 示例43可以包括示例40的一种或多种计算机可读介质，其中，如果高能量音频段的分类包括非感兴趣声音，则指令在由计算设备执行时还使计算设备关闭视频或保持视频关闭。

[0111] 示例44可以包括示例40的一种或多种计算机可读介质，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示正常用户行为特性，则指令在由计算设备执行时还使计算设备关闭视频或保持视频关闭以保护用户的隐私。

[0112] 示例45可以包括示例40的一种或多种计算机可读介质，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示异常用户行为特性，则指令在由计算设备执行时还使计算设备将视频模式置于警戒状态。

[0113] 示例46可以包括示例40的一种或多种计算机可读介质，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：指令在由计算设备执行时使计算设备以预定时间帧从高能量音频段提取频谱特征，将预定时间帧与+/-预定数量的帧的更长语境连接以形成捕获时间变化的更丰富特征，并且将更丰富特征馈送到分类器中以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0114] 示例47可以包括示例40的一种或多种计算机可读介质，其中，将高能量音频段分类为感兴趣声音或非感兴趣声音还包括：指令在由计算设备执行时使计算设备将高能量音频段的原始样本馈送到深度学习分类器，以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一。

[0115] 示例48可以包括示例40的一种或多种计算机可读介质，其中，确定语音是否被识别为系统用户的语音还包括：指令在由计算设备执行时使计算设备以预定时间话语帧从高能量音频段提取频谱特征，将帧馈送到后端分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0116] 示例49可以包括示例40的一种或多种计算机可读介质，其中，确定语音是否被识别为系统用户的语音还包括：指令在由计算设备执行时使计算设备将高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分，并且确定说话者得分是否与系统用户的说话者模型匹配。

[0117] 示例50可以包括示例48至49中任一示例的一种或多种计算机可读介质，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0118] 示例51可以包括示例48的一种或多种计算机可读介质，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0119] 示例52可以包括示例49的一种或多种计算机可读介质，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0120] 示例53可以包括一种在安全系统中使用音频触发器进行监视的装置，包括：用于经由麦克风接收音频输入流的模块；用于将音频输入流分成音频段的模块；用于对音频段进行滤波以获得高能量音频段的模块；用于在高能量音频段包括语音的情况下，确定语音是否被识别为系统用户的语音的模块；用于在高能量音频段不包括语音的情况下，将高能量音频段分类为感兴趣声音或非感兴趣声音的模块；以及用于基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频的模块。

[0121] 示例54可以包括示例53的装置，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。

[0122] 示例55可以包括示例53的装置，其中，如果高能量音频段的分类包括感兴趣声音并且语音不被识别为系统用户的语音，则还包括用于开启视频的模块。

[0123] 示例56可以包括示例53的装置，其中，如果高能量音频段的分类包括非感兴趣声音，则还包括用于关闭视频或保持视频关闭的模块。

[0124] 示例57可以包括示例53的装置，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示正常用户行为特性，则还包括用于关闭视频或保持视频关闭以保护用户的隐私的模块。

[0125] 示例58可以包括示例53的装置，其中，如果高能量音频段的分类包括感兴趣声音，语音被识别为系统用户的语音，并且语境数据指示异常用户行为特性，则还包括用于将视频模式置于警戒状态的模块。

[0126] 示例59可以包括示例53的装置，其中，用于将高能量音频段分类为感兴趣声音或非感兴趣声音的模块还包括：用于以预定时间帧从高能量音频段提取频谱特征的模块，用于将预定时间帧与+/-预定数量的帧的更长语境连接以形成捕获时间变化的更丰富特征的模块，以及用于将更丰富特征馈送到深度学习分类器中以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一的模块。

[0127] 示例60可以包括示例53的装置，其中，用于将高能量音频段分类为感兴趣声音或非感兴趣声音的模块还包括：用于将高能量音频段的原始样本馈送到深度学习分类器以实现将高能量音频段作为分类为感兴趣声音和非感兴趣声音之一的模块。

[0128] 示例61可以包括示例53的装置，其中，用于确定语音是否被识别为系统用户的语音的模块还包括：用于以预定时间话语帧从高能量音频段提取频谱特征的模块，用于将帧馈送到后端分类器以获得说话者得分的模块，以及用于确定说话者得分是否与系统用户的说话者模型匹配的模块。

[0129] 示例62可以包括示例53的装置，其中，用于确定语音是否被识别为系统用户的语音的模块包括：用于将高能量音频段的原始样本馈送到深度学习神经网络分类器以获得说话者得分的模块，以及用于确定说话者得分是否与系统用户的说话者模型匹配的模块。

[0130] 示例63可以包括示例61至62中任一示例的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0131] 示例64可以包括示例61的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0132] 示例65可以包括示例62的装置，其中，系统用户将他们的语音登记到说话者识别引擎中以使系统能够使用机器学习技术为每个用户开发说话者模型。

[0133] 示例66可以包括至少一种计算机可读介质，其包括指令集合，该指令集合在由计算系统执行时使计算系统执行示例27至39中任一示例的方法。

[0134] 实施例67可以包括一种装置，该装置包括用于实施示例27至39中任一示例的方法的模块。

[0135] 实施例适用于所有类型的半导体集成电路(“IC”)芯片。这些IC芯片的示例包括但不限于处理器、控制器、芯片组组件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片、片上系统(SoC)、SSD/NAND控制器ASIC等。另外，在一些附图中，信号导线用线表示。一些可以是不同的，以指示更多组成信号路径，一些具有数字标签，以指示多个组成信号路径，和/或一些在一个或多个端部具有箭头，以指示主信息流方向。然而，这不应以限制方式解释。而是，可以结合一个或多个示例性实施例使用这种附加细节，以便于更容易地理解电路。任何表示的信号线，无论是否具有附加信息，实际上都可以包括可以在多个方向上行进的一个或多个信号，并且可以用任何合适类型的信号方案来实现，例如，利用差分对、光纤线和/或单端线实现的数字或模拟线。

[0136] 可以给出示例性尺寸/模型/值/范围，但是实施例不限于此。由于制造技术(例如，光刻)随着时间的推移而成熟，预期可以制造更小尺寸的器件。另外，为了简化说明和讨论，并且为了不使实施例的某些方面模糊，可以在图中示出或不示出IC芯片和其他组件的公知的电源/接地连接。此外，为了避免模糊实施例，并且还考虑到关于这种框图布置的实施方式的细节高度依赖于实现该实施例的计算系统的事实，即，这些细节应该在本领域技术人员的知识范围内，可以以框图形式示出布置。在阐述具体细节(例如，电路)以便描述示例性实施例的情况下，对于本领域技术人员来说显而易见的是，可以在没有或具有这些具体细节的变化的情况下实践实施例。因此，该描述被认为是说明性的而非限制性的。

[0137] 术语“耦合”在本文中可以用于指代所讨论的组件之间的任何类型的直接或间接关系，并且可以应用于电气、机械、流体、光学、电磁、机电或其他连接。另外，本文可以使用词语“第一”、“第二”等仅仅为了便于讨论，并且除非另有说明，否则不带有特定的时间或先后顺序。

[0138] 如在本申请和权利要求中所使用的，由词语“一个或多个”修饰的所列项目可以表示所列项的任何组合。例如，短语“A、B和C中的一个或多个”可以表示：A；B；C；A和B；A和C；B和C；或A、B和C。

[0139] 从前面的描述中，本领域技术人员将理解，实施例的广泛技术可以以各种形式实现。因此，虽然已经结合实施例的具体示例描述了实施例，但是实施例的真实范围不应受此限制，因为在研读附图、说明书和所附权利要求之后，其他修改对于本领域技术人员而言将变得显而易见。

标题	发布/更新时间	阅读量
坐席消息提示方法、装置、计算机设备及存储介质	2020-05-15	193
终端及其操作方法	2020-05-18	693
响应于共同存在确定的调用动作	2020-05-11	133
基于模拟后座力的无实弹瞄靶训练系统及训练方法	2020-05-14	111
用于在硬件人工神经网络中神经元值无同步传输的系统，方法和制品	2020-05-16	210
一种基于IMS行政交换网的财务数据集中管理系统	2020-05-11	394
一种多时态全景数据显示交互系统	2020-05-17	754
一种带有战损处理显示模组的智能格斗小车	2020-05-14	417
一种新型太阳能电子装饰展板	2020-05-18	716
语音开关电路和语音设备	2020-05-08	815

触发视频分析的音频事件

触发视频分析的音频事件

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：