控制声音的设备和方法及训练类型识别模型的设备和方法专利检索-K最近邻算法电脑编程专利检索查询-专利查询网

控制声音的设备和方法及训练类型识别模型的设备和方法

阅读：1024发布：2021-01-09

专利汇可以提供控制声音的设备和方法及训练类型识别模型的设备和方法专利检索，专利查询，专利分析的服务。并且提供了一种控制声音的设备和方法及训练类型识别模型的设备和方法。所述设备包括：类型确定器，被构造为通过使用类型识别模型来确定声音数据的类型；均衡器设置器，被构造为根据确定的类型来设置均衡器；再现器，被构造为基于设置的均衡器再现声音数据。，下面是控制声音的设备和方法及训练类型识别模型的设备和方法专利的具体信息内容。

权利要求

1.一种用于控制声音的设备，所述设备包括：
类型确定器，被构造为通过使用类型识别模型确定声音数据的类型；
均衡器设置器，被构造为根据确定的类型设置均衡器；以及
再现器，被构造为基于设置的均衡器再现声音数据。
2.根据权利要求1所述的设备，其中，类型确定器通过使用类型识别模型确定声音数据的节目类型，并响应于确定声音数据为音乐数据，类型确定器确定声音数据的音乐类型。
3.根据权利要求2所述的设备，其中，节目类型包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。
4.根据权利要求2所述的设备，其中，音乐类型包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。
5.根据权利要求1所述的设备，其中，类型识别模型通过基于训练声音数据的机器学习算法而被生成。
6.根据权利要求5所述的设备，其中，机器学习算法包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。
7.根据权利要求1所述的设备，其中，类型确定器部分地基于全部声音数据确定声音数据的类型。
8.根据权利要求1所述的设备，还包括：
类型改变确定器，被构造为通过在声音数据被再现同时预先分析将被再现的数据，来确定类型是否被改变。
9.根据权利要求8所述的设备，其中，响应于确定了类型已经改变，类型确定器基于将被再现的数据重新确定声音数据的类型。
10.根据权利要求1所述的设备，还包括：
环境噪声收集器，被构造为从声音数据被再现的环境收集环境噪声；
环境噪声分析器，被构造为分析收集的环境噪声；以及
均衡器调整器，被构造为基于分析来调整设置的均衡器。
11.根据权利要求10所述的设备，其中，均衡器调整器调整设置的均衡器来最小化收集的环境噪声的影响。
12.一种控制声音的方法，所述方法包括：
通过使用类型识别模型，确定声音数据的类型；
根据确定的类型，设置均衡器；以及
基于设置的均衡器，再现声音数据。
13.根据权利要求12所述的方法，其中，确定类型的步骤包括：
确定声音数据的节目类型，以及响应于确定声音数据为音乐数据而确定声音数据的音乐类型。
14.根据权利要求13所述的方法，其中，节目类型包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。
15.根据权利要求13所述的方法，其中，音乐类型包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。
16.根据权利要求12所述的方法，其中，类型识别模型是通过基于训练声音数据的机器学习算法而被生成。
17.根据权利要求16所述的方法，其中，机器学习算法包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。
18.根据权利要求12所述的方法，其中，确定类型的步骤包括：部分地基于全部声音数据确定声音数据的类型。
19.根据权利要求12所述的方法，还包括：通过在声音数据被再现同时预先分析将被再现的数据来确定类型是否已经改变。
20.根据权利要求19所述的方法，还包括：响应于确定了类型已经改变，基于将被再现的数据重新确定声音数据的类型。
21.根据权利要求12所述的方法，还包括：
从声音数据被再现的环境收集环境噪声；
分析收集的环境噪声；以及
基于分析调整设置的均衡器。
22.根据权利要求21所述的方法，其中，调整设置的均衡器的步骤包括：调整设置的均衡器来最小化收集的环境噪声的影响。
23.一种用于训练类型识别模型的设备，所述设备包括：
收集器，被构造为收集根据节目类型和音乐类型分类的训练声音数据；以及训练器，被构造为基于收集的训练声音数据来训练类型识别模型。
24.根据权利要求23所述的设备，其中，节目类型包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。
25.根据权利要求23所述的设备，其中，音乐类型包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。
26.根据权利要求23所述的设备，其中，训练器基于收集的训练声音数据来通过学习算法训练类型识别模型，并且学习算法包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。
27.一种为声音控制设备训练关于声音数据的类型识别模型的方法，所述方法包括：
收集根据节目类型和音乐类型分类的训练声音数据；以及
基于收集的训练声音数据来训练类型识别模型。
28.根据权利要求27所述的方法，其中，节目类型包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。
29.根据权利要求27所述的方法，其中，音乐类型包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。
30.根据权利要求27所述的方法，其中，基于收集的训练声音数据来训练类型识别模型的步骤包括：基于收集的训练声音数据来通过学习算法训练类型识别模型，并且学习算法包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。
31.一种用于控制声音的设备，包括：
类型确定器，被构造为通过分析输入的声音数据的元数据或通过使用类型识别模型来确定声音数据的节目类型和确定响应于声音数据为音乐数据时的声音数据的音乐类型中的一个或二者，来确定声音数据的类型；
均衡器设置器，被构造为处理将声音数据的类型映射到预设的设置的映射表来设置均衡器；以及
再现器，被构造为基于设置的均衡器再现声音数据。
32.根据权利要求31所述的设备，其中，节目类型包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种，而音乐类型包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。
33.根据权利要求31所述的设备，其中，类型确定器实时确定声音数据的类型。
34.根据权利要求31所述的设备，其中，元数据包括声音数据的内容属性，且声音数据的内容属性包括关于内容的位置和细节的信息、关于内容作者的信息或关于内容的类型的信息。
35.根据权利要求31所述的设备，其中，类型确定器独立地并顺序地或同时地确定节目类型和音乐类型中的任一个或二者。
36.根据权利要求31所述的设备，其中，所述设备被构造为在整个频率范围内提高信噪比(SNR)。
37.根据权利要求31所述的设备，还包括：
环境噪声收集器，被构造为从声音数据被再现的环境收集环境噪声；
环境噪声分析器，被构造为分析收集的环境噪声；以及
均衡器控制器，被构造为基于通过环境噪声分析器执行的分析的结果，调整均衡器的设置来最小化环境噪声的影响。
38.根据权利要求31所述的设备，还包括：
类型改变确定器，被构造为在声音数据被再现的同时分析将被再现的数据的频率分量，并响应于特定的频率分量被改变到高于预先确定的阈值的水平而确定类型已经改变。

说明书全文

控制声音的设备和方法及训练类型识别模型的设备和方法

[0001] 本申请要求于2015年9月9日提交到韩国知识产权局的第10-2015-0127913号韩国专利申请的优先权，所述韩国专利申请的全部公开为了所有的目的合并于此，以资参考。

技术领域

[0002] 以下描述总体涉及声音控制技术，更具体地讲，涉及一种用于控制声音的设备和方法以及一种训练类型识别模型的设备和方法。

背景技术

[0003] 目前，存在接收声音数据作为文件数据或流数据并再现接收的声音数据的各种电子装置。这种装置具有基于声音数据的特征或信号特点来调整声音的质量或音调的均衡器，用户通过根据他们的个人喜好而使用均衡器，来收听声音数据。

[0004] 然而，当用户使用均衡器收听声音数据时，对于用户而言，根据声音数据的特征或信号特点而手动改变均衡器的设置是繁琐的。发明内容

[0005] 以简化的形式提供了本发明内容来介绍在下面具体实施方式中进一步描述的所选择的构思。本发明内容不是意在识别权利要求主题的关键特征或基本特征，也不是意在作为辅助来确定权利要求主题的范围。

[0006] 提供了一种用于控制声音的设备和方法以及一种用于训练类型识别模型的设备和方法。

[0007] 根据一实施例，提供了一种用于控制声音的设备，所述设备包括：类型确定器，被构造为通过使用类型识别模型确定声音数据的类型；均衡器设置器，被构造为根据确定的类型设置均衡器；再现器，被构造为基于设置的均衡器再现声音数据。

[0008] 所述类型确定器可通过使用类型识别模型确定声音数据的节目类型，并响应于确定声音数据为音乐数据，类型确定器确定声音数据的音乐类型。

[0009] 节目类型可包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。

[0010] 音乐类型可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。

[0011] 所述类型识别模型可通过基于训练声音数据的机器学习而被生成。

[0012] 机器学习算法可包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。

[0013] 类型确定器可部分地基于全部声音数据确定声音数据的类型。

[0014] 所述设备还可包括：类型改变确定器，被构造为通过在声音数据被再现的同时预先分析将被再现的数据来确定类型是否被改变。

[0015] 响应于确定了类型已经改变，类型确定器基于将被再现的数据重新确定声音数据的类型。

[0016] 所述设备还包括：环境噪声收集器，被构造为从声音数据被再现的环境收集环境噪声；环境噪声分析器，被构造为分析收集的环境噪声；均衡器调整器，被构造为基于分析来调整设置的均衡器。

[0017] 均衡器调整器可调整设置的均衡器来最小化收集的环境噪声的影响。

[0018] 根据一实施例，提供了一种用于控制声音的方法，所述方法包括：通过使用类型识别模型确定声音数据的类型；根据确定的类型设置均衡器；基于设置的均衡器再现声音数据。

[0019] 确定类型的步骤可包括：确定声音数据的节目类型，以及响应于确定声音数据为音乐数据而确定声音数据的音乐类型。

[0020] 节目类型可包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。

[0021] 音乐类型可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。

[0022] 所述类型识别模型可通过基于训练声音数据的机器学习而被生成。

[0023] 机器学习算法可包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。

[0024] 确定类型的步骤可包括：部分地基于全部声音数据确定声音数据的类型。

[0025] 所述方法还可包括：通过在声音数据被再现的同时预先分析将被再现的数据来确定类型是否已经改变。

[0026] 所述方法还可包括：响应于确定了类型已经改变，基于将被再现的数据重新确定声音数据的类型。

[0027] 所述方法还可包括：从声音数据被再现的环境收集环境噪声；分析收集的环境噪声；基于分析调整设置的均衡器。

[0028] 调整设置的均衡器的步骤可包括：调整设置的均衡器来最小化收集的环境噪声的影响。

[0029] 根据一实施例，提供了一种存储当被处理器执行时可引起处理器执行上述方法的指令的永久的计算机可读存储介质。

[0030] 根据另一实施例，提供了一种用于训练类型识别模型的设备，所述设备包括：收集器，被构造为收集根据节目类型和音乐类型分类的训练声音数据；训练器，被构造为基于收集的训练声音数据来训练类型识别模型。

[0031] 节目类型可包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。

[0032] 音乐类型可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。

[0033] 学习算法可包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。

[0034] 根据另一实施例，提供了一种为声音控制设备训练关于声音数据的类型识别模型的方法，所述方法包括：收集根据节目类型和音乐类型分类的训练声音数据；基于收集的训练声音数据来训练类型识别模型。

[0035] 节目类型可包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。

[0036] 音乐类型可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。

[0037] 学习算法可包括神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习中的一个。

[0038] 根据一个实施例，提供了一种存储当被处理器执行时引起处理器执行上述方法的指令的永久的计算机可读存储介质。

[0039] 根据进一步的实施例，提供了一种设备，包括：类型确定器，被构造为通过分析输入的声音数据的元数据或通过使用类型识别模型来确定声音数据的节目类型和响应于声音数据为音乐数据时声音数据的音乐类型中的一个或二者而确定声音数据的类型；均衡器设置器，被构造为处理将声音数据的类型映射到用于设置均衡器的预设设置的映射表；再现器，被构造为再现声音数据。

[0040] 节目类型可包括新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐中的至少一种。音乐类型可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱中的至少一种。

[0041] 类型确定器实时确定声音数据的类型。

[0042] 元数据可包括：包括声音数据的内容属性，声音数据的内容属性包括关于内容的位置和细节的信息、关于内容作者的信息或关于内容的类型的信息。

[0043] 类型确定器可独立地并顺序地或同时地确定节目类型和音乐类型中的任一个或二者。

[0044] 所述设备可被构造为在整个频率范围内提高信噪比(SNR)。

[0045] 所述设备还可包括：环境噪声收集器，被构造为从声音数据被再现的环境收集环境噪声；环境噪声分析器，被构造为分析收集的环境噪声；均衡器控制器，被构造为基于由环境噪声分析器执行的分析的结果，调整均衡器的设置来最小化环境噪声的影响。

[0046] 所述设备还可包括：类型改变确定器，被构造为通过在声音数据被再现的同时预先分析将被再现的数据来确定类型是否已经改变，并经过分析当声音数据被再现时将被再现的数据的频率分量，响应于特定的频率分量被改变到高于预先确定的阈值的水平而确定类型已经改变。

[0047] 从下面具体实施方式、附图和权利要求中，其他特征和方面将变得明显。

附图说明

[0048] 图1是示出根据实施例的用于控制声音的设备的示例的框图。

[0049] 图2是示出图1所示的类型确定器的示例的框图。

[0050] 图3是示出根据实施例的用于控制声音的设备的另一示例的框图。

[0051] 图4是示出根据实施例的用于训练关于声音数据的类型识别模型的设备的示例的框图。

[0052] 图5是示出根据另一示例性实施例的用于控制声音的方法的示例的流程图。

[0053] 图6是示出根据另一实施例的用于控制声音的方法的另一示例的流程图。

[0054] 图7是示出根据另一实施例的用于控制声音的方法的另一示例的流程图。

[0055] 图8是示出根据实施例的用于训练关于声音数据的类型识别模型的方法的示例的框图。

[0056] 贯穿附图和具体实施方式，除非另有描述，相同的标号将被理解为表示相同的元件、特征和结构。为了清除、示出和便利，这些元件的相对大小和描绘将被夸大。

具体实施方式

[0057] 下面提供了详细的描述来帮助读者获得在此描述的方法、设备和/或系统的全面理解。在下面的描述中，当在此合并的已知的功能和配置的详细描述会模糊本发明的主题时，其将被省略。此外，贯穿本说明书使用的术语是考虑到根据示例性实施例的功能而被定义的，并可根据用户或管理者或先例等的目的被改变。所以，术语的定义应该基于整体上下文来进行。

[0058] 在此描述的特征可以以不同的形式来实施，并且不被解释为局限于在此描述的示例。相反，在此描述的示例仅为了示出在理解了本申请的公开之后将变得清楚的实施在此描述的方法、设备和/或系统的多个可能方式中的一些可能方式而被提供。

[0059] 贯穿说明书，当元件(诸如，层、区域或基底)被描述为“在”另一元件“之上”、“连接”或“结合”到另一个元件时，所述元件可直接“在”另一元件“之上”、“连接”或“结合”到另一个元件，或者可存在一个或多个其它中间元件。相反，当元件被描述为“直接在”另一元件“之上”、“直接连接”或“直接结合”到另一元件时，不存在其它中间元件。

[0060] 在此使用的术语仅为了描述各种示例，并不是用于限制本公开。除非上下文有明确相反的指示，单数形式的术语旨在也包括复数形式。术语“包含”，“包括”和“具有”指定陈述的特征、数字、操作、成员、元件和/或它们的组合的存在，但不排除一个或多个其它特征、数字、操作、成员、元件和/或它们的组合的存在或添加。

[0061] 由于制造技术和/或误差，在附图中示出的形状的改变可能发生。因此，在此描述的示例不局限于在附图中示出的指定的形状，但包括制造期间发生的形状的改变。

[0062] 如在此使用的，术语“和/或”包括相关联的列出的项中的任意一个或两个或更多个的任意组合和所有组合。

[0063] 在理解了本申请的公开之后，在此描述的示例的特征可以以各种形式被组合，将变得明显。此外，虽然在此描述的示例具有各种配置，但是在理解了本申请的公开之后，其他配置是可行的将变得明显。

[0064] 图1是示出根据实施例的用于控制声音的设备的示例的框图。

[0065] 用于控制声音的设备(以下，被称为“声音控制设备”)为根据声音、对话或音乐的类型自动调整均衡器的设置并可被安装在包括移动终端和固定终端的各种类型的声音再现设备上的硬件设备。移动终端的示例可包括蜂窝电话、智能手机、平板PC、膝上型电脑、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪等，固定终端的示例可包括数字TV、智能TV、桌上型电脑以及其它相似电子装置。

[0066] 参照图1，声音控制设备100包括以下结构装置：类型确定器110、均衡器设置器120以及再现器130。虽然声音控制设备100在图1中被描述和显示为包括所有三个结构装置，但是诸如显示器或处理器的附加结构装置也可被包括在声音控制设备100中。此外，在可选择的实施例中，类型确定器110和/或再现器130可处于声音控制设备100的外部。

[0067] 类型确定器110是被构造为确定输入声音数据的类型的结构处理器。

[0068] 在一实施例中，类型确定器110通过分析与声音数据有关的或声音数据的元数据来确定声音数据的类型。元数据是提供关于声音数据的内容属性的数据，关于声音数据的内容属性包括但不局限于各种类型的关于内容的位置和细节的信息、关于内容作者的信息或关于内容的类型的信息。因此，在与声音数据相关的元数据与声音数据一起被输入的情况下，类型确定器110通过分析元数据来确定声音数据的类型。

[0069] 在另一个示例中，类型确定器110通过使用类型识别模型来确定声音数据的类型。

[0070] 例如，类型确定器通过分析与声音数据相关的元数据或通过使用类型识别模型来确定声音数据的类型，在声音数据为音乐数据的示例中确定声音数据的音乐类型。节目类型的示例可包括，但不局限于，新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和/或音乐，音乐类型的示例可包括古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和/或说唱。

[0071] 类型识别模型可通过基于多个训练声音数据的机器学习或通过使用利用手动提取的特征的规则库机器学习算法而被预生成。机器学习算法的示例可包括，但不局限于，神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习。

[0072] 类型确定器110响应于用于再现声音数据的指令，而部分地基于、使用或处理整个声音数据来实时确定声音数据的类型。

[0073] 例如，假设声音数据为文件数据或流数据，则声音控制设备100接收用于再现声音数据的指令，且类型确定器110基于整个声音数据中的初始5秒部分来确定声音数据的类型。虽然初始的5秒被用于确定类型，但是其他数量的时间(诸如，小于5秒或多于5秒)可被用于确定声音数据的类型。

[0074] 均衡器设置器120是被构造为根据通过类型确定器110确定的声音数据的类型来设置均衡器的处理器或控制器。在一个实施例中，均衡器设置器120通过使用用于将类型映射到均衡器的预设设置的表(以下，称为映射表)来设置均衡器。

[0075] 下面表1示出一种映射表的示例。

[0076] 表1

[0077]类型均衡器的设置
新闻设置1
戏剧设置2
电影设置3
… …
音乐-古典音乐设置4
音乐-舞蹈音乐设置5
音乐-重金属音乐设置6
… …

[0078] 如表1所示，在类型确定器110确定声音数据的类型为新闻节目的情况下，均衡器设置器120将均衡器设置为设置1；在类型确定器110确定声音数据的类型为作为音乐节目的古典音乐的情况下，均衡器设置器120将均衡器设置为设置4。

[0079] 再现器130基于设置的均衡器来再现声音数据。

[0080] 图2是示出在图1中所示的类型确定器110的示例的框图。

[0081] 参照图2，类型确定器110包括以下结构处理器：类型识别模型存储部210，节目类型确定器220以及音乐类型确定器230。

[0082] 类型识别模型存储部210存储类型识别模型。在一实施例中，类型识别模型通过使用训练声音数据的机器学习或通过使用手动提取的特征利用规则库算法而预先生成。机器学习算法的示例可包括，但不局限于，神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习。

[0083] 类型识别模型存储部210包括闪速存储器类型、硬盘类型、多媒体卡微类型、卡类型存储器(例如，SD或XD存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘中的至少一个存储介质。

[0084] 虽然类型识别模型存储部210被包括在图1的类型确定器110中，但是类型识别模型存储部210不局限于此。换句话讲，类型识别模型存储部210可位于类型确定器110中或作为类型确定器110的外部元件。

[0085] 节目类型确定器220是被构造为基于类型识别模型确定声音数据的节目类型的处理器。换句话讲，节目类型确定器220确定声音数据的节目类型(诸如，新闻、戏剧、娱乐、体育、纪录片、电影、喜剧、音乐等)。

[0086] 响应于节目类型确定器220确定声音数据为音乐节目(诸如，音乐数据)，音乐类型确定器230基于类型识别模型来确定声音数据的音乐类型。换句话讲，音乐类型确定器230确定声音数据的音乐类型(诸如，古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情、说唱等)。

[0087] 在一个示例中，由节目类型确定器220进行的节目类型的确定和由音乐类型确定器230进行的音乐类型的确定被独立地且顺序地执行，但是所述确定不局限于此且可被同时地或通过使用一种类型识别模型同时被执行。

[0088] 如上所述，类型识别模型是被训练(例如，由将在后面图4中描述的训练器420训练)以用于同时确定节目类型和音乐类型的集成模型。类型识别模型是可被分成互相之间独立地被训练或同时被训练的节目类型识别模型和音乐类型识别模型的集成模型。节目类型识别模型是被训练用于确定节目类型的模型，而音乐类型识别模型是被训练用于确定音乐类型的模型。在这个示例中，节目类型确定器220通过使用节目类型识别模型来确定声音数据的节目类型，音乐类型确定器230通过使用音乐类型识别模型来确定声音数据的音乐类型。

[0089] 图3是示出根据实施例的用于控制声音的设备的另一示例的框图。

[0090] 参照图3，除了参照图1示出并描述的类型确定器110和再现器130以及参照图2示出并描述的音乐类型确定器230之外，用于控制声音的设备300(以下，称为声音控制设备)还包括环境噪声收集器310、环境声音分析器320、均衡器调整器330、类型改变确定器340、通信器350以及用户接口360，。

[0091] 环境噪声收集器310是被构造为从产生声音数据的环境(诸如，地铁、房子、学校、机场等)收集环境噪音。为此，环境噪声收集器310可包括麦克风。

[0092] 环境噪声分析器320分析收集的环境噪声。例如，环境噪声收集器320通过使用快速傅里叶变换(FFT)算法分析收集的环境噪声的频率分量。

[0093] 均衡器控制器330基于通过环境噪声分析器320执行的分析的结果来调整由均衡器设置器120(如在图2中描述和示出的)设置的均衡器的设置。在一实施例中，均衡器调整器330调整通过均衡器设置器120设置的均衡器的设置来最小化环境噪声的影响。例如，在环境噪声的频率分量的分析显示特定的环境频率分量为高的情况下，均衡器调整器330可调整设置的均衡器来减弱特定的环境频率分量。

[0094] 根据实施例，声音控制设备300在整个频率范围内提高信噪比(SNR)。

[0095] 类型改变确定器340通过当声音数据被再现时预先分析将被再现的数据来确定类型是否已经改变。在实施例中，类型改变确定器340通过使用FFT算法当声音数据被再现的同时分析将被再现的数据的频率分量。例如，经过当声音数据被再现的同时分析将被再现的数据的频率分量，类型改变确定器340响应于特定的频率分量被改变到高于预先确定的阈值的水平而确定类型已经改变。

[0096] 一旦类型改变确定器340确定当声音数据将被再现时类型已经改变，则类型确定器110基于将被再现的数据重新确定声音数据的类型，均衡器设置器120根据重新确定的类型重新设置均衡器，再现器130从类型被改变的数据之后的数据开始基于重新设置的均衡器再现声音数据。

[0097] 以这种方式，声音控制设备300根据声音数据的改变的类型，来改变当声音数据被再现时的均衡器的设置。

[0098] 通信器350与外部装置进行通信。例如，通信器350将声音信号传输到外部装置或从外部装置中接收声音信号。

[0099] 根据实施例，外部装置是存储声音数据的服务器、再现声音数据的声音再现设备或显示与声音数据相关的各种类型的信息的显示器。另外，外部装置的示例可包括，但不局限于，智能手机、蜂窝电话、个人数字助理(PDA)、膝上型电脑、个人计算机(PC)、数字TV、智能TV或其它移动或非移动的计算装置。

[0100] 通信器350通过使用蓝牙通信、蓝牙低能量通信、近场通信、WLAN通信、Zigbee通信、红外数据协会(IrDA)通信、Wi-Fi直接(WFD)通信、超宽带(UWB)通信、Ant+通信、Wi-Fi通信、射频识别(RFID)通信等与外部装置进行通信。此外，通信器350可包括接收广播节目的调谐器，并可通过调谐器接收声音数据。然而，通信器350仅是示意性的，并不局限于此。

[0101] 用户接口360是声音控制设备300与用户和/或其它外部装置之间的接口，并可包括输入有线或无线端口和输出有线或无线端口。

[0102] 操作声音控制设备300所需的信息通过用户接口360被输入，且设置均衡器的结果通过用户接口360被输出。用户接口360包括例如按钮、连接器、键盘、显示器和其它相似的输入或接口装置。

[0103] 图4是示出根据实施例的用于训练关于声音数据的类型识别模型的设备的示例的框图。用于训练类型识别模型的设备400可以是为声音控制设备100和声音控制设备300训练声音识别模型的设备。

[0104] 参照图4，用于训练类型识别模型的设备400包括收集器410和训练器420。

[0105] 收集器410是被构造为收集多个训练声音数据的处理器。在这个示例中，多个训练声音数据是根据节目类型和音乐类型分类的数据。节目类型的示例可包括，但不局限于，新闻、戏剧、娱乐、体育、纪录片、电影、喜剧、音乐等，音乐类型的示例可包括，但不局限于，古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱。

[0106] 训练器420基于所述多个训练声音数据通过机器学习来训练类型识别模型。机器学习算法的示例可包括，但不局限于，神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习。

[0107] 图5是示出根据另一实施例的用于控制声音的方法的示例的流程图。

[0108] 参照图1和图5，在操作510中，声音控制设备100确定输入声音数据的类型。

[0109] 例如，声音控制设备100通过分析与声音数据相关的元数据或通过使用类型识别模型来确定声音数据的类型，在声音数据为音乐数据的示例中，声音控制设备100确定声音数据的音乐类型。节目类型的示例可包括，但不局限于，新闻、戏剧、娱乐、体育、纪录片、电影、喜剧和音乐，而音乐类型的示例可包括，但不局限于，古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱。

[0110] 类型识别模型可基于多个训练声音数据通过机器学习或通过使用手动提取的特征利用规则库算法而被预先生成。机器学习算法的示例可包括，但不局限于，神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习。

[0111] 声音控制设备100响应于用于再现声音数据的指令，基于全部声音数据的一部分实时确定声音数据的类型。例如，在声音数据为文件数据或流数据的示例中，当接收用于再现声音数据的指令时，声音控制设备100基于全部的声音数据中的初始5秒部分来确定声音数据的类型。

[0112] 在操作520中，声音控制设备100根据确定的声音数据的类型来设置均衡器。例如，声音控制设备100通过使用在表1中示出的映射表来设置均衡器。

[0113] 随后，在操作530中，声音控制设备100基于设置的均衡器来再现声音数据。

[0114] 图6是示出根据另一实施例的用于控制声音的方法的另一示例的流程图。

[0115] 在图6中的用于控制声音的方法包括参照图5所示和描述的操作510到操作530。此外，在操作520和操作530之间，所述方法在操作522处收集环境噪声，在操作524处分析环境噪声，并在操作526处调整均衡器。在操作540处，除了在图5中的用于控制声音的方法之外，所述方法在540中选择性地确定类型是否被改变。

[0116] 参照图3和图6，在操作522处，声音控制设备300从声音数据被再现的环境(诸如，地铁，房子、学校、机场等)收集环境噪声。

[0117] 在操作524处，声音控制设备300分析收集到的环境噪声。例如，声音控制器设备300可通过使用快速傅里叶变换(FFT)算法来分析收集到的环境噪声的频率分量。

[0118] 随后，声音控制设备300基于分析的环境噪声来调整在操作520中设置的均衡器。在一实施例中，声音控制设备300调整在操作520中设置的均衡器的设置来最小化环境噪声的影响。例如，在环境噪声的频率分量的分析显示特定的频率分量为高的示例中，声音控制设备300调整设置的均衡器来减弱特定的频率分量。

[0119] 在操作540处，声音控制设备300通过当声音数据被再现的同时预先分析将被再现的数据来确定类型是否被改变。在一个实施例中，声音控制设备300通过使用FFT算法分析当声音数据被再现时将被再现的数据的频率分量，并基于所述分析确定类型是否被改变。

[0120] 响应于在操作540中确定了类型被改变，声音控制设备300转到操作510来基于将被再现的数据重新确定声音数据的类型。

[0121] 以这种方式，声音控制设备300根据声音数据的改变的类型有效地改变当声音数据被再现时的均衡器的设置。

[0122] 图7还是示出根据另一实施例的用于控制声音的方法的另一示例的流程图。

[0123] 参照图6和图7，在图7中的用于控制声音的方法中，在操作522中的环境噪声的收集和在操作524中的环境噪声的分析与在操作510中的类型的确定和在操作520中的均衡器的设置被并行地或同时地执行。

[0124] 图8是示出根据实施例的用于训练关于声音数据的类型识别模型的方法的示例的框图。

[0125] 参照图4和图8，在操作810中，用于训练类型识别模型的设备400收集多个训练声音数据，其中，所述多个训练声音数据可根据节目类型和音乐类型而被分类。节目类型的示例可包括，但不局限于，新闻、戏剧、娱乐、体育、纪录片、电影、喜剧、音乐等，而音乐类型的示例可包括，但不局限于，古典、舞蹈、乡村、重金属、嘻哈、爵士、流行、摇滚、拉丁、抒情和说唱。

[0126] 在操作820中，用于训练类型识别模型的设备400基于所述多个训练声音数据通过机器学习来训练类型识别模型。机器学习算法的示例可包括，但不局限于，神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、K近邻法(K-NN)、感知机、径向基函数网络、支持向量机(SVM)和深度学习。

[0127] 在图1到图4中的执行在本申请中描述的操作的类型确定器110、均衡器设置器120、再现器130、类型识别模型存储部210、节目类型确定器220、音乐类型确定器230、环境噪声收集器310、环境噪声分析器320、均衡器调节器330、类型改变确定器340、通信器350、收集器410和训练器420是通过被构造为执行在本申请中描述的操作的硬件组件而被实施。
可用于在适当的地方执行在本申请中描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、逻辑运算电路、加法器、减法器、乘法器、除法器、积分器以及被构造为执行在本申请中描述的操作的任何其它电子组件。在其它示例中，执行在本申请中描述的操作的一个或多个硬件组件可通过计算硬件(例如，通过一个或多个处理器或计算机)而被实施。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被构造为能够以定义的方式响应和执行指令来实现所需的结果的任何其它装置或装置的组合)而被实施。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实施的硬件组件可执行指令或软件(诸如，操作系统(OS)和一个或多个在OS上运行的软件应用)来执行在本申请中描述的操作。硬件组件也可响应于指令或软件的执行来访问、操作、处理、创建以及存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于在本申请中所述的示例的描述中，但是在其它的示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或两者。例如，单个硬件组件或两个或多个硬件组件可通过单个处理器、或两个或多个处理器、或处理器和控制器而被实施。一个或多个硬件组件可通过一个或多个处理器、或处理器和控制器而被实施，一个或多个其它硬件组件可通过一个或多个其它处理器、或另一个处理器和另一个控制器而被实施。一个或多个处理器、或处理器和控制器可实施单个硬件组件、或两个或多个硬件组件。硬件组件具有任何一个或多个不同处理配置，其示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理机、单指令多数据(SIMD)多处理机、多指令单数据(MISD)多处理机以及多指令多数据(MIMD)多处理机。

[0128] 执行在本申请中描述的操作的在图5到图8中所示的方法通过被如上所示的实施为执行指令或软件来执行由所述方法执行的在本申请中描述的操作计算硬件(例如，一个或多个处理器或计算机)而被执行。例如，单个操作或两个或多个操作可通过单个处理器或两个或多个处理器或处理器和控制器而被执行。一个或多个操作可通过一个或多个处理器或处理器和控制器而被执行，一个或多个其它操作可通过一个或多个其它处理器或另一个处理器和另一个控制器而被执行。一个或多个处理器或处理器和控制器可执行单个操作或两个或多个操作。

[0129] 用于控制计算硬件(例如，一个或多个处理器或计算机)来实施硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任何组合，以用于单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机来操作执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器语言(诸如，由编译器生成的机器代码)。在另一个示例中，指令或软件包括由一个或多个处理器或计算机使用编译器执行的高级代码。指令或软件可基于附图所示的框图和流程图以及说明书中相关的描述使用任何编程语言而被编写，所述说明书公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

[0130] 用于控制计算硬件(例如，一个或多个处理器或计算机)实施硬件组件和执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定进或在一个或多个永久的计算机可读存储介质。永久的计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪速存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态硬盘以及被构造为以永久性的方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并为一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构以使处理器或计算机能够执行指令的任何其它装置。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布于网络结合的计算机系统以使指令和软件以及任何相关联的数据、数据文件和数据结构由一个或多个处理器或计算机以分布的形式进行存储、获取和执行。

[0131] 虽然本公开包括具体的示例，但是明显的是，在本申请的公开的理解之后，在不脱离权利要求的精神和范围以及它们的等同物的情况下，可以在这些示例中进行形式和细节的各种改变。在此描述的示例被认为仅在描述性的意义上，并不为了限制。在每一个示例中的特征或方面的描述被认为适用于在其它示例中的相同的特征或方面。如果所述的技术以不同的顺序执行，和/或如果在所述的系统、体系结构、装置或电路中的组件以不同的方式组合，和/或用其他组件或它们的等同物替换或补充可实现适当的结果。因此，本公开的范围不是由详细的描述而是由权利要求和它们的等同物所限定，并且在权利要求和它们的等同物的范围内的所有改变都被视为包括在本公开内。

标题	发布/更新时间	阅读量
一种基于非线性增强子空间聚类的图像识别方法	2020-05-11	634
三维裁剪Voronoi图的多线程并行计算方法、系统	2020-05-08	167
一种基于CBR和RBR的机器人焊接工艺参数优化方法	2020-05-11	581
一种基于步长匹配的行人室内定位方法	2020-05-12	175
基于多传感网络的室内活动检测识别方法及系统	2020-05-12	678
一种基于加权联合最近邻的多任务稀疏表示检测方法	2020-05-08	944
一种基于光流颜色聚类的运动物体分割方法及其系统	2020-05-11	769
基于深度卷积特征和语义近邻的多标签图像补全方法	2020-05-08	234
基于多元时移多尺度排列熵的滚动轴承故障诊断方法	2020-05-13	286
高分辨率遥感影像的海上典型人造目标识别系统及方法	2020-05-08	22

控制声音的设备和方法及训练类型识别模型的设备和方法

控制声音的设备和方法及训练类型识别模型的设备和方法

技术领域

背景技术

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：