首页 / 专利库 / 残疾人专用配件 / 听觉模型 / 个性化的声音处理系统和设备

个性化的声音处理系统和设备

阅读:979发布:2020-05-15

专利汇可以提供个性化的声音处理系统和设备专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种面向个人听觉的声音处理系统;本系统通过测试个人的听 力 ,结合多年的人 耳 听觉以及 心理学 的研究数据,分析出个人听觉特征,建立个人听力模型,从而评估用户的听力健康状况;根据所评估的听力健康状况,本系统可以完成对各类音乐、歌曲的个性化处理,以达到有利于用户听力健康的,提高听觉体验的效果;本系统还可以对各类音乐、歌曲进行声学特征分析,基于用户听觉与心理特征,为用户搜索歌曲,向用户推荐音乐,达到个性化营销的目的;本系统不仅可以通过互动式语音应答或在网络上实现,还可以在终端设备上进行集成;本系统广泛适用于互联网行业和 电子 产品行业。,下面是个性化的声音处理系统和设备专利的具体信息内容。

1.声音处理系统,包括心理声学测试和声学处理器;其特征在于:所述的心理声学测试,驱动一个播放设备,将测试所需的多个声音发给一个用户;所述的用户,针对所述的声音做出相应回答;所述的回答,被收集起来,得出心理声学测试的结果;所述的测试结果,作为参数被配置到所述的声学处理器中;所述的声学处理器,分析所述的测试结果,得出用户的听特征和听力健康状态;根据所述的听力特征,所述的声学处理器,把普通音乐处理成个性化的、专为所述用户定制的音乐,以达到有利于用户听力健康的,提高听觉体验的效果。
2.根据权利要求1的声音处理系统,其特征在于:所述的心理声学测试被听觉生理学测试所代替。
3.根据权利要求1或2的声音处理系统,其特征在于:所述的处理,包括对输入音乐的幅度谱的个性化调整,以及对输入音乐的相位谱的调整,为所述用户提供最优化的听觉体验;所述的最优化的听觉体验,有利于所述用户的听觉系统健康,同时带来更加个性化的,更加震撼的音乐效果和更加增强的音乐感受。
4.根据权利要求2的声音处理系统,其特征在于:所述的听觉生理学测试,通过发送纯音、带通噪音,测量用户的听觉脑干响应,计算出听觉处理的群延迟,利用群延迟和相位延迟之间的关系,得到相位延迟;所述的相位延迟,被用于调整输入音乐的相位,以使所述的用户获得个人最优的听觉体验。
5.根据权利要求3的声音处理系统,其特征在于:所述的对输入音乐的相位谱的调整,是个性化的,是针对每个用户听力特征单独定制的。
6.根据权利要求1或2的声音处理系统,其特征在于:所述的处理,目的是进行个性化低音增强。
7.根据权利要求1或2的声音处理系统,其特征在于:所述的处理,目的是对音乐进行个性化的空间感增强,使音乐更加有立体感。
8.根据权利要求1或2的声音处理系统,其特征在于:多轨录音的每一轨,都被单独的个性化,然后合成为一个音乐作品。
9.根据权利要求1或2的声音处理系统,其特征在于:多轨录音的每一轨,作为一个声源;利用双效应,让人感觉所述声源来自声场空间的某一个点,进行个性化空间感增强;
最后,所有轨处理后的信号合成为一个作品。
10.根据权利要求1或2的声音处理系统,其特征在于:所述的声学处理器被个性化音乐搜索和个性化音乐分类所代替;所述的声学测试结果,被用于音乐搜索和分类;所述的音乐搜索和分类,为单个用户搜索出个性化的音乐,推荐个性化的音乐。
11.根据权利要求1或2的声音处理系统,其特征在于:所述的处理,根据一首歌曲的信号特征,相应地补偿,把最适合用户个性听力特性的幅度谱和相位谱,应用到所述歌曲上去。
12.根据权利要求1或2的声音处理系统,其特征在于:所述的声学处理器,为每一类格的音乐,做个性化的幅谱调整和相位谱调整;从而,对于一个用户,所述的声学处理器根据用户选择的音乐类型不同,做出不同的处理。
13.根据权利要求1或2的声音处理系统,其特征在于:所述的声学处理器,针对双耳的互掩蔽、互时间差和互强度差的特性,个性化地提供立体声双通道的最佳播放效果。
14.根据权利要求1或2的声音处理系统,其特征在于:所述的声学处理器,根据个人的幅度响应特征和相位响应特征,推导最适合个人的空间滤波器,该滤波器能够使用户产生空间感觉;所述的空间滤波器为多个,分别并行处理音乐中的多个组成部分,使用户听到每一个组成部分来自空间的某一个点。
15.根据权利要求14的声音处理系统,其特征在于:所述的空间滤波器是随着音乐的播放而时变的;这种随着时间的变化,使用户感觉到音乐的来源在空间中随着时间的变化而移动,带来更多的身临现场的动态效果。
16.根据权利要求1或2的声音处理系统,其特征在于:所述的用户的声学测试结果,被加上密码,写入音乐文件中,形成一个包含了用户个人信息的新音乐文件;在被播放的时候,所述的新音乐文件中的个人信息,被解码得到个人声学测量结果,在播放的过程中最优化听觉体验。
17.根据权利要求1或2的声音处理系统,其特征在于:所述的一个用户的心理声学测试结果,提供了声学的曲线;所述的声学的曲线,可以用于把大的音乐文件压缩成小的音乐文件;所述这种压缩是个性化的,在被播放的时候,所述的用户不会察觉到音质的受损。
18.听力检查系统,其特征在于:通过心理声学测试,获得用户的左右耳听力曲线;左右耳听力曲线做差,得到第一条曲线;在左耳听力曲线上,每个频率点的值,与相邻频率点的值做差,得到第二条曲线;在右耳的听力曲线上,每个频率点的值,与相邻的频率点做差,得到第三条曲线;所述的三条曲线,被联合加以分析,获得用户听力特征,报告听力健康的状态。
19.根据权利要求18的听力检查系统,其特征在于:所述的左右耳听力曲线,使用纯音、噪声、噪声中的纯音、带通噪音、带阻噪声、带通噪音中的纯音和带阻噪声中的纯音这些声音中的一种以上,分别测量左右耳得出,从而获得用户听力特征,最优化音乐,增强个性化的音乐体验。
20.根据权利要求1或2的声音处理系统,其特征在于:所述的声学测试,利用时变频率信号,来测试个人听觉对音乐的群延迟;所述的测试结果,被用来增强各个频率之间的同步到达性,使用户感受最优的音色。
21.根据权利要求1或2的声音处理系统,其特征在于:所述的声学处理器,基于输入的音乐信号,产生谐波信号,谐波信号的相位谱由一个声学测试来确定,谐波的幅度谱由第二个声学测试来决定;所述的第一个声学测试,测试个人听觉的群延迟;所述的第二个声学测试,测试个人的等响曲线

说明书全文

个性化的声音处理系统和设备

技术领域

[0001] 本发明涉及信号处理、心理声学和听觉生理学,更具体的说,本发明涉及一种个性化的声音处理系统,用于测试用户听特征,报告用户的听力健康状况,并基于该用户的听力特征,将普通的音乐文件,加工成更加好听的、有利于该用户听力健康的、适于长期聆听的音乐文件。

背景技术

[0002] 一些本发明中使用的词汇,其涵义分别列出如下。
[0003] 人解剖结构——包括外耳、中耳、内耳、听神经、脑干和听神经中枢等。声音在外耳得到增强,中耳将空气振动转换成机械震动,内耳将机械震动转换成神经脉冲,神经脉冲经过听通路,最终到达听神经中枢,使人感觉到声音。
[0004] 声学测试——本发明所述的声学测试包括两种:心理声学测试和听觉生理学测试。心理声学是研究声音和听觉之间关系的学科,而心理声学测试是测试一个人的听觉特征的实验。在物理学中,一个声音可以从频率、幅度和相位来描述;而心理声学的描述则不同,它从人类心理的度把一个声音的属性描述为音高、响度和音色。
[0005] 听觉生理学测试——发出声音给人听,然后记录下在听到声音之后这个人的物理特征的变化,如脑电和脑磁场的变化,这称为听觉生理学测试。常见的听觉生理学测试,包括听觉脑干响应(Auditory Brainstem Response,ABR),畸变产物耳声发射(Distortion Product Oto-Acoustic Emissions,DPOAE),复合动作电位(Compound Action Potential,CAP)和脑电图(Electroencephalography,EEG)。
[0006] 声压强——是一种声音强度的度量单位,通常缩写为SPL (Sound Pressure Level),也称为声压级、声音强度或强度。它的单位是 dBSPL(Decibel Sound Pressure Level)。它是一个客观的描述音量大小的物理量。0 dBSPL是人类大约能听到的最小声音,痛苦的限值为135 dBSPL。安静的背景音乐,通常在50 dBSPL,交响乐通常达到110 dBSPL或者更高,而很响的摇滚乐可以达到120 dBSPL。
[0007] 纯音——只含有一个单一频率的声音。例如,1000Hz的正弦声波发出的声音,是一个1000赫兹的纯音。
[0008] 谐波——由一个纯音,以及它的整数倍的频率,叠加共同组成的复合声音。 [0009] 基音——谐波中最小的那个频率称为基音,也称为基频。
[0010] 泛音——谐波中,除了基音,所有其它更高的整数倍的频率成分都称为泛音。 [0011] 残余音——对于纯音, 它的音高主要决定于频率;而对于由基音和泛音组成的复合音,其音高较为复杂。自亥姆霍兹以来,普遍认为复合声的音高决定于基音的频率,因为基音的振幅在频谱中占优势。但是测试表明,若复合声的基频很弱,甚至完全被滤掉,它的音高仍维持基频的音高不变。这种失去基频仍保持音高不变的复合音,被称为残余音[1]。 [0012] 单轨录音——用单一轨道,将所有现场的声音一起录下来的技术。
[0013] 多轨录音——在音乐的制作过程中,使用许多轨将乐器和人声分别录进电脑;在后期处理中,经过合成后混为一个成品。多轨录音的作用和优势明显,它避免了“单轨录音”的两个缺点:缺点一,如果一个演奏者出了偏差,全部演奏者都要重来;缺点二,所有的乐器都录在一起,后期制作的时候,无法针对每件乐器做精细的调整。
[0014] 耳蜗群延迟效应——当声音传播到了人耳的耳蜗,对不同的频率,耳蜗会产生不同的延迟时间。也就是说,进过耳蜗之后,高频的声音到达听觉神经较快,而低频的声音到达的较慢。这种效应,称为耳蜗群延迟效应。可以看出,耳蜗群延迟扭曲了声音的相位。对于耳蜗对相位的扭曲,研究者已经确定了其特性[2,3]。德波尔(De Boer)推导出了一种调频脉冲信号,该信号能够恰好补偿人类耳蜗带来的相位扭曲[2]。
[0015] 临界频带——当两个声音的频率靠的很近时,人耳不能够区分出来。这个最小的频率差值,就称为临界频带。临界频带的宽度,一般认为1/3-1/6音程。人耳会倾向于合并在临界频带内的声音。不仅如此,不同的频带给人的感觉差异巨大, 16~60赫兹频段能给音乐以力度;提升60~250赫兹能够使音乐丰满;250~2000赫兹能赋予音色号角般的色彩;2000~4000赫兹人耳的灵敏度最好;4000~6000赫兹为清晰、明亮和主观感受的频段;5000赫兹稍加衰减定会使声音产生距离感和透明感;6000~20000赫兹则控制着声音的明亮与清晰,若稍加调整即可产生轻松、清脆和光泽感。
[0016] 响度——响度是主观感受到的声音强度,它表示的是一个声音听来有多响的程度。根据美国国家标准学会(American National Standards Institute, ANSI)的定义,响度是听觉感知的一种属性,该属性按照从安静到响亮的顺序排布。响度与声压强不同,后者是客观的声音强度。通过A加权曲线,过滤声压强,可以近似获得典型人耳的响度。响度的单位是宋(Sone)和方(Phon)。现代心理声学进行了响度的定量判断测试,并建立了响度量表。1宋的定义为1000赫兹、40 dBSPL纯音所引起的响度,大致相当于轻声说话的声级。宋量表证明,响度正比于 1000赫兹等响声压的0.6次幂,就是说,1000赫兹等响声的声压级提高10dB,响度加倍。响度和听力损伤的关系如下:如果发生听力损伤,响度的感觉就会发生变化;较低的声音就听不见了,但是很响的声音还是感觉和原来差不多,这被称为响度重振[4]。
[0017] 等响曲线——人耳对于不同的声音敏感程度不同,其中,人耳对2000-5000赫兹的频率最为敏感。这说明响度的变化不是单纯地决定于声音强度,也与频率有关。两个不同频率的纯音,虽强度相同,引起的响度却不同。总的来说,由于人耳的特点,中频纯音听来比低频和高频纯音响一些。以1000赫兹、80 dBSPL的纯音为参照声,通过响度平衡测试,可以得到一条等响线,如图1所示。在这条等响线上,纵轴是声压强,横轴是频率,各频率的纯音尽管声压级不同,但都与该曲线上的1000赫兹纯音等响。所以,此曲线上各纯音的响度级,都是80方(phon)[1]。类似的,还有100方,60方,40方,20方,0方的曲线。这一簇曲线,统称为等响曲线。等响曲线的特点:响度从0方增大到100方,等响曲线逐渐变平。这说明响度增长率,随着频率的不同而不同。最小的等响曲线,代表人类能听到的最轻的声音,被称为阈值、听力门限或绝对听力门限(Absolute Hearing Threshold)。等响曲线,由贝尔实验室的Fletcher和Munson在1933用纯音测量,并在多个人上平均得到。该等响曲线在1986年被写入了标准化文件ISO 226中。
[0018] 听力门限——声音不够一定强度不能引起听觉,人类最低能听到的声音强度称为听力门限,也称为阈值。听力门限有个体差异,因而所谓正常听力门限,只能是一些听力正常的年轻人的听力门限的统计平均值。听力门限随频率而变化:500~4000赫兹之间阈值最低;在它们之上和之下的高频声和低频声的阈值都较高,如20赫兹纯音的阈值,比1000赫兹的高约70dB,而10000赫兹纯音的阈值也比 1000赫兹的高约10dB。最敏感的频率是-113000赫兹左右,空气分子振动的振幅达到10 米,人类就可以听到[1]。
[0019] 音长——音长是声音长短的感觉,人类感觉到的音长和声音的物理时间长短是不相等的[1]。
[0020] 音程——一个频率与它的两倍频率之间的距离,称为一个音程。
[0021] 音高——声音调子高低的程度。音高主要取决于声音的频率,它随频率的升降而升降。但是,它也不是单纯地由频率决定,与声音强度也有关系。低频纯音的音高随强度增加而下降;反之,高频纯音的音高却随强度增加而上升。音高定量判断测试是让人听一系列纯音,使它们在音高上听来间隔相等。这样取得的平均判断构成了音高量表,其单位称为美。在此量表上,1000赫兹纯音的音高被定为1000美(mel)[1]。
[0022] 音色——音色是对声音音质的感觉。纯音不存在音色问题。而复合声的音色具有很多变化。例如,不同乐器所发出的声音,音色不同。小提琴和琴发出的中央C音,尽管它们响度和音高相同,听起来还是不一样,原因在于它们音色的差异。声音的音色取决于它们的频谱。复合声这种多量纲的特点,使得音色也具有多量纲性,不同于只有单个量纲的响度和音高。所以,音色只能用多维空间上相应的点来确定。语言的多维量表测试证明,音色的知觉空间上的点与频谱的物理空间上的点是非常吻合的[1]。
[0023] 声音设备的校准——对声音播放设备的校准,需要根据美国国家标准学会(American National Standards Institute,ANSI)的标准,或者国际标准化组织(International Standard Organization, ISO)的标准来进行。
[0024] 音乐欣赏的个人差异化——人的听觉特征参数差异显著,使用人类平均的曲线,或者任何一定固定的曲线,无法给个人带来最大化的音乐享受。
[0025] 失真——音乐设备在播放音乐的时候会带来失真。失真包括三种:群延迟失真,谐波失真和互调失真。群延迟失真,是指音乐设备对不同频率的分量,产生不同延迟,引起音色扭曲。谐波失真是指,如果播放1000赫兹的声音,由于失真会产生2000赫兹,3000赫兹,…一系列的声音;互调失真是指,播放1000赫兹的和100赫兹的声音,产生了900赫兹和1100赫兹的声音。
[0026] 双耳效应——声源定位的主要因素为两耳的时间差和强度差,也称为双耳效应。由于头部、耳廓、外耳道等的共振、反射作用,使听到的声音频谱受到调制。来自右边的声音先到达右耳,强度也比左耳收到的强。复合声的定位比纯音容易,纯音,尤其是2000~
3000赫兹的纯音, 定位特别困难。在可听声范围内,耳廓的指向性不显著,但对定位仍有作用。在低频率,两耳强度差别不大, 定位主要靠相位因素或时间差因素。在高频率, 相位变化复杂,强度差更为重要。在中频,定位更依赖时间和强度的综合作用[1]。人耳对声源定位,对于横向角度的定位精度为5度左右,甚至可以高达1-2度。如果耳廓的边缘被逐渐填满,定位的能力就逐渐消失了,消失的程度正比于填充的面积;显然,大脑利用了耳廓的反射,来确定声源。对声音中所包含的延迟时间的信息,双耳比较敏感,能够从中获取很多信息:耳廓反射所引发的延迟,在0.1毫秒的量级;左右耳的时间差非常重要,它在0.5毫秒的量级;对于1-50毫秒的延迟信号,大脑会合并到直达信号,所以大脑并不会认为这是回声;大于50毫秒的延迟,听起来会觉得是回声;50-100毫秒的延迟,给人的感觉像一个洞穴般的回声;大于400毫秒的回声,大脑可以把它和原信号区别出来,更有回声的感觉。 [0027] 最小可区别的强度差——人类最小可区别的强度差别,为1-3dB。所以,高质量的播放设备,其幅谱相应的波动,应被控制在2dB之内。但是,因为房间效应的存在,一个上下波动2dB的频率响应,在现实世界的自由空间播放是很难达到的。因此,比较现实的要求是:高质量的音乐播放设备,200-20000赫兹上下波动5dB,20-200赫兹上下波动10dB。听力门限的概念还包括差别门限,即两个(能够引起听觉差别的)声音的最小差值。就频率说,在63赫兹左右有经验的人耳能区别相差0.5赫兹的两个纯音的差别,但这种阈值在1000赫兹要增加到1.4赫兹,频率越高差别门限越大。在整个听觉范围内,可辨别的声音约34万个[1]。
[0028] 最小可区别的频率差——对一个年轻人,最小可区别的频率差,在1-5赫兹之内,都是正常的[5]。在1000—2000赫兹, 最小可区别的频率差是3.6 赫兹。也就是说,音高的变化超过3.6 赫兹,即能被感知到。
[0029] 冲激响应——对一个音乐处理系统,当输入信号为冲激的时候,系统的输出信号被定义为冲激响应。也即,若输入是狄拉克冲激 ,则系统输出 被称为冲激响应。如果冲激响应的傅里叶变换为 ,则频谱响应的定义为 ,幅度谱响应定义为

[0030] 均衡器——在音乐欣赏中,均衡器是一个常用的组件。它的作用就是对不同的频率增强强度或者衰减强度。通常来说,均衡器被划分成多个频率范围,低音范围(bass)从 20赫兹起;中低音范围(mid-bass),从100到500赫兹(如低音鼓,低音吉他, 话语的低频段);中频范围(midrange),从500赫兹到4000赫兹(如吉他,话语);高频范围(tweeters),从4000赫兹到20000赫兹。
[0031] 滤波——使用特定冲激响应的系统,对输入信号进行处理,称为滤波。 [0032] 录音设备——本发明中录音设备是可以记录下外界声音的电子设备,例如普通动圈话筒、高灵敏度的专业电容麦克等。
[0033] 数字印技术——本发明测量出的心理声学参数,可以通过数字水印的方法,嵌入到歌曲当中去。数字水印技术,对于本领域技术人员是显而易见的。
[0034] 用户终端——在本发明中,用户终端是指用户可以控制的、能够播放声音的电子设备,例如消费电子设备、掌上设备、手机、电脑等。
[0035] 本发明所提到的群延迟有两个方面涵义:第一,群延迟失真:如果声音播放设备产生了群延迟,就能够被人类听到失真的感觉。
500赫兹人类可以听出的最小失真是3.2毫秒的延迟;1000赫兹是2毫秒;2000赫兹是1毫秒;4000赫兹是1.5毫秒;8000赫兹是2毫秒[6]。另外,群延迟会导致声音相位谱的失真。相位谱的失真,会带来音色的改变,使听者感觉到失真和扭曲。施瓦德(Schroeder)发现了这一现象,具体来说,他发现一个泛音信号,即使幅度谱保持水平,仅仅相位谱改变,就能够为人们带来音色和音质的改变[7]。
[0036] 第二,当声音通过人的内耳,会产生群延迟。实际上,人的内耳的解剖结构,导致了人类对高频信号反应比低频信号快。为了描述这一个物理现象,德波尔(doBoer)建立了一个内耳的群延迟数学模型[2]。如果把人耳看作近似为一个线性时不变(Linear Time-Invariant, LTI)系统,那么它可以用频率响应 来描述。假定外界的声音是,那么人类感觉到的声音是:(公式 )
在(公式1)中, 是群延迟,是相位延迟
[0037] 推广开来,内耳、听神经末梢、以及听力系统的各个处理节点,都会对不同频率,产生不同的延迟。例如,听力脑干响应(Auditory Brainstem Response, ABR)检测,是一种临床广泛应用的,筛查新生儿听力缺陷,检测成年人听力障碍的检查手段;如果播放不同的纯音,则可以观察到听力脑干响应的延迟是不同的。
[0038] 对于个人电脑、掌上设备和便携式电子产品,由于尺寸的限制,低于125赫兹的声音,通过这些设备播放的效果,会严重下降,远远无法达到家庭影院的音响效果。即使高端的耳机,其频谱响应,在低于125赫兹的范围通常也会有10dB/音程的下降(在高频端4000赫兹以上,20dB的波动都是常见的)。
[0039] 即使很好的播放设备,其频谱响应曲线仍然不能保持平坦。而且,每个人的听力门限的曲线差异巨大。这两种效果叠加在一起,导致每个人听同一首歌,听到的感觉都不是最佳的。
[0040] 对个人来讲,叠加后的曲线有尖峰,有低谷。在低谷的地方,这个人就无法听到音乐的细节。这种情况下,音乐欣赏者倾向于调大音量。大量研究结果表明,音量与听力永久性损伤有直接的关系,如果音量超过85 dBSPL,则音量越大,收听时间越长,听力受到永久性损伤的越快。
[0041] 在不增加音量的情况下,如何给听者带来个性化的音乐、更清晰的音乐、更好听的感觉,从而保护听力健康,是本领域亟待解决的问题。
[0042] 这个问题,均衡器或者均衡设备无法解决。首先,在不了解个人听力特征的情况下,仅凭感觉调节均衡器,有可能会将音乐调的更加不健康。其次,从一个人到另一个人的听力都不一样,任何一条或者几条均衡器曲线,无法匹配个人的听力。
[0043] 音乐和人类健康之间的关系,包括四方面:第一,不适当的音乐,不适当的音乐设备,或者不适当的播放方式,能够直接损伤人类听力系统,永久性地导致听力下降,所以人类应当聆听适合自己的、有利于自己听力健康的音乐。
[0044] 第二,每个人的听力不同,如果一个人的听力在某些频率低于平均水平,这个人就无法听到音乐某些的细节。这种情况下,音乐欣赏者倾向于调大音量。大量研究结果表明,音量越大,听力永久性损伤越多。这个问题,需要个性化的音乐才能解决。
[0045] 第三,音乐能够直接影响人的生理状态,如血压和心率等,多个研究都证实了音乐疗法能够治疗疾病[8,9]。但是,不恰当的播放强度,或者不恰当的频率成分,不仅不能治疗疾病,反而会危害人体健康。例如,人类暴露在400赫兹、109 dBSPL、500毫秒下,其反应如下:4-11秒之后,动脉和静脉血压显著上升[10]。让人感觉刺激性的音乐,还会增加精神疾病的长期险,影响心率和诱发紧张的荷尔蒙[11,12]。所以,选择适合于自己的健康的音乐,并欣赏这些音乐,能够获得音乐疗法的益处,也能够直接多方面提升健康状态。 [0046] 第四,在长期实践中,音乐工作者和音乐爱好者均发现,平坦频率响应的音乐为平淡无味和没有活力的。而且,音乐欣赏的个人差异化是显著的。所以,为每一个人提供个性化的音乐,能够最大化音乐享受。但是,现有技术和产品,无法满足这个需求。 [0047] 以上所描述的群延迟失真、低音效果不足、非平坦的频谱响应、忽视听力健康、无法获得个性化的音乐,成为本领域亟待解决的问题。
[0048] 参考文献[1]. Békésy, G.v., Experiments in Hearing. 1960: McGraw-Hill, New York.[2]. deBoer, E., Auditory physics. Physical principles in hearing theory. Phys. Rep. , 1980. 62: p. 87–174.
[3]. Shore, S.E. and A.L. Nuttall, High-synchrony cochlear compound action potentials evoked by rising frequency-swept tone bursts. J. Acoust. Soc. Am. ,
1985. 78: p. 1286-1295.
[4]. ANSI, "American national psychoacoustical terminology" S3.20 American Standards Association. American National Standards Institute, 1973.
[5]. Jourdain, R., Music, the Brain and Ecstasy. 1997: Avon Books, New York.
[6]. Blauert, J. and P. Laws, Group Delay Distortions in Electroacoustical Systems. Journal of the Acoustical Society of America, 1978. 63(5): p.
1478-1483.
[7]. Schroeder, M.R. and H.W. Strube, Flat-Spectrum Speech. J. Acoust. Soc. Am, 1986. 79(5).
[8]. Besson, M., et al., Singing in the brain: independence of lyrics and tunes. Psychol Sci., 1998. 9(494-498).
[9]. Platel, H., Neuropsychology of musical perception: new perspectives. Editorial Oxford, 2002.
[10]. Steele, K.M., J.D. Brown, and J.A. Stoeker, Failure to confirm the Rauscher and Shaw description of recovery of the Mozart effect. Percept Mot Skills, 1999. 88(843-848).
[11]. Carstens, C.B., E. Huskins, and G.W. Hounshell, Listening to Mozart may not enhance performance on the revised Minnesota Paper form Board Test. . Psychol Rep, 1995. 77(111-114).
[12]. Hughes, J.R., et al., The "Mozart effect" on epileptiform activity. Clin Electroencephalogr, 1998. 29(109-119)。

发明内容

[0049] 本发明利用声学测试,获得用户个人的听力特征,分析得出用户的听力健康状况,再根据所述用户的听力特征,修改音乐文件,以使所述用户获得针对性、健康的、清晰的、好听的音乐。为实现以上目的,本发明的特征是:一组声学测试,包括心理声学测试或听觉生理学测试;用户的一组听力特征,通过所述的声学测试获得;一组声音处理器,根据所述用户的听力特征,处理、提供个性化的音乐。
[0050] 如前所述,每个人的听力差异巨大;如果一个人的听力在某些频率低于平均水平,那么这个人就无法听到音乐在所述频率的细节;这时,音乐欣赏者倾向于调大音量;大量的研究表明,音量过大,是导致听力永久性损伤的重要因素。这个矛盾,可以被本发明很好的加以解决。例如,如果用户在3000赫兹的听力低于平均水平,而1000赫兹的听力较好,则本发明自动把音乐中1000赫兹的能量,移动一些到3000赫兹,而不改变总能量;这样用个性化的能量分配,不仅更健康,而且提高了音乐的细节感和清晰度。从而,本发明使用户不必增大总音量,即可获得健康、适合自己的清晰音乐。
[0051] 本发明设计新颖巧妙、处理效果好、易于实施。附图说明
[0052] 附图1是等响曲线,曲线上的任何一点所发出的声音,人类听到的响度都相同,这条曲线的响度为80方(Phon)。
[0053] 附图2是本发明的一个具体实施例的结构示意图,它增强了个性化重低音。 [0054] 附图3是本发明的一个具体实施例的结构示意图,它实现了个性化的最佳均衡曲线。
[0055] 附图4是本发明的一个具体实施例的结构示意图,它实现了音乐的个性化空间感。
[0056] 附图5是本发明的一个具体实施例的结构示意图,它实现了心理声学空间感的测试。
[0057] 附图6是本发明的一个具体实施例的结构示意图,它实现了音乐的空间感随时间而变化的功能。
[0058] 附图7是本发明的一个具体实施例的结构示意图,它实现了心理声学群延迟的测试。
[0059] 附图8是本发明的一个具体实施例的结构示意图,它在音乐信号处理同时采用了个性化幅谱曲线和个性化群延迟。
[0060] 附图9是本发明的一个具体的时变频率信号的波形

具体实施方式

[0061] 在本发明的描述中,“或”具有包含性的意义,包含任何组合,所以“A、B或C”,包括下面的各种组合{“A” ,“B” ,“C” ,“A和B” ,“A和C” ,“B和C”,“A、B和C”}。本发明所提到“一个具体实施例”,意味着本发明一个特定的结构或特别的实现。而本发明各段落所提到的“一个具体实施例”,不一定指代同一个实施例。同时,本发明所提到的特定结构和特征,可以在一个或多个实施例上不受限制的以合适的方式组合。本发明可以运行在网页服务器上,也可以独立运行在用户终端上,或者通过打电话的方式进行,或者部分运行在网页服务器、部分运行在用户终端上、部分通过打电话的方式进行。本发明不仅包括系统和方法,还包括计算机程序和设备。本发明所提到所有具体实施例,均不对本发明的权利要求产生任何限定。
[0062] 在本发明的一个具体实施例中,一个心理声学测试包括多步;每一步有一个声音从用户设备中播放出来,如果用户听到了声音,则选“是”,否则选“否”;所述的心理声学测试,对左耳和右耳分别进行;最终左耳的结果和右耳的结果,分别进行比较,得出听力健康的报告。
[0063] 在本发明的一个具体实施例中,一个心理声学测试包括多步;每一步有2个或2个以上的声音从用户设备中播放出来;根据测试的要求,用户必须在多个声音中选择一个;所述的心理声学测试,对左耳和右耳分别进行;最终左耳的结果和右耳的结果,分别进行比较,得出听力健康的报告。
[0064] 在本发明的另一个具体实施例中,在心理声学测试的每一步中,用户可以多选一(即N 选1,N>1);也可以每一步随机播放一个刺激,而后采用用户打分的方法,统计出直方图,判断出用户的测试结果。
[0065] 在本发明的一个具体实施中,心理声学测试有多个(n>1)子测试组成;每个子测试,测量一个用户的听力特征;全部的所述子测试的特征,组成一个特征矢量;其中。 ,…, 是描述第1个子测试特征的数组, ,…, 是描述第2个子测试特征的数组,…,,…, 是第n
个子测试特征的数组。
[0066] 在本发明的一个具体实施中,心理声学测试由多个测试环节组成,每个环节的播放时间;一个测试环节结束之后,用户做出回答所需的时间为,然后再经过一段等待时间,另一个测试环节才开始进行;所述的等待时间 ,可以因人而异的选择,实现个性化;这个选择过程,可以是用户定制的,也可以由测试程序自动监测,动态配置。
[0067] 在本发明的一个具体实施中,心理声学测试由多个测试环节组成,每个环节的播放时间 ;一个测试环节结束之后,用户做出回答所需的时间为 ;如果在规定的等待时间 内,用户仍然未做出回答,则自动使用缺省回答,并进入下一个测试环节。
[0068] 在本发明的一个具体实施例中,心理声学测试的目标是获得响度增长曲线,检测用户的听力好坏;所述的响度增长曲线的获得,测试了多步;每一步中,用户对目前的声音的响度,进行主观打分;最后,测试的结果是一条客观音量到主观响度的映射曲线;所述的映射曲线,其斜率能够被用于检查听力好坏,如果斜率高于平均水平,则有听力受损发生;如果斜率低于平均水平过多,也是异常情况;所述的映射曲线;第二种用途如下,在多首歌曲播放的时候,或者多个音频节目播放的时候,实施自动音量控制,保证不同节目播放的音量能够自适应的个性化的调整。
[0069] 在本发明的一个具体实施例中,用户的听力门限,被加以测量;所述的测量中,有M个频率,被依次测量;第n个频率的听力门限的测量结果,作为第n+1个测量的初值;这样的做法,能够提高测试效率,加速收敛,减小测试时间。
[0070] 在本发明的另一个具体实施例中,用户使用所述的系统,检查自己的听力健康;所述的系统包括多步;每一步中,用户听到N个(N>2)声音;在这N个声音中,N-1个声音是同样的(称为参考声),只有一个特殊的声音与其它声音听起来不同;所述的N个声音被顺序播放;而特殊声音随机出现在其中一个位置;所有的声音播放结束之后,用户被要求在N 个声音中找出那个听起来不一样的声音;根据用户的回答正确或错误,测试的难度自动的加大或减小;当难度增加的时候,特殊的声音和参考声越来越相似,反之,难度减小的时候,特殊的声音和参考声差异越来越大;如果用户连续M 步(M为整数)回答都是正确的,则增大测试的难度,否则,降低测试的难度;所述的测试,跟踪了用户的听力能力;对跟踪曲线进行分段平均,就能够得到测试结果;所述的测试结果,代表了用户的听力状态和听力健康水平。
[0071] 在本发明的一个具体实施例中,用户使用心理声学测试,测试听力,建立个人听力的模型;所述的心理声学测试有2*L个子测试组成;所述的测试,一半对左耳,一半对右耳,使用的声音可以是纯音、噪音、带通噪音、带阻噪声、噪音中的纯音、带通噪音中的纯音或带阻噪声中的纯音。
[0072] 在本发明的一个具体实施例中,一个心理声学测试实施在用户上,并最终获得双耳的测试结果,该测试结果被用于一个分类算法,最终诊断和筛查听力的健康状况。 [0073] 在本发明的另一个具体实施例中,心理声学测试的结果,被用于声音疗法,提升记忆力及集中力,缓解自闭症或抑制癫痫
[0074] 在本发明的另一个具体实施例中,心理声学的测试结果,被用于配置一个专业的声音治疗设备,为用户实施相应的治疗。
[0075] 在本发明的一个具体实施例中,用户拨打一个电话做声学测试,定制个性化的音乐;接通之后,用户做声学测试;所述的声学测试由很多步组成;在每一步中,用户听到一个或多个声音,根据测试的要求,用户通过N 选一的方式做选择,或者通过打分的方式做出响应;所述的用户响应,可以是按下一个键,也可以是口头回答;在测试结束之后,所述的用户响应,被用来计算用户的听力特征;所述的听力特征,被用来为用户提供个人定制的音乐;一旦提取了用户特征,用户就可以获得多首定制过的、个性化的音乐。
[0076] 在本发明的另一个具体实施例中,用户通过拨打电话的方式进行声学测试,测试结果可以用不同的平台给用户反馈;所述的反馈,可以用语音的方式告知用户,也可以用短信的方式、网络的方式、或者纸面的方式;所述的反馈的内容,包含向用户推荐的一组歌曲,输出用户在所有人听力中的排名,提供用户听力健康的状态,对用户听力保健做出建议,对用户聆听的音乐的建议或者对用户日常听力保健习惯的建议。
[0077] 在本发明的一个具体实施例中,用户可以拨打电话或者上网的方式,定制个性化铃音;用户进入“歌曲库”,选取一首想用来做彩铃或炫铃的歌曲;所选的歌曲,其幅度谱和相位谱被处理成多种音乐效果,播放给用户听;所述的每一种音乐效果,用户加以打分;最高分的音乐效果,被记录下来,应用到所选音乐上;用户可以反复试听、选择,直到满意为止。
[0078] 在本发明的一个具体实施例中,用户在网络上进行声学测试,以获得推荐的音乐;所述的声学测试结果,与用户偏好、用户打分、用户选择歌曲的历史、用户个人信息、文字、年龄或性别,进行联合搜索,推荐适合个人的音乐。
[0079] 结合图2,详细说明本发明的一个具体实施例,但不对本发明的权利要求作任何限定。如图2,用户的听力学特征,被用于个性化重低音;输入音乐201,通过带通滤波器202,带通滤波器203,带通滤波器204被分成N个频段;所述的带通滤波器输出带通信号,到谐波发生器205,谐波发生器206,谐波发生器207;所述的谐波发生器的输出,进入到个性化相位器208;所述的个性化相位器208,包括相位谱调整器209,相位谱调整器210,相位谱调整器211;所述的相位谱调整器,其输出到个性化幅度器215;所述的个性化幅度器包括幅度谱调整器216,幅度谱调整器217,幅度谱调整器218;所述的幅度谱调整器的输出,被加法器219相加,成为输出音乐220。
[0080] 结合图3,详细说明本发明的另一个具体实施例。如图3,本发明被用来输出一个用户的最佳均衡曲线。图中所述的均衡器库是一个二维的矩阵,矩阵的第l行、第m 列的元素,是一组均衡曲线 ,其中,l表示第l个类型的歌曲,m表示第m种用户需求,n表示第n 条均衡曲线,f是频率。如图3,用户自己的歌曲301,或者歌曲库302中的歌曲,被选择成为所选歌曲203;所述的用户对此进行聆听,根据听觉感受,从列表中选择一个需要改进的选项304;所述的选项304,表明了用户对自己需求的主管描述;所述的描述,被用于从均衡器库305(由所有的 构成)读取所需的均衡曲线;所选歌曲303,经过歌曲分析和分类器306,输出分类信息到所述的均衡器库305;所述的均衡器库305,输出N 个具有不同音乐效果的歌曲307;所述的用户对N个歌曲307进行打分,获得分数308;最高分数的歌曲就是最佳的个性化音乐309,并同时输出的最佳均衡曲线310。
[0081] 所述的 构成为:m=1,用户需求为增加背景声效如雷声、火车声等;所述的均衡曲线是增强20-40赫兹的频率;所述的均衡曲线 是减弱20-40赫兹的频率。
[0082] m=2,用户需求为增强架子鼓的嘭嘭声、增强低音感觉;所述的均衡曲线是增强60赫兹-200赫兹,减弱100-4000赫兹,增加5000赫兹;所述的均衡曲线是增加泛音。
[0083] m=3,用户需求为增强大鼓的声音;所述的均衡曲线 是轻微增强80赫兹,所述的均衡曲线 是降低多轨录音中其它乐器的音量、包括降低电声吉他的
音量。
[0084] m=4,用户需求为增强低音,增强吉他、歌声与号的热烈感觉,或者增强这些乐器的充实感;所述的均衡曲线 是增强80-200赫兹;所述的均衡曲线 ,为了增强低音,可以减小350赫兹左右,提高800赫兹。
[0085] m=5,用户需求为增强低音同时增强高音;所述的均衡曲线 是轻微降低100-4000赫兹。
[0086] m=6,用户需求为增强音乐的热烈感觉;所述的均衡曲线 是增强120赫兹以下的频率,增强程度适中,避免出现浑浊感。
[0087] m=7,用户需求为增强音乐的隆隆声、增强电影音乐的爆炸声或者动作声、增加原声吉他和钢琴的音质;所述的均衡曲线 是轻微增强120-125赫兹,这是低音喇叭的上限,也是大鼓和低音吉他的下限,同时是原声吉他和钢琴的下限,而原声吉他的主体在
240赫兹,清晰度在2500-5000赫兹;所述的 轻微减弱120-125赫兹。
[0088] m=8,用户需求为增加音乐深度、增加歌声和乐器的呈现感;所述的均衡曲线是增强120-600赫兹的频率;所述的均衡曲线 是减弱120-600赫兹的频率。
[0089] m=9,用户需求为增强音乐中钹的感觉、减少音乐中的浑浊感觉;所述的均衡曲线是增强200赫兹; 所述的均衡曲线 是减弱200赫兹。
[0090] m=10,用户需求为充实小鼓的感觉、增强原声吉他的充实感、减弱歌声以减小;所述的均衡曲线 是增强240赫兹; 所述的均衡曲线 是减弱240赫兹。
[0091] m=11,用户需求为减弱鼓声中的“纸板”声、减弱低音吉他;所述的均衡曲线是减弱350-400赫兹频率; 所述的均衡曲线是增强350-400赫兹。
[0092] m=12,用户需求为增强呈现感、增强音乐的硬度;所述的均衡曲线 是增强600-3000赫兹频率,尤其是摇滚乐; 所述的均衡曲线 是减弱600-3000赫兹。
[0093] m=13,用户需求为增强低音吉他的打击感、减弱电声吉他的劣质声音;所述的均衡曲线 是增强800赫兹的频率;所述的均衡曲线 是减弱800赫兹的频率。
[0094] m=14,用户需求为增强大鼓的鼓槌的敲打感;所述的均衡曲线 是增强2000-4000赫兹频率;所述的均衡曲线 是减弱2000-4000赫兹频率。
[0095] m=15,用户需求为增强吉他真实的丝丝声、增强低音吉他的感觉;所述的均衡曲线是增强2500赫兹频率,尤其是弹弦/击弦弹奏风格;所述的均衡曲线是减弱2500赫兹频率。
[0096] m=16,用户需求为增强原声吉他和钢琴的清晰度;所述的均衡曲线是增强2500-5000赫兹频率;所述的均衡曲线 是减弱2500-5000赫兹频率。
[0097] m=17,用户需求为增强摇滚乐的响度、增加热烈感觉;所述的均衡曲线是增强3000-7000赫兹频率;所述的均衡曲线 是减弱3000-7000赫兹频率。
[0098] m=18,用户需求为增强音乐的歌声;所述的均衡曲线 是增强4000赫兹频率所述的均衡曲线 是减弱4000赫兹频率。
[0099] m=19,用户需求为增强架子鼓的打击感、为小鼓增加的清晰尖利感、减小背景声;所述的均衡曲线 是增强5000赫兹频率;所述的均衡曲线 是减弱5000
赫兹频率。
[0100] m=20,用户需求为增强钹的质量和准确性、增加歌曲的精确度、减小歌声中的咝声;所述的均衡曲线 是增强7000赫兹以上的频率;所述的均衡曲线是减弱7000赫兹以上的频率。
[0101] m=21,用户需求为增强钹、高帽钹音乐的亮度;所述的均衡曲线 是增强8000-12000赫兹频率;所述的均衡曲线 是减弱8000-12000赫兹频率。
[0102] m=22,用户需求为增强钢琴、风琴的清晰度;所述的均衡曲线 是增强10000赫兹频率;所述的均衡曲线 是增强10000赫兹频率。
[0103] 在本发明的另一个具体实施例,一个多轨录音的个性化混音如图3所示;所述的混音器的目的,是为了个人获得最大的音乐享受;所述的混音器,除了包含图3所述的均衡曲线 ,还增加了一个维度,就是乐器类型;所述的乐器类型是指吉他,钢琴,钹,高帽钹,大鼓,小鼓,架子鼓,风琴,歌曲等;根据不同的乐器类型,多轨录音在混音以前,可以对每一轨的乐器进行单独的均衡,均衡的方式如图3所示;最后,均衡后的单轨声再叠加在一起。
[0104] 在本发明的一个具体实施例中,心理声学测试结果,被结合于双耳效应,使人产生虚拟的空间感,把多轨录音中的歌声和多个乐器,在空间中排布开来,给人身临其境的感觉;如果在单轨录音的情况下,则单轨录音先被提取出歌声和多个乐器的声音,然后在空间排布;如图4所示,输入音乐401,通过音乐分析器,被分成N个空间信号,即空间信号403,空间信号404,空间信号405;所述的空间信号,分别进入个性化幅度均衡器406,个性化幅度均衡器407,个性化幅度均衡器408;所述的个性化幅度均衡器的输出,被个性化相位器409,个性化相位器411,个性化相位器412分别加以处理,在加法器412相加,成为个性化的音乐。
[0105] 在本发明的另一个具体实施例中,心理声学测试包含多步;每一步中,N个空间信号被播放出来,用户做出一个选择;根据所述的选择,在下一步中N个空间信号被播放出来;最终,测试结果可以显示用户的空间分辨能力;所述的空间分辨能力,可以用来个性化用户的歌曲,以产生个性化的、虚拟三维空间的感觉; 所述的具体实施例,如图5所示,空间心理声学测试501包含多步,在每一步,发射N个信号,即空间信号502, 空间信号503和空间信号504。
[0106] 在本发明的一个具体实施例中,音乐的个性化空间感,由图6的结构实现;音乐分析器分析出多个独立成分;所述的独立成分,是歌曲和多个乐器;然后随着节拍的提取,歌曲的声源可以指向虚拟空间中某一点;所述的指向性,随着时间的变化而变化,以重现歌手在舞台上的走动;这种移动,结合个性化幅度均衡器,以及个性化相位均衡器,给人以个性化的现场感;如图6所示,输入的音乐601,进入音乐分析器602,被分成N个空间信号;所述的N 个空间信号,是空间信号604,空间信号605,…,空间信号606;所述的音乐分析器602的第二个输出是音乐节拍603;所述的音乐节拍603,经过空间轨迹器613,产生随时间变化的空间轨迹,控制空间信号605,使用户的歌声随着时间变化位置,产生歌手走动的,歌声来自不同方向的感觉;所述的N 个空间信号的输出,分别连在个性化幅度均衡器607,个性化幅度均衡器608,…,个性化幅度均衡器609上;所述的个性化幅度均衡器,输出到个性化相位均衡器610,个性化相位均衡器611,…,个性化相位均衡器612上,由加法器614对信号进行相加,得到个性化的音乐615。
[0107] 用户通过用户设备,连接网络进行测试,获得测试结果;所述的测试结果,能够结合用户其它个人信息,为用户提供多种不同的个性化服务,包括听力健康咨询,网络音乐定制,音乐预处理,音乐疗法等。
[0108] 用户的声学测试,分为开放声场型和耳机型。前者是直接通过空气,播放给用户听;后者通过耳机,直接插入耳朵,覆盖在外耳,或者戴在头上收听。
[0109] 在本发明的一个具体实施例中,实验方式为开放声场型,播放激励音时,用户捂住一只耳朵,用另一只耳朵听取声音;测试一只耳朵结束后,换成另一只耳朵,重复测试。用户也可以使用耳塞或者声音隔绝工具,阻塞一只耳朵。对于本领域技术人员,选择使用耳塞的方法,是显而易见的,可以挑选噪声降低评级 (Noise Reduction Rating, NRR)高的耳塞。 [0110] 在本发明的另一个具体实施例中,声学测试使用开放声场型,对于双耳听力不平衡的用户,有一只耳朵A不好,另一只耳朵B明显较好;有可能这种情况,当测试耳朵A的听力、阻塞耳朵B时,因为需要的音量较大,导致耳朵B通过头部骨骼的漏音,听到一部分声音,这影响了对耳朵A的单耳测试效果。为求更好的测试效果,可以用一只耳机,对耳朵B播放掩蔽的噪音,同时对耳朵A进行测试。
[0111] 在本发明的另一个具体实施例中,快速测试的用户,可以在自由声场或者佩戴耳机时同时测量两个耳朵的联合听力,将测试时间减小一半。
[0112] 在本发明的一个具体实施例中,心理声学测试需要测量背景噪声的强度;在所述的测量中,用户的一只耳朵外露,另一只耳朵聆听耳机的声音。不限定性的举例,右耳外露,左耳通过耳机收听声音;耳机中的声音会逐渐增大音量,直到双耳感觉声音平衡时,用户停止测试;另一种测试方法是,耳机中声音的音量也可以从响亮到微弱,直到感觉双耳响度平衡,用户停止测试;又一种测试方法,耳机中的声音的音量,也可以从响亮到微弱,从微弱到响亮,反复多次,直到最后取算数平均值或几何平均值,即为背景噪声的强度。然后,左右耳交换位置,重复以上步骤,即可测得另一只耳朵的背景噪声强度。除非特殊的环境,左右耳的噪声强度是相同的;一旦两者有差异,则其中的一只耳朵有听力损伤。播放的声音,可以是噪音;也可以是滤波噪音,滤波噪音谱的形状,由用户个人的响应曲线决定,也可以由ANSI平均的响应曲线确定。
[0113] 在本发明的一个具体实施例中,声卡的影响在声学测试之前能够被消除掉;用户登录一个网站,用音频线把耳机输出口接在录音输入口上,点击开始,则网站播放一个或多个声音,同时录下声音;所述的录下的声音,被上传到网站,并加以分析,得到声卡的频谱响应曲线;根据所述的频率响应曲线,存在网站上,用于精准的校准该用户的心理声学测试结果;网站所播放的声音,可以是白噪声,滤波噪声,纯音,或者特定的声音文件如格雷码(Golay Code)。
[0114] 在本发明的另一个具体实施例中,声卡的影响,能够使用离线法来消除;用户下载一个或者多个声音文件,用音频线连接音频输出口到音频输入口;所述的声音文件,使用用户设备自带的播放软件播放,并同时用录音软件进行录音;最后,将录音文件用分析软件进行分析,即可获得声卡的频谱响应曲线,以校准而获得精准的心理声学测试结果。 [0115] 在本发明的一个具体实施例中,音乐设备被提前校准,以获得极为精确的心理声学测试结果;所述的音乐设备,可以从网上或者本机软件,依次播放一个特定的声音,可以是白噪声,滤波噪声,纯音;使用电压表,电流表,或者声强仪,调节音量,直到电压,电流,或者声压,达到耳机手册的标称值。
[0116] 在本发明的一个具体实施例中,用户的心理声学测试结果,通过数字水印技术,写在歌曲文件中,如写入mp3文件中;在歌曲播放的时候,需要具有解码功能的播放器;所述的播放器,解码数字水印,在播放的过程中调整歌曲的幅谱响应和相位谱响应,使用户获得实时的个性化享受。
[0117] 在本发明的另一个具体实施例中,用户的心理声学测试结果,被用数字水印技术,写在歌曲文件中,作为头信息;所述的头信息,具有防盗版功能,用户甲的播放器,无法播放用户乙的音乐文件。
[0118] 在本发明的一个具体实施例中,个性化幅谱曲线被提供给单个用户,处理输入的音乐流;所述的用户的双耳听力门限为 ,其中i=1表示左耳,i=2表示右耳,f 表示频率;所述的个性化幅谱曲线,使用 来均衡音乐,其中n, m均为整数;不加限制的举例, 的时候,均衡后的个性化音乐,给人的感觉清晰而且柔和。
[0119] 本发明的一个具体实施例中,可以随着响度的大小,自动调整均衡曲线的方法;将频带分割成符合人耳临界频带的方式,测量每个频带的能量,计算其响度,然后叠加起来。 [0120] 在本发明的一个具体实施例中,用户使用噪声中的纯音,获得自身的听力检测门限;利用此门限,获得一条幅度随着频率变化的曲线;所述的曲线,加入了掩蔽的效应,更加符合收听音乐时,用户个人对每个频段的感知能力;所述的曲线,可以被用于均衡,获得更加健康的歌曲和音乐。
[0121] 在本发明的一个具体实施例中,音乐信号处理采用了激励相位对齐技术,滤波输入的音乐流,获得个性化群延迟,从而使用户的音乐体验达到巅峰;所述的激励相位对齐技术,保证了每一个频率分量,到达耳蜗的时间,都是严格对齐的;对齐的相位,随频率变化而变化,其规律符合一个调频脉冲信号;不限定的举例,调频脉冲信号表达如下(公式2)
其中, 是群延迟时间,f是频率,k=4.78,a=165.4,d=1.1。根据群延迟时间,可以计算出相位延迟时间 ,方法如下
(公式3)
在本发明的另一个具体实施中,音乐信号处理采用了激励相位对齐技术,针对如下两个问题进行精细的修正;第一个问题是,个人的相位特性,与(公式2)的平均相位特性不完全吻合,这会破坏相位补偿关系;第二个问题是耳机带来附加的扭曲,则此补偿关系进一步遭到了破坏;所述的两种破坏有可能叠加在一起,或者单独存在,需要进一步适配,得到个性化的补偿;所述的激励相位对齐技术,利用降频的调频信号,根据图7所示的群延迟心理声学测试,搜索出用户最小可区别的降频速率;所述的最小可区别的降频速率,于公式(2)相比较,根据两者的差值,就能够计算出进一步相位补偿的程度;如图7所示,在群延迟心理声学测试中,时变频率信号702,时变频率信号703,…,时变频率信号704,共N 个信号发送给用户,用户聆听之后,被要求选择其中一个。
[0122] 在本发明的另一个具体实施中,音乐信号处理采用了激励相位对齐技术,采用如下方法做进一步的修正;用户采用听觉生理实验的方法,记录在播放纯音或带通噪声的条件下,测量出来的听觉脑干响应(Auditory Brainstem Response,ABR),畸变产物耳声发射(Distortion Product Oto-Acoustic Emissions,DPOAE),复合动作电位(Compound Action Potential,CAP)或脑电图(Electroencephalography,EEG),然后计算出个人的群延迟曲线;所述的群延迟曲线和公式(2)相比较;两者的差值,被用于得出个性化群延迟。 [0123] 在本发明的一个具体实施例中,音乐信号处理同时采用了个性化幅谱曲线和个性化群延迟,以使音乐满足用户独特的音乐欣赏要求,其步骤如图8,输入音乐801,通过个性化幅度谱均衡803;所述的个性化幅度谱均衡803,由一个心理声学测试802的结果控制;所述的输入音乐801,通过响度分析模型805,得到响度估计值804;所述的响度估计值804,控制了个性化幅度谱均衡803;所述的个性化幅度谱均衡803的输出,通过相位均衡806,得到输出音乐807。
[0124] 在本发明的一个具体实施例中,个性化群延迟信号可以被加以简化如下(公式4)。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈