|
||||||
|
|
|
产品展示 | ||||||||||||||||
友情链接 申请友情链接请联系QQ:735589102 | ||||||||||||||||
|
||||||||||||||||
Copyright @2009 All rights Reserved 厦门益耳医疗器械有限公司 版权所有 闽ICP备10028167
【厦门思明区助听器】|【厦门湖里区助听器】|【海沧助听器】|【翔安助听器】|【同安助听器】|【集美助听器】|【杏林助听器】 手机:13950181258(微信同号) 电话:0592-5566848 厦门益耳助听器中心,厦门助听器元老,福建难找自有店面经营、至专业的厦门助听器专卖店 地址:厦门思明区仙岳路452号松柏湖花园9号铺(松柏侨建花园、交通银行、松柏欧菲整形医院正对面) 公交地图等详见网站最上方"联系我们"栏目 打造厦门助听器|泉州助听器|漳州助听器|福州助听器|莆田助听器|石狮助听器|晋江助听器|龙海助听器|龙岩助听器|宁德助听器|三明助听器|南平助听器|安溪助听器等福建领航助听器验配 |
听力学时域包络和时域精细结构
作者:董倩倩 李孛
一、时域包络(Temporal envelope)和时域精细结构(temporal fine structure)是什么?
人耳对语音的感知除了频率、强度以外,时间也是一个重要的线索。通过感知连续的语音信号,人耳能理解各种复杂的信息包括语音信号中的语调、情感等等。分析语音信号是一个复杂的过程,通常涉及到信号处理、声学、听力学及语言学等多个领域的知识。
目前对于语音信号的特征提取通常从两个方面出发,一个是频谱特征的提取,另一个则是时域特征的提取。
图1是一段语音语谱图,它提供了语音信号在不同时间点的频率分布和强度情况,使得我们能够同时观察到语音信号的时域和频域特性。
图 2 上图显示了一段短句的时域波形,横坐标为时间,纵坐标为幅值。查看声音波形,我们看到信号幅值随时间的起伏变化。有些变化可以非常迅速地发生【蓝色部分】,而另一些变化则发生得更慢【红线部分】。如果我们将时间轴放大,在0.3秒内观察蓝色部分,我们会看到随时间快速波动变化的声音信号(图2 下图)。通过傅里叶变换后,我们就可以获得该语音信号的所有频率信息。
图 3 为了进一步研究听觉系统是如何处理随时间变化的信号,我们录制一段时间的语音信号(如图3上图),经过声学信号的傅里叶变换,分解声音信号并分析其中包含的各种频率成分。经过快速傅里叶变换后的频谱图如图3下图。
通过傅里叶变换将一段时间的语音信号按照频率进行分解后,研究者发现声音信号的的频率分布特征较明显,将波动速率2~50Hz(即较慢的波动)归为时域包络信息(Temporal envelope,ENV),在图2中,时域包络线由红色轮廓表示;频率在50~500Hz的时域信息归为周期性波动信息;频率500~10000Hz的时域信息归入时域精细结构信息(temporal fine structure ,TFS),在图 2中,时域精细结构由蓝线表示[1]。可以说,一个声音包括两组信息,由时域精细结构表示的频谱,以及由这些频率的振幅如何随时间变化的时间包络。
1、时域包络(Temporal envelope,ENV)
ENV指的是声音幅度随时间慢速变化的部分,代表了语音的能量波动,它包含了语音的节奏和强度变化信息。对于语音来说,最重要的ENV频率是低于16赫兹的,这对应于音节的波动频率[2]。ENV的变化通常发生在相对较长的时间尺度上,实验表明[3],即使在原始频谱信息和TFS严重退化的情况下,也是可以通过与ENV相关的线索进行语音识别[4]。这也为助听器更好帮助听损人群识别语音提供了思路。
2、时域精细结构(temporal fine structure ,TFS)
TFS描述了声音信号中瞬时频率的变化,可以在毫秒甚至微秒级别,代表语音的频谱成分。这些变化对应于声音的微观特征,如音高感知和声音的细腻质地,乐器的音色和人的音色。在复杂的听觉场景中,TFS帮助我们区分不同乐器的声音或在背景噪音中识别语音。声音的TFS敏感性对于理解语音很重要,尤其是在存在背景噪声的情况下[5]。此外,由于TFS信息包含了与声调相关的频率信息,在汉语这类声调语言中,TFS信息尤为重要[6]。
3、周期性
周期性波动信息是指语音信号中的周期性成分,如基音和谐波。这些周期性成分是语音产生的重要特征,它们与语音的共振峰和音高有关。周期性波动信息对于语音的自然度和清晰度有重要影响,它们在语音合成和语音编码中起着关键作用。
从上面我们已经了解了时域包络与时域精细结构在声学信号分析过程中的具体特征,那么,在听力学具体的应用情境下,它们又有什么作用呢?
1、助听器等听觉辅助设备
ENV和TFS的信息在性质上是互补的,研究表明对于安静的环境(信噪比高),ENV的贡献更大;而对于更嘈杂的环境(信噪比低),则TFS的贡献更大[7]。
对于正常听力人群而言,90%以上的言语信息来自于TFS;而随着听损程度的加重,听障人群感知TFS的能力降低,因而会更加依赖ENV信息实现言语理解。重度及以上听损患者主要依赖于ENV信息。在助听器等听觉辅助设备中,优化ENV和TFS的处理,可以显著提高听力受损者的语言理解能力和音乐欣赏体验。
降噪是助听器进行言语处理中的关键步骤。在日常生活中,环境噪声多集中在低频区。当助听器对环境噪声进行滤波处理时,往往会过滤掉一部分语音信号中的包络信息。上文提到,听障人群更多依赖言语中的包络信息实现言语理解,因此降噪过程中过滤的这部分语音包络信息也会造成听障人群的言语理解困难。如果能在降噪前,将语音包络信息提取出来,降噪处理结束后,再将提取的包络信息还原,相信对听障人群的言语理解一定会有帮助。
人工耳蜗与助听器的不同之处在于,整个听觉被直接电刺激听觉神经所取代,这是通过放置在耳蜗内的电极阵列实现的。人工耳蜗中几乎所有的信息都是通过不同通道中的ENV来传达的[8]。由于存在技术限制,无法将更多的时域精细结构信息通过电极传达到听神经,这也造成了耳蜗植入者在噪声下的言语理解困难。
2、ASSR(听觉稳态诱发电位)
在ASSR测试中,我们采用的刺激声是调制信号,这些信号通过在一个固定载波上(通常为500Hz、1000Hz、2000Hz和4000Hz的纯音)加载不同程度和频率的调制波(通常为75~110Hz的纯音)形成。调制可以分为幅度调制(AM,简称为调幅)和频率调制(FM,简称为调频)。
以1000Hz的载波Fc为例(图4上),调幅波为100Hz(图4中),经过调制最终得到的信号(图4下)。不难看出,调幅波的波形可以看作是最终呈现的调制信号的时域包络。
图4 ASSR测试中的给声信号主要是通过不同频率的时域包络的慢速变化来激活耳蜗基底膜上的毛细胞,并产生与这些变化相对应的神经电活动,从而诱发出稳态的脑电反应。这种反应可以用来评估听觉系统的功能状态,尤其是在确定听力阈值方面。
厦门哪里有卖助听器?厦门助听器-益耳助听器中心,真正近30年助听器验配经验,新手验配5000千名用户,世界六大品牌助听器应有尽有,自有店面稳定厦门助听器专卖店,欢迎前来免费咨询免费试听。
相关阅读:了解3大经典助听器验配公式