Abstract
Perception of sound is associated with the use of multiple acoustic cues in the human auditory system. These acoustic cues can be classified by their temporal and spectral properties. Temporal information can be considered as a slowly varying envelope (ENV) superimposed on a more rapid temporal fine structure (TFS). Various sound-processing techniques have been developed to assess the role of acoustic information carried by temporal ENV and TFS information. Previous studies demonstrated that ENV cues are associated with speech recognition in quiet, while TFS cues have a role to melody/pitch perception and listening to speech in a competing background noise. Besides, a number of studies have shown that the relative insensitivity of hearing-impaired subjects to TFS information. Although current technologies used in cochlear implants are not efficient in delivering the TFS cues, new speech processing strategies have been proposed to deliver TFS information. We herein review the cutting edge of TFS related studies and discuss the clinical implication of TFS.
인간의 청각 시스템은 소리를 듣고 그 소리의 특징을 이해하는 과정에서 소리의 물리적인 특성을 다양한 청각학적 정보로써 이용한다. 소리의 물리적인 특성은 크게 시간적 특성(temporal property)과 스펙트럼 특성(spectral property)으로 구성되어 있다. 주파수 성분이 두 개 이상으로 구성된 복합음(complex tone)은 다양한 주파수 정보(스펙트럼 특성)와 각각의 주파수가 가지는 물리적 파형의 정보(시간적 특성)로 구성되어 있다. 와우에 도달한 소리 에너지의 다양한 주파수 정보들은 와우의 기저막(basila membrane of cochlea)의 물리적 필터링(bandpass filtering)을 통하여 특정 부위로 세분화되어 전달된다. 주파수별로 특정 부위로 세분화되어 에너지가 전달되기 때문에 와우의 기저막은 스펙트럼 정보를 분석해 주는 역할을 수행한다. 특정 기저막 위치에 도달한 각각의 주파수 파형이 갖는 시간적 정보(time signal)는 청각세포의 전기적 흥분, 동조 및 위상 변화 등을 통하여 청신경을 통해 대뇌로 전달된다.
소리 에너지에 융합된 주파수의 물리적 특징은 Fourier 변환을 통하여 각각의 주파수 정보, 즉 스펙트럼 정보를 추출할 수 있다. 이렇게 얻은 개개의 주파수 파형이 갖는 시간적 정보의 물리적, 청각학적 특징을 파악하기 위해서는 Hilbert 변환을 이용한다. Hilbert 변환, 즉 신호의 진폭 변화 없이 위상 변화를 유도하는 수학적 변형은 주파수 파형이 갖고 있는 정보를 느리게 변화하는 진폭 정보(포락선 정보, temporal envelope)와 중심 주파수에 근접한 빠른 진동 정보[미세구조, temporal fine structure(TFS)]로 세분화한다(Fig. 1) [1]. 인간의 청각 시스템은 포락선 정보와 미세구조 정보를 종합적으로 인식하고 기저막 전반에 걸쳐 전달되는 여러 주파수의 정보를 통합하여 복합음의 음량(loudness), 음조(pitch) 및 음색(timbre) 정보를 인지하게 된다.
소리의 시간적 특성 중 포락선 정보와 미세구조 정보는 모두 전기신호의 발생과 연관이 있다. 일반적으로 포락선 정보는 청각세포의 단기간 발화의 변동에 영향을 주고, 미세구조 정보는 전달되는 소리의 특별한 위상과 신경 발화의 동조화(위상 고정, phase locking)와 연관되는 것으로 알려져 있다[2]. 포유류에서 위상 고정은 4~5 kHz 이상의 고주파에서는 다소 약화될 수 있으나, 사람에서의 정확한 상한선은 밝혀지지 않았다.
본 리뷰에서는 시간적 미세구조 정보의 임상적 의의와 최근의 연구 동향에 대하여 기술하고자 한다.
음성의 인지에서 포락선 정보와 미세구조 정보는 각각 어떠한 역할을 하는지 평가하기 위하기 다양한 방법이 개발되어 적용되고 있다. 음성 인지에 대한 평가를 위해서는 1) 음성이 갖고 있는 여러 주파수의 정보를 세분화된 주파수 밴드로 나눈 후 2) 각각의 주파수 정보를 포락선 정보와 미세구조 정보로 나누어 각각의 정보가 음성 인지에서 갖는 의미를 평가한다. 이러한 방법 중 대표적인 것은 Smith 등[3]이 처음으로 고안한 “음성 키메라(speech chimeras)”가 있다(Fig. 2). 음성 키메라는 한 소리의 포락선 정보와 다른 소리의 미세구조 정보를 합성함으로써 생성된 인공의 소리 정보이다. 주파수 필터링을 통하여 얻은 각각의 소리를 Hilbert 변환을 통하여 포락선 정보와 미세구조 정보로 분리하였고, 서로 다른 소리의 포락선 정보와 미세구조 정보를 합성하여 음성 키메라를 형성하였다. Smith 등은 이러한 음성 키메라를 이용함으로써 포락선 정보는 음성 인지에 중요하고, 미세구조 정보는 음조 인식과 소리의 공간 지각에 중요한 역할을 수행한다는 것을 밝혀냈다.
다른 실험 방법으로는 음성에서 미세구조 정보를 최대한 보존하며 포락선 정보를 제거한 “미세구조로 구성된 음성(TFS-speech)”을 합성하여 음성의 인지 과정을 평가하는 방법이 있다(Fig. 3). Hilbert 변환을 통하여 음성 신호에서 포락선 정보와 미세구조 정보를 분리한 후 포락선 정보를 제거하면 음성은 주파수 변조 사인파(frequency modulations sinusoidal carrier)와 같은 형태를 갖게 된다. 이렇게 합성한 미세구조로 구성된 음성 정보를 이용하면 포락선 정보의 영향을 최소화하고 미세구조의 역할을 평가할 수 있다. 주의할 점은 음성의 변조 및 합성 과정에서 미세구조가 일부 변조될 수 있고, Ghitza 등[4]이 지적한 것과 같이 청각 필터의 출력 과정에서 미세구조로 이루어진 음성 정보에서 포락선 정보가 어느 정도 복원될 수 있기 때문에, 복원된 포락선 정보가 음성 인지에 영향을 줄 수도 있다. 이는 미세구조 정보의 역할이 과대평가될 수 있기 때문에 미세구조를 이용한 복원 정보의 영향을 최소화하기 위해서는 분석 필터의 대역폭(bandwidth)을 좁히는 것이 필요하다[5].
포락선 정보는 조용한 환경에서는 음성 인식에 필요한 정보를 충분하게 전달할 수 있으나, 소음 환경 속에서는 음성 인식에 충분한 정보를 제공하기 어렵다. 이는 음성 인식은 단지 포락선 정보만을 통하여 이루어지는 것이 아니며 미세구조 정보의 보조적인 역할이 필요함을 의미한다. 소음 환경 속에서 미세구조 정보의 역할은 이전의 연구를 통하여 제시되고 있으며, 특히 소음의 진폭이 진동하는 양상(fluctuating noise)에서 더욱 중요한 역할을 가지고 있음이 밝혀져 있다[6]. 주변 소음의 음향학적 특징이 진동하는 진폭을 갖게 될 경우, 일시적으로 낮은 진폭을 나타내는 순간을 “masking release”라고 하며, 이 기간에 신호 대 소음비(signal-to-noise ratio, SNR)가 상승하고 음성 정보를 좀 더 많이 인지하게 되는 “dip listening”과 관련이 있다(Fig. 4) [7]. 미세구조 정보는 효과적인 dip listening에 도움을 주어 소음 환경에서 포락선 정보가 제대로 전달되지 못할 때 음성 인지를 향상시키는 보조적인 역할을 수행하게 된다. 따라서 미세구조 정보가 전달되지 못할 경우 소음 환경에서의 음성 인지 능력은 제한되게 된다[8,9].
Hopkins 등[10]은 소음 환경 속에서 미세구조 정보의 중요성을 평가하기 위하여 음성과 소음을 적절한 SNR을 갖도록 합성한 후 100 Hz~10 kHz의 대역폭에 32개의 채널을 가진 필터를 5가지 형태(0, 8, 16, 24, 32채널)로 적용하였다. 컷오프 채널 이하의 소리는 모든 정보가 유지되었으나, 그 이상에서는 이후 각 채널을 통과한 신호는 Hilbert 변환을 통하여 포락선 정보를 확인 후, 이를 각 채널 중심 주파수에 맞는 사인파의 변조에 이용하였다. 이를 통하여 컷오프 채널의 숫자가 증가할수록 더 고주파 영역까지 미세구조 정보가 보존되었다. 이러한 변조음을 이용하여 소음 환경에서의 청력 역치 평가를 통하여 미세구조 정보가 좀 더 많이 포함될수록, 그리고 소음이 진동하는 진폭의 형태를 가질수록 소음 환경에서의 음성 인지 능력이 향상됨을 밝혀냈다.
최근에는 소리의 시간 정보들이 공간지각 능력과의 연관성에 대한 연구도 진행되고 있다. 인간은 다양한 소리가 존재하는 환경 속에서도 자기가 집중하는 소리 또는 음성에 집중(selective perception)할 수 있으며, 이를 칵테일 파티 효과(cocktail party effect)라고 한다. 이를 통하여 소음 환경 속에서도 공간지각(spatial release from masking) 및 이를 통한 선택적 인지 향상(improvement in target intelligibility)이 이루어질 수 있는데 이 과정에서 소리의 시간적 미세구조는 중요한 역할을 시행하고 있다. Swaminathan 등[11]은 소음과 음성을 다양한 각도에서 음성의 미세구조 정보를 제거하고 포락선 정보만을 포함한 소리와 정상적인 소리를 양이(binaural)로 각각 제시하여 공간지각과 선택적 인지 향상에 대하여 평가하였다. 이를 통하여 1500 Hz 이하의 주파수 범위에서는 양이로 전달되는 미세구조 정보는 소음 환경 속에서의 공간지각에 중요한 역할을 하고 있음을 보고하였다.
난청은 작은 소리의 인지, 즉 순음에 대한 인지 평가 시 역치가 증가되는 것을 특징으로 한다. 하지만 난청은 이외에도 다양한 청각학적 인지 능력의 저하가 동반된다. 예를 들어 난청 환자는 주변 소음이 존재하는 환경에서 음성 인지 능력이 저하되며, 음성의 크기를 충분히 증폭하여도 인지가 크게 향상되지 않는다[12]. 또한 Ching 등[13]의 연구를 통하여 소음 환경 속에서의 음성 인지 능력은 순음청력검사상의 역치와 중등도의 연관성만을 나타내었다. 이는 소음 환경 속에서 음성 인지 능력에 소리의 인지 저하 이외에도 다양한 요소가 영향을 미치고 있음을 나타낸다.
난청 환자에 따른 개인적인 차이가 크지만, 일반적으로 난청 환자에서는 청각 필터의 대역폭이 다소 넓어지고 시간적 미세구조 정보를 인지기능이 저하되는 것으로 밝혀졌다[6,14]. Moore는 난청 환자에서의 시간적 미세구조 정보 인지기능 저하의 기전을 다음과 같이 제시하였다[14]. 우선 난청 환자에서의 감소된 청각 신경섬유들의 숫자로 인하여[15], 소리 자극의 파형에 맞는 정확한 전기신호 구현이 제한될 수 있다. 또한 기저막의 물리적 특성의 변화로 인하여 적절한 위상 반응이 이루어지지 않을 수 있으며[16], 이는 기저막을 따라 다양한 지점에서 서로 연관성을 가지며 발생하는 전기신호를 통하여 분석되는 시간적 미세구조 정보의 인지에 어려움을 초래한다[17]. 이외에도 주파수 특이성의 감소, 청각 필터 대역폭의 증가와 청각중추에서의 억제 기전 변화 등이 시간적 미세구조 인지 저하와 연관되어 있다.
이러한 기전들을 확인하고 다른 요인들의 영향을 평가하고자 다양한 연구가 진행되고 있다. Hopkins와 Moore [14]는 양측 귀에서의 위상 차이 감별에 대한 검사(interaural phase difference discrimination, test of sensitivity to TFS at low frequencies test)와 배음과 주파수 변동 음의 구별검사(discrimination of harmonic and frequency-shifted tones, TFS2 test)를 이용하여 미세구조 정보의 인지가 단순히 청각 필터의 대역폭이 다소 넓어지는 것에 의하여 저하되는 것이 아니라 연령 등의 인자가 영향을 줄 수 있음을 보고하였다. Ananthakrishnan 등[18]은 두피에서 측정하는 주파수에 대한 반응 측정(scalp-recorded frequency following response)을 이용하여 난청 환자에서 포락선 정보와 미세구조 정보에 대한 청각 신경계의 전기 반응에 대하여 평가하였다. 이를 통하여 난청 환자에서는 정상인에 비하여 청신경계의 전기 반응이 약하게 표현되었음을 확인하였고, 이는 청각 필터의 대역폭 증가나 변화된 주파수-기저막 대응에 따른 위상 고정 반응의 약화 및 전기신호의 약화가 원인일 수 있음을 보고하였다.
인공 와우에서 소리의 시간적 정보의 전달은 소리 분석 및 재처리 기술(sound processing strategies)과 연관된다. 어음처리기를 통하여 외부의 소리를 다채널에 할당된 주파수별로 분석 후 전기신호를 전달하며, 이때 전기 신호의 전달 방식에 따라 시간적 정보를 어떻게 처리하여 전달하는지 결정된다. 가장 널리 사용되는 신호처리 방식인 continuous interleaved sampling(CIS) 방식은 외부의 소리를 밴드통과 필터를 통하여 각각의 필터에서 보정과 low-pass filtering을 거친 포락선 정보를 얻어낸다(Fig. 5). 여기서 low-pass filtering은 cut-off 주파수 이상의 주파수 부위를 감쇠시키기 때문에 신호 평활화(smoothing)가 이루어진다. 이 과정에서 신호에 포함된 미세구조 정보가 상당 부분 감쇠된다는 한계가 있다. 이를 통하여 인공 와우는 진폭 변조(amplitude modulation, AM) 정보를 효과적으로 전달하여 조용한 환경에서 어음 인지를 향상시킬 수 있었으나, 소음 환경에서의 음성 인지 능력 향상에 제한점이 되고 있다. 앞에서 기술한 것과 같이 소음 환경에서의 음성 인지에서 중요한 역할을 시행하는 미세구조 정보가 감쇠된 상태의 정보이기 때문이다. 이러한 문제를 해결하기 위하여 전기 신호의 전달 빈도를 증가시키고 높은 주파수 필터링을 시행하는 것을 고려할 수 있으나, 일반적으로 인공 와우의 전기신호 발생 기술로는 전기신호의 전달을 300 Hz 이상으로 구현하기 어려워 효과적인 미세구조 정보를 전달하기 어렵다[19].
따라서 이러한 한계를 극복하기 위하여 다양한 신호처리 기술이 제안되고 있다. HiRes 어음처리 방식은 상대적으로 높은 cut-off 주파수와 진동 빈도를 이용하여 미세구조 정보 전달을 개선하고 있다. Nie 등[20]은 진폭과 주파수 변조(frequency modulation, FM)를 포함하여 정보를 인코딩하는 방식을 제안하였다. 이를 통하여 느리게 진동하는 FM 신호와 빠른 변화를 갖는 미세구조 정보를 같이 전달할 수 있었으며, 이는 babble noise 환경에서 문장 인지력의 71%를 향상시킬 수 있었다. Li 등[21]은 harmonic-single-sideband-encoder 방식을 고안하였다(Fig. 6). 음성 속의 배음(harmonics) 정보를 추출하여 진폭 변조(AM)와 기본 주파수 정보를 변환하여 전달하였다. 이를 통하여 기존의 CIS 방식에 비하여 음조와 음색 인지에서 모두 유의한 호전을 나타냈다. 이외에도 Med-El에서 개발한 fine structure processing(FSP) 방식은 기존과 다른 bell-shaped frequency response filter를 사용하여 전극의 첨부 3개의 채널에서 미세구조 정보에 맞추어 다양한 빈도로 전기 자극을 전달함으로써 미세구조 정보를 일부 전달할 수 있도록 고안하였다(Fig. 7). 14명의 인공 와우 이식 환자를 대상으로 CIS와 FSP 전략을 비교한 연구에서 환자들은 FSP 사용 시 어음 인지 및 음악 인지 점수가 향상되었음을 보고하였다[22].
음성 정보의 시간적 미세구조의 임상적 의의가 점차 알려지고, 이를 평가하는 방법들이 개발되면서 시간적 미세구조와 다른 보조적인 정보들의 역할을 평가하는 연구도 진행되고 있다. Stacey 등[8]은 대화 시 화자의 얼굴이나 표정과 같은 시각 정보가 시간적 미세구조 정보와 음성 인지에 대해 어떠한 상호작용을 하는지 평가하였다. 연구자들은 소음 환경 속에서 시간적 미세구조 정보를 제거하거나 포함된 소리를 주었을 때 시각 정보의 청각학적 이득이 어느 정도인지 평가하였다. 그 결과 시간적 미세구조 정보가 제거된 상태에서 시각 정보의 이득이 더욱 크게 나타났다. 이를 통하여 시간적 미세구조 정보가 제거되거나 소음으로 인하여 청각 정보가 제한적으로 전달되는 환경 속에서 좀 더 시각 정보를 받아들여 음성 인지를 강화하는 활동이 이루어짐을 확인하였다. 이외에도 Li 등[23]은 고주파에 국한된 감각신경선 난청(steep high-frequency sensorineural hearing loss)에서 저주파 영역의 미세구조 정보 이용을 평가하는 연구를 통하여 저주파 영역의 청력 역치가 정상이었음에도 불구하고 고주파 난청 환자에서는 음성 인지 능력이 저하되었음을 확인하여, 정상 역치의 저주파 영역의 신경기능이 일부 변화된 상태일 가능성을 제시하였다.
REFERENCES
1. Moore BC. The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people. J Assoc Res Otolaryngol. 2008; 9(4):399–406.
2. Joris PX, Yin TC. Responses to amplitude-modulated tones in the auditory nerve of the cat. J Acoust Soc Am. 1992; 91(1):215–32.
3. Smith ZM, Delgutte B, Oxenham AJ. Chimaeric sounds reveal dichotomies in auditory perception. Nature. 2002; 416(6876):87–90.
4. Ghitza O. On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception. J Acoust Soc Am. 2001; 110(3 Pt 1):1628–40.
5. Lorenzi C, Gilbert G, Carn H, Garnier S, Moore BC. Speech perception problems of the hearing impaired reflect inability to use temporal fine structure. Proc Natl Acad Sci U S A. 2006; 103(49):18866–9.
6. Hopkins K, Moore BC, Stone MA. Effects of moderate cochlear hearing loss on the ability to benefit from temporal fine structure information in speech. J Acoust Soc Am. 2008; 123(2):1140–53.
7. Vélez A, Bee MA. Dip listening and the cocktail party problem in grey treefrogs: signal recognition in temporally fluctuating noise. Anim Behav. 2011; 82(6):1319–27.
8. Stacey PC, Kitterick PT, Morris SD, Sumner CJ. The contribution of visual information to the perception of speech in noise with and without informative temporal fine structure. Hear Res. 2016; 336:17–28.
9. Ihlefeld A, Deeks JM, Axon PR, Carlyon RP. Simulations of cochlear-implant speech perception in modulated and unmodulated noise. J Acoust Soc Am. 2010; 128(2):870–80.
10. Hopkins K, Moore BC. The contribution of temporal fine structure to the intelligibility of speech in steady and modulated noise. J Acoust Soc Am. 2009; 125(1):442–6.
11. Swaminathan J, Mason CR, Streeter TM, Best V, Roverud E, Kidd G Jr. Role of binaural temporal fine structure and envelope cues in cocktail-party listening. J Neurosci. 2016; 36(31):8250–7.
12. Moore BC, Peters RW, Stone MA. Benefits of linear amplification and multichannel compression for speech comprehension in backgrounds with spectral and temporal dips. J Acoust Soc Am. 1999; 105(1):400–11.
13. Ching TY, Dillon H, Byrne D. Speech recognition of hearing-impaired listeners: predictions from audibility and the limited role of high-frequency amplification. J Acoust Soc Am. 1998; 103(2):1128–40.
14. Hopkins K, Moore BC. The effects of age and cochlear hearing loss on temporal fine structure sensitivity, frequency selectivity, and speech reception in noise. J Acoust Soc Am. 2011; 130(1):334–49.
15. Kujawa SG, Liberman MC. Adding insult to injury: cochlear nerve degeneration after “temporary” noise-induced hearing loss. J Neurosci. 2009; 29(45):14077–85.
16. Henry KS, Kale S, Heinz MG. Distorted tonotopic coding of temporal envelope and fine structure with noise-induced hearing loss. J Neurosci. 2016; 36(7):2227–37.
17. Shamma S, Klein D. The case of the missing pitch templates: how harmonic templates emerge in the early auditory system. J Acoust Soc Am. 2000; 107(5 Pt 1):2631–44.
18. Ananthakrishnan S, Krishnan A, Bartlett E. Human frequency following response: neural representation of envelope and temporal fine structure in listeners with normal hearing and sensorineural hearing loss. Ear Hear. 2016; 37(2):e91–103.
20. Nie K, Stickney G, Zeng FG. Encoding frequency modulation to improve cochlear implant performance in noise. IEEE Trans Biomed Eng. 2005; 52(1):64–73.
21. Li X, Nie K, Imennov NS, Rubinstein JT, Atlas LE. Improved perception of music with a harmonic based algorithm for cochlear implants. IEEE Trans Neural Syst Rehabil Eng. 2013; 21(4):684–94.