Journal List > Korean J Otorhinolaryngol-Head Neck Surg > v.61(1) > 1157089

인공와우 환자의 범주 지각에 대한 행동적 지각과 신경학적 상관성

Abstract

Background and Objectives

Although many cochlear implant (CI) recipients receive significant benefits from using the implants, speech perception ability is still known to vary among CI users, and the variability is closely related to the ability of users to process temporal information. As one of the important temporal cues for speech perception in CI users, voice onset time (VOT) can be used to examine behavioral perception and neural correlates of temporal processing. In this study, we measured categorical perception and N1-P2 cortical auditory evoked potentials (CAEPs) using a /ba/-/pa/ VOT continuum in CI users as well as in normal-hearing (NH) listeners.

Subjects and Method

Ten CI subjects and 11 NH controls participated in syllable identification tasks and in electroencephalography recording. CI subjects were divided into two groups, which were ‘good’ and ‘poor’ performers based on their speech perception scores. The stimuli used in both experiments were a synthetic /ba/-/pa/ VOT continuum. The identification boundary and N1-P2 peak-to-peak amplitude were measured for each subject group.

Results

Behavioral results revealed that poor CI performers had a delayed identification boundary compared to NH listeners and good CI performers. However, N1-P2 peak-to-peak amplitudes in both good and poor CI performers were significantly smaller than those in NH group.

Conclusion

N1-P2 amplitudes reflected decreased auditory cortical activity of temporal cues in CI users. The categorical perception of good CI performers was similar to that of NH listeners, whereas their cortical responses were decreased to the level similar to that of poor CI performers. This finding indicates that CAEPs would be more sensitive to altered temporal processing of CI users than to behavioral measures.

서 론

인공와우(cochlear implant, CI)는 보청기 적합이 어려운 양측 고심도 감각신경성 난청을 가진 아동 및 성인에게 청각 정보를 제공하는 방법으로, 정상적인 귀에서의 소리 전달 방식과는 달리 송화기로 유입된 소리 정보를 전기신호로 바꾸어 와우 내에 삽입된 전극으로 보내 소리 정보를 중추 청각 시스템으로 전달한다[1,2].
CI 시스템의 기술적 역량은 지속적으로 향상되고 있고 다수의 사용자들은 이식을 통해 상당한 이점을 얻고 있지만 말지각력의 개인차는 매우 크다. 음향심리학적 연구에 따르면 CI 사용자에서 소리의 시간적 단서(temporal cue)를 처리하는 수행 능력이 어음인지 수행 능력과 유의미한 상관관계가 있다고 보고하였고[3,4], 실제 대부분의 CI 사용자들에게서 스펙트럼 정보(spectral information)가 제한되더라도 충분한 시간적 정보가 주어질 경우 향상된 어음인지 결과를 보이는 것이 확인되었다[5]. 따라서 CI 사용자의 시간 정보 처리에 대한 연구는 CI 환자 간 말지각력 차이의 원인을 이해하는 데 중요한 정보를 제공하며, 궁극적으로 이식 후 어음처리방식이나 효과적인 청능훈련에 도움을 줌으로써 CI 사용자의 어음인지 수행 능력을 향상시킬 수 있다.
CI 사용자의 시간 처리 능력을 이해하기 위해서는 효과적인 측정 방법이 요구된다. 대부분의 CI 관련 선행 연구에서는 행동측정방법(behavioral method)을 사용하였는데 이는 피실험자의 자발적인 응답에 의존하기 때문에 CI의 이득에 대한 다양성의 원인을 파악하기에는 제한적이다. 반면 비침습적인 방법인 뇌전도(electroencephalography, EEG) 측정은 functional magnetic resonance imaging이나 positron emission tomography와 같은 뇌 이미지 영상 기법과는 달리 자극에 대한 대뇌피질 활동을 높은 시간해상도를 가지고 측정할 수 있으며 CI와의 호환성이 좋아 CI 사용자를 대상으로 청각피질에서 어떻게 소리의 시간 정보가 처리되는지를 확인할 수 있는 효과적인 측정 방법이다[6]. 소리를 통해 유발된 청성유발전위(auditory evoked potentials, AEPs) 중 대뇌 청성유발전위(cortical auditory evoked potentials, CAEPs)는 자극 이후 70~250 ms의 잠복기를 지닌 음의 정점(negative peak)인 N1과 양의 정점(positive peak)인 P2가 나타나는 특징을 가진다. 이 CAEPs는 시간 변화 매개 변수를 포함한 복합적인 자극음에 의해서도 유발되며[7,8], 자극음에 대한 피험자의 집중을 필요로 하지 않는다[9]. 또한 기존의 AEPs에 비해 어음인지 수행력과 깊은 연관성을 보이며[10], CI 경험에 따른 뇌 가소성을 반영할 수 있다는 점 때문에 최근 CI 연구자들에게 주목받고 있다[11,12].
CI 사용자의 어음인지에서 가장 중요한 시간적 단서 중 하나인 음성유발시간(voice onset time, VOT)은 발성을 위해 닫힌 입이 열리는 순간부터 성대의 진동이 개시되기까지의 시간을 의미한다[13]. VOT는 어음인지 시 초성 파열음을 구별하고 분류하는 데 사용되는 중요한 시간 단서로 일반적으로 유성자음에서는 짧은 VOT를 가지고 무성자음에서는 긴 VOT를 가진다[14]. 예를 들어 영어에서 /da/와 같은 유성자음의 VOT는 약 0 ms로 짧게 나타나고 /ta/와 같은 무성자음은 약 70 ms의 더 긴 VOT를 보인다. 그리고 이러한 VOT의 특징은 대뇌에 위치한 뉴런의 활동을 측정하는 CAEPs를 통해서도 반영될 수 있다[15-18]. 특히 어음을 사용한 CAEPs 측정은 CI 사용자들에게서 시간적 단서에 대한 뉴런 활동을 측정할 수 있는 중요한 도구로 알려져 있다. 기존 연구에 따르면 CAEPs의 N1이 발성 시작점(voice onset)을 반영할 수 있다는 것을 확인하였고[6,19], VOT가 길어질수록 N1-P2의 잠복기는 지연되고[20,21] 진폭은 감소되는 것을 확인하였다[22,23]. 하지만 이 연구들은 표본 크기가 작고 서로 다른 언어를 사용하는 피험자를 조사하였다는 점에서 일관성 있는 결과로 해석하기에는 한계가 있으며 아직까지 VOT 카테고리(continuum)에 따른 CAEPs의 체계적인 변화를 확인한 연구는 보고되지 않고 있다. 따라서 모두 동일한 언어를 사용하는 CI 사용자를 대상으로 CAEPs를 통해 어음의 시간적 변화를 처리하는 것을 확인한다면 CI 사용자의 어음인지 처리에 대한 일관적인 신경학적 정보를 얻을 수 있을 것이다. 또한 CAEPs 결과와 행동검사 결과 사이에 의미 있는 연관성을 확인한다면 CAEPs를 통해 어린이나 신체적·인지적 장애가 있는 사람들과 같이 행동검사에 참여할 수 없는 개인을 대상으로 CI의 이득을 객관적으로 평가할 수 있을 것으로 예측된다.
따라서 본 연구는 영어를 모국어로 사용하는 CI 사용자와 정상청력인을 대상으로 시간 단서인 VOT가 변화하는 /ba/-/pa/ 카테고리 내의 자극음을 변별하도록 하며, 동시에 CAEPs를 측정하여 그룹에 따른 행동학적 변별 결과와 N1과 P2의 잠복기와 진폭을 비교한다. 변별 능력에 따른 그룹 비교를 위해 CI 사용자를 우수(good)군과 저조(poor)군으로 나누고 대조군으로는 정상청력군을 추가하여 세 그룹의 CAEPs와 행동검사가 임상적인 연관성을 보이는지를 확인하고자 한다.

대상 및 방법

대 상

본 연구의 대상자는 영어를 모국어로 하는 오른손잡이의 단측 CI 사용자 10명(남 4명, 연령범위: 32~74세, 평균: 49.6세)과 정상청력을 가진 성인 11명(남 4명, 연령범위: 20~42세, 평균: 31세)이었다. CI 사용자들은 승인된 임상시험윤리위원회 프로토콜에 따라 모집되었으며 적어도 1년 이상 검사 귀에 CI를 착용한 성인을 대상으로 하였다(IRB No. 2017-I100). 10명의 CI 사용자 중 2명은 언어습득 전(prelingual) 난청, 8명은 언어습득 후(postlingual) 난청을 가진 성인으로 모두 술 전 양 귀에 심도에서 고도의 청력손실을 가졌다. 실험 시 모든 CI 대상자는 왼쪽 혹은 오른쪽 귀 중 청력 역치가 더 낮은 귀(better ear)에만 CI를 착용한 상태로 모든 검사를 실시하였다. CI 대상자의 연령, 성별, 착용 귀, 착용 기간, 보장구 세부 정보, 소음하 문장인지도(speech perception in noise, SPIN) 검사 결과 및 결과에 따른 그룹 정보는 Table 1에 제시하였다. 건청인 11명은 모두 양이 순음청력검사 결과 250~8000 Hz까지 옥타브 단위 주파수에서 20 dB HL 이하의 청력을 보였다. 모든 참여자는 동의서 서명 후 실험에 참여하였으며 참여에 대한 보상이 지급되었다.

자극음

자극음은 하스킨스 연구소(Haskins laboratories)가 개발한 Abramson/Lisker VOT 자극음에서 수정된 6 단계의 /ba/-/pa/ VOT 카테고리로부터 얻어진 음절로, 이 6개의 음절은 각각 0~50 ms까지 10 ms 간격의 VOT를 가진다(http://www.haskins.yale.edu/featured/demo-liskabram/index.html). Fig. 1은 본 연구에서 사용된 VOT 카테고리의 스펙트로그램과 파형을 보여준다. 모음 /a/로 구성된 자극음의 총 지속시간(180 ms)을 모두 동일하게 유지하기 위해 각 자극음의 안정구간(steady-stated portion) 내에서 VOT를 조절하였다. 자극음은 Tucker-Davis Technologies를 통해 호환 가능한 디지털 사운드 파일로 변환하여 사용하였고, Bruel and Kjaer 2260(Bruel & Kjaer, Naerum, Denmark) 사운드 레벨미터를 사용하여 보정하였다.

절 차

행동검사

CI 및 정상청력군은 AEP 측정 전 친숙화과정(familiarization)을 위해 연습 세션으로 /ba/-/pa/ 카테고리에서 6개의 VOT를 가진 자극음 변별을 총 20회 수행하였다. 본 실험에서는 AEP 측정과 동시에 각 VOT 자극음을 듣고 어떤 음이었는지를 ba 혹은 pa 버튼을 눌러 표시하도록 하였고, 반응에 대한 피드백은 제공하지 않았다. 정상청력군은 각 자극음당 200회의 변별을 수행하였고, CI군은 파일럿 연구를 통해 명확한 청각피질 반응을 위해서 최소 400회 이상이 제시되어야 한다는 결과를 토대로 각 400회의 자극음을 변별하였다. CI 환자군을 위한 자극음은 총 2400개로 16세션으로 나누어 각 세션당 150회씩 무작위로 제시되었고, 행동검사의 소요 시간은 평균 1.5시간으로 각 세션 사이에 휴식 기간이 주어졌다. 자극음 사이 구간(inter-stimulus interval)은 1.5초로 고정하였고 모든 음향 자극은 가장 편안한 수준의 크기인 쾌적강도레벨(most comfortable level, MCL)로 피험자의 귀 높이에서 정면으로 1.5 m 거리에 위치한 스피커를 통해 제시되었다.
CI 환자군은 우수(good)군과 저조(poor)군의 두 그룹으로 구별하기 위해 SPIN 검사를 수행하였다. 조용한 상황에서 총 50개의 문장이 제시되었고 피험자는 문장 속 단어를 반복하여 따라 말하도록 하였다. 소리 전달은 모든 CI 피험자의 한쪽 귀를 통해서만 진행되었고, 비검사 귀는 귀마개를 통해 차폐하였다. 정확하게 변별된 단어의 수와 문장의 수는 백분위로 정량화되어 0~100% 범위의 점수로 계산되었으며 총 10명의 CI 피험자는 백분위 점수에 근거하여 두 개의 하위 그룹으로 나뉘었다. 결과적으로 저조(poor)그룹은 40점 이하의 SPIN 점수를 가진 4명의 CI 환자가, 우수(good)그룹은 60점 이상의 SPIN 점수를 가진 6명이 포함되었다.

EEG 측정

EEG는 64채널 actiCHamp Brain Product 시스템(Brain Products GmbH, Munich, Germany)을 통해 전극이 부착된 캡을 두피에 씌워 기록하였다. 기준 전극은 정점(Cz)과 동일하게, 그리고 접지 전극은 비근점(nasion)까지 거리에서 50% 중간지점에 위치하도록 조절하여 측정하였다. 데이터 측정을 위한 샘플 주파수는 1000 Hz였고 모든 데이터는 오프라인 분석을 위해 저장되었다.
어음은 행동검사와 동일하게 피험자로부터 1.5 m 앞 정면에 위치한 스피커를 통해 MCL 수준의 크기로 방음실 안에서 제시되었다. 모든 환자는 왼쪽 혹은 오른쪽 귀 중 청력 역치가 더 낮은 귀에 인공와우를 착용한 상태로 EEG와 SPIN 검사를 실시하였다. 어음이 제시되는 동안 피험자는 자막이 있는 무성영화에 집중하여 소리자극을 무시하도록 하였다. 각 VOT 자극음당 200회씩 총 1200회의 자극음이 정상청력군에게 제시되었고, CI 환자군은 VOT 자극음당 최소 400회씩 총 2400회의 자극음이 4개의 세션에 걸쳐 제시되었다. EEG 측정 완료 시 FastTrak 3D digitizer(Polhemus, Colchester, VT, USA)를 사용하여 각 피험자의 정확한 전극 위치를 기록하였다. 모든 자극음은 무작위로 제시되었으며, 측정 시간은 평균 1.5시간으로 각 세션 사이에 휴식 시간이 주어졌다.

데이터 처리

EEG 데이터의 전처리 및 분석은 Brain Vision Analyzer 2.0(Brain Products GmbH)을 사용하였다. 측정된 EEG 데이터는 먼저 고역필터(high-pass filter)를 사용하여 0.01 Hz 이하 주파수를 필터링 하였고, 샘플 주파수를 512 Hz로 다운샘플링 하였다. 이후 육안검사(visual inspection)로 움직임과 관련된 큰 파형(500 mV 이상)의 잡음(artifact)을 제거하였고, 독립성분분석(informax algorithm) [24]을 통해 눈 깜빡임/움직임, 심전도, CI 관련 잡음을 제거하였다.
모든 잡음 제거 과정이 진행된 데이터는 저역필터(low-pass filter)로 20 Hz 이상의 주파수를 필터링 하였고, 자극 시작점인 0 ms를 기준으로 자극 전 200 ms에서부터 자극 후 1200 ms까지 epoch 단위로 분할하였다. 분할된 데이터는 개별 VOTs 자극음에 따라 평균화하고 평균 기준전극으로 재계산하였다. 본 연구에서는 관심 영역의 반응을 확인하기 위해 전두엽 중심 영역의 3개 전극(e2, e3 그리고 e33)을 평균하였고 ‘fronto-central electrodes(FC)’로 명칭하였다. FC의 평균 데이터를 사용하는 이유는 먼저 소음 대 잡음비가 개선되어 개별 전극에 비해 좀 더 명확한 반응을 얻을 수 있으며[25], 전극의 위치가 대상자마다 정확하게 동일하지 않기 때문에 평균 반응을 통해 그 차이를 어느 정도 보상할 수 있다. 또한 본 연구에서는 N1-P2 정점 차이 값(N1-P2 peak-to-peak)을 계산하였는데 이는 N1과 P2의 정점 진폭을 개별적으로 비교하는 것에 비해 더 안정적인 측정 방법으로, FC에서 이 N1-P2의 진폭차를 계산하여 비교하였다.

통계방법

통계 분석은 Statistica(Statsoft Inc., Palo Alto, CA, USA)를 사용하였다. 행동검사 및 EEG 측정 모두 독립변수는 6개의 VOT 값과 피험자 그룹이었으며, 종속변수로는 EEG 측정의 경우 N1-P2의 진폭 차이가, 행동검사에서는 VOT 변별검사의 백분율 정확도가 설정되었다. 먼저 행동검사 통계분석을 위해 반복측정분산분석(ANOVA)이 그룹 내 변수(6개의 VOT)와 그룹 간 변수(우수 CI군, 저조 CI군, 정상청력군)에 따라 백분율 정확도를 확인하기 위해 실시되었고, 이후 EEG 측정에서 N1-P2 진폭 차이에서의 그룹 내 변수와 그룹 간 변수가 미치는 영향을 확인하기 위해 별도의 반복측정분산분석이 추가로 수행되었다. 사후 비교는 Tukey Honestly Significant Difference(HSD)를 사용하였다.

결 과

행동검사

우수 CI군 6명, 저조 CI군 4명, 정상청력군 11명은 6개의 VOT 자극에 대한 평균 /ba/-/pa/ 카테고리 변별 과제를 수행하였다(Fig. 2). 그 결과 정상청력 참가자와 우수 CI 환자들은 일관적으로 0 ms와 10 ms의 VOT를 가진 자극음은 /ba/로, 그리고 30 ms에서 50 ms의 VOT를 가진 자극음은 /pa/로 변별하였다. 또한 /ba/와 /pa/ 카테고리 내 변별 경계지점(평균 50% 변별 지점)은 정상청력군의 경우 19.7 ms, 우수한 CI 군의 경우 21.8 ms로 나타났다. 하지만 저조 CI군의 경우 30 ms의 VOT를 갖는 자극의 경우에도 /ba/와 /pa/ 두 자극에 대하여 일관적이지 않은 변별 결과를 보였으며, 변별 경계지점 또한 27 ms로 지연되었다. 그룹 비교에 대한 통계적 분석은 일원반복측정분산분석(one-way repeated ANOVA)을 사용하였고, 그 결과 유의미한 그룹 효과[F(2, 17)=17.6, p<0.001]를 확인하였다. Tukey HSD 사후 분석 결과 정상청력 군과 우수 CI군이 30 ms를 가진 VOT에서 저조 CI군에 비해 유의미하게 높은 수행력을 보였으며(p<0.001), 0, 10, 20, 40, 그리고 50 ms VOT 자극에 대한 그룹 차이는 보이지 않았다.
CI 피험자 개개인의 /ba/-/pa/ 카테고리 내 변별 백분위 결과와 무반응(no response)에 대한 요약은 Table 2에 제시하였으며, 정상청력군과 CI 피험자 개개인의 VOT 변화에 따른 /pa/ 변별 백분위 결과는 Fig. 3에 제시하였다.

EEG 검사

각 그룹의 VOT 변화에 대한 CAEPs의 전체 평균 파형에서 전체적으로 정상청력군이 두 CI군보다 N1-P2 정점 차이가 크게 나타남을 확인하였고(Fig. 4), 통계적인 비교를 위해 각 VOT에 대한 N1-P2 정점 진폭 차이를 계산하여 자극음과 그룹 효과에 대한 반복측정분산분석을 시행하였다(Fig. 5). 그 결과 자극음[F(5, 90)=3.2, p<0.05]과 그룹[F(2, 18)=7.1, p<0.01]에서 주 효과를 보였으며, 상호작용은 보이지 않았다[F(10, 90)=1.4, p>0.05]. 각 대상군에 대한 Tukey HSD 사후 분석 결과에서는 정상청력군의 N1-P2 진폭차가 우수 CI군에 비해 0(p<0.01), 10(p<0.01), 20(p<0.01), 30(p<0.01), 40(p<0.01), 그리고 50(p<0.01) ms를 가진 VOT에서 더 크게 나타났으며, 저조 CI군과 비교해서도 0(p<0.001), 10(p<0.001), 20(p<0.001), 30(p<0.001), 40(p<0.01), 그리고 50(p<0.01) ms를 가진 VOT에서 더 크게 나타났다. 그러나 두 CI 환자군에서는 차이를 보이지 않았다(p>0.05). 각 그룹에서의 VOT에 대한 영향은 일원반복측정분산분석을 통해 확인하였고 정상청력군에서 VOT의 주 효과를 확인하였다[F(5, 50)=5.5, p<0.001]. 정상청력군의 N1-P2 진폭차는 0~40 ms의 VOT에서 감소하였고, 50 ms에서 증가하는 양상을 보였다. 두 CI군에서는 모두 유의한 영향이 나타나지 않았다(p>0.05).

고 찰

본 연구는 CI 사용자들의 시간 단서에 대한 대뇌 수준의 신경 반응을 확인한 연구로 /ba/-/pa/ 카테고리에서 0~50 ms까지 10 ms 간격의 6개의 다른 VOT를 가진 어음 음절을 사용하여 피험자들이 /ba/ 혹은 /pa/로 인지하는지를 측정하였다. SPIN 검사 결과를 통해 나누어진 우수 및 저조 CI 환자군과 대조군인 정상청력군을 포함한 총 세 피험자군에 대한 행동검사와 EEG 결과가 비교되었으며 본 연구에서는 크게 두 가지의 중요한 결과를 확인하였다. 먼저 우수 CI군은 정상청력군과 비슷한 VOT 변별 능력을 보인 반면 저조 CI 군은 두 군에 비해 낮은 변별 능력을 보였고, 두 번째로 변별 능력과 상관없이 두 CI군 모두 VOT 자극음에 의해 유발된 대뇌피질 반응에서 정상청력군과 다른 패턴의 결과를 보였다.

행동검사

저조 CI군은 정상청력군 및 우수 CI군에 비해 VOT 변화에 대해 더 지체된 VOT 변별경계를 보였다. 저조 CI군의 /ba/-/pa/ 카테고리 내 두 음에 대한 변별 경계지점(identification boundary)은 27 ms의 VOT로 정상청력군에 비해 7.3 ms, 우수 CI군에 비해 5.2 ms 더 길게 나타났다. 이 결과는 CI 사용자들이 더 긴 VOT 시점에서 변별경계를 보인다고 보고한 이전 연구들과 일치한다[26,27]. 선행연구에 따르면 본 연구의 저조 CI군의 지연된 변별경계 시점은 CI 환자의 청각기관에서 제한된 시간 처리 능력에 기인하는 것으로 생각되며[6,16], 이러한 청각적 시간 처리의 지연에는 여러 가지 요인이 작용한다.
먼저, CI를 통한 음향 신호 처리는 정상 청각 시스템과 비교하여 CI 프로세싱, 최적화되지 않은 전극 삽입, 그리고 최적화되지 않은 전극-신경의 구성 인터페이스에 의해 추가적인 영향을 받는다[2]. 하지만 본 연구에서는 우수 CI군이 정상청력군과 유사한 VOT 변별경계를 보임으로써 CI 프로세싱 자체가 VOT 경계 시점을 변경시키는 주요 요인은 아닌 것으로 나타났다. 선행연구에 따르면 우수한 단어 인지 능력을 가진 CI 사용자들은 심지어 다른 어음인지 과제에서 저조한 양상을 보이더라도 유성음과 무성음을 변별하는 데는 어려움을 보이지 않았고[28], 우수 CI 사용자들의 음성 엔벨로프(envelope)와 같은 시간 특성에서의 인지 능력 또한 저조 CI 사용자들에 비해 높게 나타났다[29]. 따라서 VOT 카테고리에서의 변별경계 시점 차이는 CI 프로세싱에 의해서 크게 영향을 받지 않는다는 것이 타당하다. 하지만 일부 사용자에서는 최적화되지 않은 전극 삽입 혹은 CI 인터페이스로 인해 제한된 스펙트럼 신호(spectral cue)가 주어지며 비정상적인 VOT 변별경계 결과를 초래했을 수 있다는 점을 배제할 수는 없다. 포먼트 주파수(F1)와 같은 일부 스펙트럼 정보가 VOT와 같은 시간 정보의 인지를 돕는다고 알려져 있는데[30], CI는 적은 수의 전극으로 인해 F1과 같은 스펙트럼 정보가 제한된다는 단점이 있다[2]. 1991년 Dorman 등[29]의 연구에 따르면 우수한 CI 사용자들은 상대적으로 정밀한 주파수 프로세싱을 하며 이 주파수 프로세싱이 유성·무성 자음을 변별하는 능력과도 연관이 있다는 것을 확인하였다. 따라서 저조 CI군이 채널로 인해 제한된 스펙트럼 해상도의 영향을 우수 CI군에 비해 더 받았을 것으로 예측된다. 다음으로 장기적인 청력손실에 의한 신경 결핍이 저조 CI군의 시간 처리 능력을 지연시키는 두 번째 요인이 될 수 있다[31,32]. 청력손실은 어음의 변별 능력을 저하시킬 뿐 아니라[33], 2003년 Iverson [26]의 연구에 따르면 청력 역치 정도가 CI 사용자들의 /da/-/ta/ 카테고리 내 음소인지 변별 수행 시 음소의 시작점과 파열음 방출 시점을 탐지하는 수행 능력과의 연관성을 보이면서, 청력손실에 의한 저조한 신경 프로세싱이 VOT 변별 위치 지연의 원인이 된다고 주장하였다. 본 연구에서는 저조 CI군(평균 32년)이 우수 CI군(평균 22년)에 비해 더 긴 난청 기간을 가졌는데 이러한 장기적인 청력손실 기간은 청각 신경 결핍으로 이어지며 어음 변별 능력에 가장 중요하게 영향을 미친다[34]. 따라서 본 연구 결과 저조 CI군에서 나타난 지연된 VOT 경계는 우수 CI군에 비해 긴 난청 기간으로 인한 청각 신경 결핍이 가장 중요한 원인이라고 할 수 있다. 마지막으로 저조 CI군의 VOT 변별경계 시점의 지연에 대한 세 번째 요인은 청각단서를 인지하는 피험자의 상한연령(cutoff age)이다. 청각단서의 늦은 학습은 시간 처리 능력을 손상시킬 수 있으며[35], 반대로 언어의 조기 학습이 음소 변별 시 VOT를 정확하게 인지하는 데 중요한 역할을 하는 것으로 알려져 있다[36]. 본 연구에서는 지연 된 시간 처리 능력을 보인 저조 CI군이 우수 CI군에 비해 평균 나이가 적은 반면 난청 기간은 더 긴 것으로 나타났다. 즉, 저조 CI군이 이식 후 더 적은 시간 동안 유성음과 무성음을 구별하기 위한 음소 카테고리를 습득하였고, 결과적으로 지연된 학습 시기가 곧 비정상적인 음소 변별경계의 결과를 야기한 것으로 볼 수 있다.

EEG 데이터

N1-P2의 진폭 차이 값은 두 CI군과 정상청력군 사이에 차이를 보였고, 이 결과는 N1보다는 P2에서의 차이가 더 영향을 미친 것으로 보인다. 따라서 CI 관련 신경 활동 변화가 N1 보다는 P2에 더 잘 반영된 것으로 볼 수 있다. N1 및 P2의 발생과 기원의 관점에서 특히 P2는 N1보다 복잡한 양상을 보이는데, 이는 P2가 인지 과정에 관여하는 청각 및 청각 관련 피질을 포함한 여러 대뇌피질 영역에서 발생되므로[25], CI 환자의 P2 변화에 대한 해석을 위해서는 청각, 학습 및 인지 요인을 포함한 어음인지 관련 프로세싱의 다양한 측면을 고려해야 한다. 선행연구에 따르면 P2 잠복기는 어음인지 점수와 관련이 있으며 P2 반응을 통해 CI 사용자들의 어음인지 수행 능력을 예측할 수 있다고 보고한 바 있다[10]. 또한 P2는 청능훈련 이후의 신경 프로세싱의 변화를 확인하는 데에도 광범위하게 사용되어 왔다[11,17,37,38]. 예를 들면, 2003년 Shahin 등[37]의 연구에 의하면 뮤지션의 음악훈련 후 순음 변별에서의 P2 반응이 음의 높낮이 인코딩 수행 능력과 함께 동반되어 강화된 것을 확인하였고, 2001년 Tremblay 그룹 또한 VOT 변별훈련 이후 P2 진폭이 향상된 것을 확인하였다[17].
본 연구에서는 P2 진폭에서 두 CI 환자군과 정상청력군간 현저한 차이를 보인 반면, 두 CI군 사이의 차이는 보이지 않았다. 이는 수동적인 CI의 사용이 시간 처리를 극대화하거나 상향식(bottom-up)과 하향식(top-down) 인지 처리 간의 연결성을 수립하기에 충분하지 못하였음을 나타낸다. 따라서 잠재적인 뇌 가소성을 사용하기 위해서는 조용한 상황에서의 어음인지 수행력이 높을 지라도 시간 처리 및 관련 인지 능력을 향상시키기 위한 적극적인 훈련이 필요하며, 소음 속 어음인지와 같은 어려운 상황에서의 훈련이 더 많은 이점을 줄 수 있음을 시사하고 있다.
또 다른 관점에서는 두 CI군의 차이가 나타나지 않은 것은 적은 피험자 수(우수 CI군=6명, 저조 CI군=4명), 본 연구에 참여한 CI 사용자들의 CI 사용 모델 및 어음처리방식의 차이, 혹은 우수 CI군과 저조 CI군 사이의 단어 인지도 점수의 적은 차이(저조 CI군 ≥40%, 우수 CI군 ≤60%) 등도 영향을 미쳤을 것으로 생각한다. 그럼에도 불구하고 본 연구에서는 우수 CI군이 유의미하지는 않아도 더 큰 N1-P2의 진폭 차이를 보이는 경향성은 확인할 수 있었다. 따라서 향후 연구에서는 CAEP 측정 반응이 어음인지 수행 능력에 의해 분류된 두 CI 환자군을 유사하게 구분할 수 있는지를 결정하기 위해 더 큰 표본 크기가 필요하며 CI 모델 및 어음처리방식에서의 혼란변수의 최소화, 그리고 우수와 저조 CI군을 정의하는 명확한 기준이 필요할 것으로 생각된다.

ACKNOWLEDGMENTS

This project was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (2017R1D1A1B03030613).

REFERENCES

1. Lee DS, Lee JS, Oh SH, Kim SK, Kim JW, Chung JK, et al. Deafness: cross-modal plasticity and cochlear implants. Nature. 2001; 409:149–50.
2. Rubinstein JT. How cochlear implants encode speech. Curr Opin Otolaryngol Head Neck Surg. 2004; 12(5):444–8.
crossref
3. Nie K, Barco A, Zeng FG. Spectral and temporal cues in cochlear implant speech perception. Ear Hear. 2006; 27(2):208–17.
crossref
4. Luo X, Fu QJ, Wei CG, Cao KL. Speech recognition and temporal amplitude modulation processing by Mandarin-speaking cochlear implant users. Ear Hear. 2008; 29(6):957–70.
crossref
5. Faulkner A, Rosen S. Contributions of temporal encodings of voicing, voicelessness, fundamental frequency, and amplitude variation to audio-visual and auditory speech perception. J Acoust Soc Am. 1999; 106(4 Pt 1):2063–73.
crossref
6. Roman S, Canévet G, Lorenzi C, Triglia JM, Liégeois-Chauvel C. Voice onset time encoding in patients with left and right cochlear implants. Neuroreport. 2004; 15(4):601–5.
crossref
7. Näätänen R, Picton T. The N1 wave of the human electric and magnetic response to sound: a review and an analysis of the component structure. Psychophysiology. 1987; 24(4):375–425.
crossref
8. Ponton CW, Eggermont JJ, Don M, Waring MD, Kwong B, Cunningham J, et al. Maturation of the mismatch negativity: effects of profound deafness and cochlear implant use. Audiol Neurootol. 2000; 5(3-4):167–85.
crossref
9. Kraus N, Micco AG, Koch DB, McGee T, Carrell T, Sharma A, et al. The mismatch negativity cortical evoked potential elicited by speech in cochlear-implant users. Hear Res. 1993; 65(1-2):118–24.
crossref
10. Kelly AS, Purdy SC, Thorne PR. Electrophysiological and speech perception measures of auditory processing in experienced adult cochlear implant users. Clin Neurophysiol. 2005; 116(6):1235–46.
crossref
11. Tremblay KL, Shahin AJ, Picton T, Ross B. Auditory training alters the physiological detection of stimulus-specific cues in humans. Clin Neurophysiol. 2009; 120(1):128–35.
crossref
12. Pantev C, Dinnesen A, Ross B, Wollbrink A, Knief A. Dynamics of auditory plasticity after cochlear implantation: a longitudinal study. Cereb Cortex. 2006; 16(1):31–6.
crossref
13. Lisker L, Abramson AS. Some effects of context on voice onset time in English stops. Lang Speech. 1967; 10(1):1–28.
crossref
14. Liberman AM, Cooper FS, Shankweiler DP, Studdert-Kennedy M. Perception of the speech code. Psychol Rev. 1967; 74(6):431–61.
crossref
15. Steinschneider M, Schroeder CE, Arezzo JC, Vaughan HG Jr. Physiologic correlates of the voice onset time boundary in primary auditory cortex (A1) of the awake monkey: temporal response patterns. Brain Lang. 1995; 48(3):326–40.
crossref
16. Sharma A, Dorman MF. Cortical auditory evoked potential correlates of categorical perception of voice-onset time. J Acoust Soc Am. 1999; 106(2):1078–83.
crossref
17. Tremblay K, Kraus N, McGee T, Ponton C, Otis B. Central auditory plasticity: changes in the N1-P2 complex after speech-sound training. Ear Hear. 2001; 22(2):79–90.
crossref
18. Burger M, Hoppe U, Lohscheller J, Eysholdt U, Döllinger M. The influence of temporal stimulus changes on speech-evoked potentials revealed by approximations of tone-evoked waveforms. Ear Hear. 2009; 30(1):16–22.
crossref
19. Groenen PA, Beynon AJ, Snik AF, van den Broek P. Speech-evoked cortical potentials and speech recognition in cochlear implant users. Scand Audiol. 2001; 30(1):31–40.
20. Sharma A, Dorman MF. Neurophysiologic correlates of cross-language phonetic perception. J Acoust Soc Am. 2000; 107(5 Pt 1):2697–703.
crossref
21. Tremblay KL, Friesen L, Martin BA, Wright R. Test-retest reliability of cortical evoked potentials using naturally produced speech sounds. Ear Hear. 2003; 24(3):225–32.
crossref
22. Horev N, Most T, Pratt H. Categorical Perception of Speech (VOT) and Analogous Non-Speech (FOT) signals: behavioral and electrophysiological correlates. Ear Hear. 2007; 28(1):111–28.
crossref
23. Dimitrijevic A, Pratt H, Starr A. Auditory cortical activity in normal hearing subjects to consonant vowels presented in quiet and in noise. Clin Neurophysiol. 2013; 124(6):1204–15.
crossref
24. Delorme A, Makeig S. EEGLAB: an open source toolbox for analysis of single-trial EEG dynamics including independent component analysis. J Neurosci Methods. 2004; 134(1):9–21.
crossref
25. Terence Picton. Chapter 2 Recording evoked potentials: means to an end. In : Picton T, editor. Human auditory evoked potentials. 1st ed. San Diego: Plural Publishing;2011. p. 30.
26. Iverson P. Evaluating the function of phonetic perceptual phenomena within speech recognition: an examination of the perception of /d/-/t/ by adult cochlear implant users. J Acoust Soc Am. 2003; 113(2):1056–64.
crossref
27. Bharadwaj SV, Graves AG. Efficacy of the discreteness of voicing category (DOVC) measure for characterizing voicing errors in children with cochlear implants: a report. J Speech Lang Hear Res. 2008; 51(3):629–35.
crossref
28. Tye-Murray N, Tyler RS. Auditory consonant and word recognition skills of cochlear implant users. Ear Hear. 1989; 10(5):292–8.
crossref
29. Dorman MF, Dankowski K, McCandless G, Parkin JL, Smith L. Vowel and consonant recognition with the aid of a multichannel cochlear implant. Q J Exp Psychol A. 1991; 43(3):585–601.
crossref
30. Sinex DG, McDonald LP, Mott JB. Neural correlates of nonmonotonic temporal acuity for voice onset time. J Acoust Soc Am. 1991; 90(5):2441–9.
crossref
31. Gordon-Salant S, Fitzgibbons PJ. Temporal factors and speech recognition performance in young and elderly listeners. J Speech Hear Res. 1993; 36(6):1276–85.
crossref
32. Tremblay KL, Piskosz M, Souza P. Effects of age and age-related hearing loss on the neural representation of speech cues. Clin Neurophysiol. 2003; 114(7):1332–43.
crossref
33. Rubinstein JT, Parkinson WS, Tyler RS, Gantz BJ. Residual speech recognition and cochlear implant performance: effects of implantation criteria. Am J Otol. 1999; 20(4):445–52.
34. Holden LK, Finley CC, Firszt JB, Holden TA, Brenner C, Potts LG, et al. Factors affecting open-set word recognition in adults with cochlear implants. Ear Hear. 2013; 34(3):342–60.
crossref
35. Harris KC, Wilson S, Eckert MA, Dubno JR. Human evoked cortical activity to silent gaps in noise: effects of age, attention, and cortical processing speed. Ear Hear. 2012; 33(3):330–9.
36. Flege JE. Age of learning affects the authenticity of voice-onset time (VOT) in stop consonants produced in a second language. J Acoust Soc Am. 1991; 89(1):395–411.
crossref
37. Shahin A, Bosnyak DJ, Trainor LJ, Roberts LE. Enhancement of neuroplastic P2 and N1c auditory evoked potentials in musicians. J Neurosci. 2003; 23(13):5545–52.
38. Tong Y, Melara RD, Rao A. P2 enhancement from auditory discrimination training is associated with improved reaction times. Brain Res. 2009; 1297:80–8.
crossref

Fig. 1.
Acoustic and spectrogram of VOT stimuli. The stimuli were ranged from 0 ms to 50 ms in VOT duration, and total duration of stimulus was 180 ms. As the VOT duration increases, speech perception changed such that VOTs of 0-10 ms are perceived as /ba/, and VOTs of 30-50 ms are perceived as /pa/. The categorical perception between /ba/ and /pa/ was observed at approximately 20 ms VOT. VOT: voice onset time.
kjorl-hns-2017-00703f1.tif
Fig. 2.
Mean identification function for the /ba/-/pa/ continuum are shown for the NH group, good CI group, and poor CI group. Note that the identification boundary between /ba/ and /pa/ was observed at 19.7 ms, and at 21.8 ms for NH and good CI performers, respectively while the boundary was delayed to 27 ms in poor CI performers. The dotted lines indicate the identification boundaries for each group. NH: normal-hearing, CI: cochlear implant, VOT: voice onset time.
kjorl-hns-2017-00703f2.tif
Fig. 3.
/pa/ identification function for individual subjects. Note that the CI subjects had more variable identification functions compared to NH subjects. CI: cochlear implant, NH: normal-hearing, VOT: voice onset time.
kjorl-hns-2017-00703f3.tif
Fig. 4.
Group averaged waveforms to all VOTs for NH listeners, good performers, and poor performers recorded from fronto-central area. VOT: voice onset time, NH: normal-hearing, CI: cochlear implant.
kjorl-hns-2017-00703f4.tif
Fig. 5.
N1-P2 peak-to-peak amplitudes to each VOT stimulus for the NH control, good CI users, and poor CI users. Asterisks indicate statistically significant differences between groups (p<0.05). NH: normal-hearing, CI: cochlear implant, VOT: voice onset time, NS: not significant.
kjorl-hns-2017-00703f5.tif
Table 1.
Clinical features of study group of 10 adult CI recipients
CI user Age (years) Gender CI side Stimulated ear Duration of deafness (year) CI use (year) Device/processor Processing strategy Etiology of hearing loss
01 32 F Bilateral Left 20 9 Nucleus/CI24RE ACE Congenital
02 34 F Bilateral Right 33 12 Nucleus/Esprint 22 SPEAK Hereditary
03 37 F Bilateral Right 37 11 Nucleus/CI24RE ACE Congenital
04 45 F Bilateral Right 37 4 Nucleus/CI512 ACE Unknown
05 45 F Bilateral Right 38 10 Nucleus/CI24RE SPEAK Unknown
06 54 M Bilateral Left 15 4 Med EI/Opus 2 FSP Meniere’s disease
07 59 M Bilateral Right 11 1 Nucleus/CI24RE ACE Noise induced
08 63 F Bilateral Right 35 3 Nucleus/CI512 ACE Genetic
09 69 M Bilateral Left 22 2 Med EI/Opus 2 FSP Genetic
10 74 M Unilateral Left 12 5 Nucleus/CI24RE ACE Unknown

CI: cochlear implant, ACE: advanced combination encoder, SPEAK: spectral peak, FSP: fine strcture processing

Table 2.
Summary of behavioral test for CI group
VOT (ms) CI user 0
10
20
30
40
50
ba pa NR ba pa NR ba pa NR ba pa NR ba pa NR ba pa NR
01 97.5 1.0 1.5 92.4 6.3 1.3 48.1 58.9 3.0 22.7 74.5 2.8 3.3 94.4 2.3 2.3 96.4 1.3
02 98.8 0.8 0.5 92.8 0.5 1.8 93.5 5.0 1.5 33.5 62.8 3.8 7.5 90.8 1.8 1.3 98.3 0.5
03 68.5 6.0 25.5 68.3 7.0 24.8 39.3 25.8 35.0 10.3 63.0 26.8 5.3 68.3 26.5 4.0 72.0 24.0
04 97.7 1.8 0.5 78.5 16.7 4.8 11.7 85.1 3.3 0.8 97.7 1.5 0.3 98.0 1.8 0.0 99.2 0.8
05 81.5 11.0 7.5 77.3 13.5 9.3 45.0 46.3 8.8 20.0 70.5 9.5 10.5 80.8 8.8 7.8 86.3 6.0
06 98.0 1.4 0.6 96.3 2.0 1.7 28.0 70.0 2.0 3.4 95.4 1.1 0.6 98.6 0.9 0.0 99.1 0.9
07 85.5 6.0 8.5 81.3 7.3 11.5 59.5 27.5 13.0 17.8 69.0 13.3 10.0 74.0 16.0 7.0 85.0 8.0
08 95.0 1.3 3.8 89.8 3.8 6.5 42.0 42.0 16.0 1.3 90.3 8.5 1.0 93.8 5.3 1.5 92.5 6.0
09 77.4 10.3 12.3 77.2 9.3 13.5 31.0 52.8 16.1 3.3 89.5 7.1 2.6 88.7 8.7 2.3 90.5 7.2
10 91.8 3.3 5.0 77.2 2.3 20.6 74.8 14.8 10.5 5.8 87.5 6.8 2.8 90.0 7.3 1.5 92.8 5.8

CI: cochlear implant, VOT: voice onset time, NR: no response

TOOLS
Similar articles