Abstract
Over the last two decades, there have been a number of significant changes in the evaluation system in medical education in Korea. One major improvement in this respect has been the listing of learning objectives at medical schools and the construction of a content outline for the Korean Medical Licensing Examination that can be used as a basis of evaluation. Item analysis has become a routine method for obtaining information that often provides valuable feedback concerning test items after the completion of a written test. The use of item response theory in analyzing test items has been spreading in medical schools as a way to evaluate performance tests and computerized adaptive testing. A series of recent studies have documented an upward trend in the adoption of the objective structured clinical examination (OSCE) and clinical practice examination (CPX) for measuring skill and attitude domains, in addition to tests of the knowledge domain. There has been an obvious increase in regional consortiums involving neighboring medical schools that share the planning and administration of the OSCE and CPX; this includes recruiting and training standardized patients. Such consortiums share common activities, such as case development and program evaluation. A short history and the pivotal roles of four organizations that have brought about significant changes in the examination system are discussed briefly.
지난 60년 동안 우리 나라 의학교육이 변천해온 과정을 되돌아보면 비록 속도는 느리지만 변화의 흐름이 꾸준히 이어지고 있다. 지금의 우리 의학교육 상황을 선진외국과 비교해 볼 때 아직도 개선할 부분이 많고 뒤쳐진 부분도 많지만 그런 대로 변화의 페이스를 잃지 않고 앞서가는 선진국 수준을 따라잡으려는 노력을 꾸준히 계속하고 있다. 우리 나라의 이러한 개선 노력은 특히 지난 20년 사이에 집중되어 있으며 그 중에서도 평가 영역은 가장 두드러지게 변화한 영역 중의 하나이다[1]. 의학 교육자의 평가에 대한 관심과 연구도 많아졌으며 실제대학의 교육과정(curriculum) 개선에 적용되는 사례도 점차 늘고 있다[2]. 그렇다면 우리 나라 의학교육에서 평가는 시대별로 어떤 의미, 어떤 역할을 해 왔는가? 이 글의 앞부분에서는 그동안 있었던 국내 및 국외의 의학교육 전반에 걸친 변화 배경과 흐름의 중요 내용을 되돌아 보고 뒷부분에서는 평가를 중심으로 한 우리 나라 의학교육의 변화 및 개선 노력을 고찰해 보고자하며 마지막에는 앞으로 바뀌어 갈 평가의 새로운 방향을 추정해 보고자 한다.
외국이나 한국이나 의학교육이 변화하는 데는 사회적 배경, 의학 자체의 변화, 그리고 교육학의 발전 등 세가지 요인이 크게 작용한다. 사회가 변하면 교육과정의 방향도 수정되는 것이 당연하며 그것은 곧 대학교육이 사회가 필요로 하는 인적자원을 양성하는 데 목적을 두고 역할을 하고 있다는 것을 말해 주는 긍정적인 현상이다. 그러나 만약 대학이 사회의 요구나 필요를 도외시하고 동떨어진 교육을 계속한다면 대학은 상아탑이라는 둥지 속에서 변화를 거부하는 집단으로 인식되어 사회로부터 좋은 반응을 얻지 못하게 될 것이다.
예전이나 지금이나 의학교육에 영향을 미치는 사회적 여건의 변화는 국내는 물론 우리와 밀접한 관계에 있는 외국의 변화에서도 민감하게 영향을 받아왔고 앞으로도 그 상황은 계속되리라고 본다. 그만큼 국제적인 거리 감각이 좁혀져 있음을 말한다. 사회의 변화와는 다른 차원에서 의학 자체의 변화는 당연히 의학교육에 직접적으로 영향을 미친다. 의사에 대한 개념, 의사가 하는 사회적 책무, 제도 등이 바뀜에 따라 의사가 되려는 사람에 대한 교육 내용은 당연히 달라지게 마련이다. 의학교육은 동서양을 막론하고 원래 몇 백 년을 도제식 교육을 하던 전통이 이어져 왔다. 그래서 교육은 대학마다 다르고 교수마다 다른 내용이 너무나도 당연한 것으로 받아들여졌던 시절이 있었다. 그러나 현대적인 개념의 의학교육으로 바뀌면서 그러한 전통은 더 이상 계속될 수가 없게 되었다. 의사의 직무로 보아 사회가 바라는 일정한 능력 수준 이상의 것을 갖추는 것이 기본으로 여겨지고 따라서 의사에게는 국가적인 단위의 면허가 부여되는 상황이므로 당연히 여러 면에서 표준적인 기준을 필요로 하게 되었고 이에 따라 의학교육 자체의 내용은 시대에 맞게 연동하여 변하지 않으면 안 되게 되었다. 마지막으로 영향을 미치는 요인은 의학 외적 학문에서 온다. 원래 의학은 전문성 교육이 방대하고 독특하므로 자연과학 외에는 바깥 세계의 학문 변화에 둔감하였을 뿐만 아니라 미처 관심을 두지 못했었다. 더욱이 대학에서 가르치는 의학의 전문적 내용을 제외하고는 교육과정조차도 교육학의 원리 원칙을 고려하지 않고 극히 기본적인 개념만을 가지고 편성해 왔었다. 그러나 교육학 분야에서 개발되어 널리 인정된 여러 특성, 원리, 원칙 등을 의학이 받아들이면서 여기에서 나오는 새로운 지식과 기법이 의학의 교육 현장에 적용되기 시작하였고 그 이용 가치가 인정되면서 의학교육은 서서히 변화를 일으키기 시작하였다. 결국 의학교육은 사회의 변화에다 의학 자체의 변화 그리고 교육학의 지식 발전에 힘입어 점차 변화하게 된 것임을 이해할 수 있다[3,4].
우리 나라 의학 및 의학교육은 60년 전 광복 이후를그 출발점으로 보는 것이 타당하므로 비교적 역사가 짧다고 볼 수 있다. 그런데 비하면 외국의 의학교육은 역사가 길다. 외국의 의학교육도 20세기에 들어서면서 큰 변화의 고비를 한번 겪었고 제 2 차 세계대전 이후 또 다른 형태의 변화를 다시 한번 겪었다. 이 두 큰 고비가 모두 지금의 우리 의학교육에 영향을 주었으며 우리가 개선해야 할 대상인 부적절한 교육과정의 원류가 거기에서 시작되었다. 그런 점을 고려할 때 우리가 왜 변해야 하는지를 이해하려면 선진 외국의 그 큰 두 변화가 있게 된 배경을 돌이켜보고 넘어가는 것이 당연한 순서일 것이다.
의학의 역사는 기원전 4, 5세기의 히포크라테스 시절 부터로 알려져 왔지만 현대 의학교육의 형태를 갖춘 것은 18세기에 들어서면서부터이다[5]. 그 때만 하더라도 유럽과 미국의 의학교육은 나라마다 대학마다 일정한 기준이 없는 도제식 교육이 유행하던 시절이었고 의학을 뒷받침하는 과학적 근거가 미약하고 종교, 철학, 심지어는 주술까지도 의술에 영향을 주던 때였다 그러나 19세기에 들어서면서 화학, 물리학, 생물학 등 자연과학이 눈부시게 발달되면서 의학은 많은 새로운 해석을 하게 되었고 가지고 있던 의문도 해결되었다. 그러나 의사를 양성하는 과정에서는 여전히 과학적 근거가 미약한 의학교육으로 버티는 대학이 많았었다. 20세기에 들어서면서 이러한 형태의 의학에 불만이 많았던 터에 출간된 Flexner report[6]가 의학교육에 매우 의미 있는 변화를 촉발시켰다. 그 결과 2년의 기초의학(basic medicine)과 2년의 임상의학(clinical medicine)이 의과대학 교육과정의 모델이 되기 시작하였다. 이 형태의 교육은 당시 사회로부터 많은 신뢰를 받아 전 세계 의학교육 학제의 기본 틀로 굳어져 갔고 얼마 전까지만 해도 우리 나라 대부분의 의과대학 교육과정도 이 형태를 따랐었다[7].
우리 나라 의학교육이 시작될 무렵인 광복 이후의 시기가 국제적으로는 제 2 차 세계대전이 막 끝나던 때였다. 따라서 전쟁 비용으로 사용하여 왔던 막대한 선진국의 자금이 종전 뒤에는 평화적으로 전용되었으며 그 중의 하나로 그 재원이 과학과 의학의 연구에 집중 지원되어 학문 발전에 크게 기여를 했다. 실제로 제 2 차 세계대전 이후 의학지식과 의료기술은 기하급수적으로 성장하여 그 흐름이 아직도 계속되고 있어 요즈음은 의학지식이 매 5년 마다 두 배로 증가할 정도로 가히 폭발적인 지식의 축적을 가져 왔다. 이처럼 발전하는 의학은 그에 따른 부작용도 낳게 되었다. 즉 기존의 학문 분야는 연구를 거듭함에 따라 당연한 추세이지만 더욱 좁은 영역의 전문성으로 나뉘어 지면서 자연히 학문의 세분화(sub-specialization)로 치닫고 그것이 교육 측면에서는 단편화(fragmentation) 현상으로 나타나게 되어 결과적으로 의학연구는 더욱 좁게 깊게 열중하게 되는 한편 의학교육은 기초의학과 임상의학 교과목간에는 물론 기초의학, 임상의학 교과목 내에서조차 연계성이 줄어드는 단절 현상이 점점 심화되어 갔다[8].
20세기의 마지막 시기였던 1900년대의 끝 무렵 선진 외국에서는 의대 교수의 연구와 임상 진료에의 깊은 관심과 전념, 이에 따른 분야간 발전의 불균형, 교육에의 관심 저조, 환자에 대한 도덕과 인성 교육의 부실화, 기초의학과 임상의학간의 연계성 부족 같은 상황이 차츰 부작용으로 나타나게 되었다. 이러한 상태의 의학교육에 대하여 사회에서는 그러한 교육을 받은 의사에 대하여 능력에 대한 신뢰성에 의문을 가지게 되었고 심지어는 대학에 서서히 압력을 가하여 무언가 개선이 있기를 바라는 요구가 일기 시작하였다. 이에 따라 의학교육을 담당하고 있는 교수들도 차츰 새로운 가치 인식과 더불어 자기반성을 하게 됨에 따라 무언가 의학교육에 새로운 전기를 마련하려는 움직임으로 나타나게 되었다. 선진국의 의학 관련기관, 세계적인 의학교육 관련기구의 관심 표명은 이러한 변화를 예고하는 신호탄이 되었다[9-12]. 그와 동시에 사회가 바뀌면 의학도 바뀌어야 하고 의학이 바뀌면 의학교육도 바뀌어야 하며 이러한 변화가 이어지지 못하면 졸업생은 사회에 나와 활동을 하는데 있어서 갈등, 이질감, 배척 등을 당하게 될 것이라는 따끔한 교훈도 경험하게 된 것이다.
한편 한국은 제 2 차 세계대전 이후 바로 이은 한국전쟁의 상처로 전후 사회의 재건과 경제발전의 시작이 막 이루어지던 때라 처음에는 의학의 최저 기능 유지만을 하다가 선진국 의학지식과 의료기술의 빠른 도입으로 의학은 사회와 국민의 보건의료 문제해결에 큰 공헌을 해 주던 때였다. 한편 의학교육의 새로운 개념은 한발자국 늦게 1970년대에 들어서면서 받아들이기 시작하여 본격적으로는 1980년대에 그 공감대를 굳히기 시작해서 오늘에 이르게 되었다. 따라서 우리 나라 의학교육은 지나간 60년 중 처음 40년은 양적 팽창에 역점이 두어졌고 질적인 개선은 최근 20년 사이에 많은 변화를 가져왔다. 이에 따라 대학에서의 의학교육도 처음에는 선진 외국에서 되풀이되었던 2년의 기초의학과 2년의 임상의학으로 이분된 전형적 모델로 시작하였다. 그리고 연구와 진료 기능이 강화되면서 질적으로는 세분화, 단편화된 상태의 선진국 초창기 병폐를 그대로 직수입하면서 한편으로는 의과대학의 양적인 팽창으로 이어져 가던 시절이었다[13]. 이 무렵 의학교육을 더 이상 이 상태로 방치해 두어서는 안 되겠다는 많은 교수의 의식변화가 생기기 시작했고 이에 따른 행동적 실천으로 의학교육연수원, 의학교육협의회, 의학교육학회 등을 탄생시키기에 이르렀으며 이들의 활동에 힘입어 변화의 시동이 걸리게 되었다[14].
모든 교육과정이 그렇듯이 의학교육의 교육과정(medical curriculum)은 의사를 양성시키는 궁극의 목표가 비교적 명확히 설정되어 있고(MD program) 그에 따라 교육내용, 방법 그리고 평가 계획도 그런 대로 규칙과 응용의 순리를 따르고 있다. 교육은“사람이 원래 가지고 있는 잠재적인 능력을 개발시켜 행동 변화를 하도록 이끌어 가는 것”이 궁극의 목표이며 이것을 적절히 운용하기 위한 체계적 종합 계획이 교육과정이다[15]. 교육과정은 졸업 후 어떻게 행동에 변화가 이루어지게 되기를 기대하는지 그것을 목표에 담고 있다. 그리고 그 목표를 성취시키기 위한 교육내용을 설정하고 이어서 교육방법을 강구하며 마지막으로 목표에 어느 정도 도달하였는지를 확인하는 평가 계획을 편성하는 절차를 밟고 있다. 따라서 이 네 가지가 커리큘럼 구성의 기본 요소를 이룬다. 한 사이클의 교육과정이 끝나면 마지막 절차인 평가는 다시 그 결과를 목표, 내용, 방법을 재점검하기 위해 되먹이는(feedback) 것이 원칙이어서 일정한 시기를 주기로 목표, 내용, 방법, 평가는 나선형으로 돌아가며 다음 과정에 계속 이어져가야 하기 때문에 이 연속되는 고리를 교육의 순환과정(educational spirals)이라고 말하기도 한다[16].
의학에서는 목표가 의사 양성에 있기 때문에 교육 내용은 크게 보아 세 개의 영역으로 나눈다. 그것은“환자 진료와 예방 또는 건강 돌보기”를 하기 위한 전문 교육 내용으로서 큰 단위(범위)로 보았을 때 1)의학 전문 지식의 축적과 활용법, 2)임상진료기술의 축적과 활용법, 그리고 3)진료 태도의 변화와 습관화로 나누어진다. 이것이 흔히 지식(knowledge), 수기(skill), 태도(attitude)로 불리는 의학교육 내용의 3영역(domains)이다. 교육내용을 다른 각도에서 구분하는 방법도 있다. 그것은 학문 단위의 전통적인 교과목중심 교육과정(subject-based curriculum)에서 흔히 쓰는 방법으로 해부학, 생리학, 생화학, 내과학, 외과학 등 학과목 단위로 나누어 가르치는 것이 오랜 관례로 되어 왔었다. 교육방법은 강의와 실습이 주된 것이었으며 평가는 지식 중심의 필기시험이 주된 형식이었다. 그러나 이 모든 것이 차츰차츰 바뀌고 있다. 평가는 교육과정의 한 부분이기는 하지만 따로 분리하여 생각하기 어려운 이유가 있다. 그것은 교육과정 속에서 나머지 세 요인과 밀접한 관계를 가지고 있으면서 서로 영향을 주고받게 되기 때문이다. 이에 따라 이 글도 전체 교육과정과 평가 부분을 넘나들며 관련성을 기술하되 주로 평가 부분에 초점을 맞추고자 한다.
평가(evaluation)의 정의는 여러 가지로 표현되지만 일반적으로“특정 활동에 대한 가치를 부여하기 위한 체계적 데이터 수집, 분석, 해석의 절차”라고 요약할 수 있다. 그리고 이러한 데이터를 얻기 위해 측정(measurement)하는 것이 시험(test)이라고 정의를 내리면 어느 정도 용어의 구분도 된다. 평가의 결과를 어디에 활용하느냐를 생각한다는 것은 교육에서 매우 중요한 일이다. 학교기관에서의 평가는 학생, 선생, 교육 프로그램, 대학 등 여러 가지가 대상이 된다. 그런 관점에서 평가 대상에 따라 그것을 학생(학습)평가(student evaluation), 교수평가(teacher evaluation), 프로그램평가(program evaluation), 대학평가(institutional evaluation) 및 학생 선발을 위한 입학시험(admission test) 등의 이름으로 구분 짓지만 모두 독특한 형태의 측정을 통해 데이터를 얻는데 목적이 있고 그 결과는 교육목적 또는 행정목적으로 다양하게 활용된다[17]. 여기서그 중에서도 학생을 대상으로 하는 대학에서의 학습 평가와 국가 면허시험을 중심으로 고찰하고자 한다. 교육과정 속의 학습평가의 주된 기능은 학습자의 목표 성취도 확인에 있다. 그러면서 동시에 학생의 학습을 도와준다. 또한 가르치는 선생의 수업계획서 개발에도 활용되며 학생의 학습 진행 상황 이해, 그리고 넓게는 성적 매기기, 진급, 졸업 사정 같은 행정목적으로도 사용된다. 따라서 대학의 평가는 학습과정 중의 형성평가(formative evaluation)와 한 과정의 매듭을 짓는 종합 평가(summative evaluation)의 양면성을 다 가지게 되고 행정목적으로는 후자의 것을 주로 활용한다. 그러나 국가 단위의 면허시험은 의사면허를 받을 자격이 있는지 여부를 가리는데 활용되는 일종의 종합평가이며 학습평가와 달라서 어느 기준을 설정하고 그 기준을 충족시키는지 여부로 판정하는 전형적인 행정 목적의 평가이다. 그러나 이 평가도 대학에서의 교육과정을 되돌아 보게 하는 되먹임의 효과가 크다.
우리의 의학교육 교육과정을 되돌아 볼 때 평가의 개념이 처음 보급되기 시작했던 1970년대 이전에는 평가가 교육과정의 한 부분으로서 적절하게 기능을 발휘하 지 못하였다. 말하자면 목표와 연관되어 그 성취 정도를 확인하는 역할이 되지 못하였었다. 또한 평가에서 교수의 역할은 측정 도구인 시험문제(test items)를 만들어 내는 일도 중요하지만 시험을 치르고 난 뒤 돌이켜 보는 일, 즉 성적 결과를 분석하고 수치를 해석하는 일도 있어야 되는 것이 당연한 것이지만 실제로는 그런 목적으로 돌이켜보는 일이 매우 드물었다. 말하자면 예전 교육과정에서의 평가는 평가가 가지는 여러 절차 중에 측정하는 일, 즉 시험이 전부였다고 볼 수 있고 그 목적은 학생 성적이라는 수치를 얻기 위한 것이 전부였다. 교육과정의 원칙을 따르자면 평가는 이미 설정된 목표에 얼마나 도달되었는지를 측정하는 것이므로 목표가 없었다면 평가는 측정을 했다고 하더러도 해석이나 판단을 제대로 할 길이 없다. 보다 더 정확하게 표현하자면 판단할 기준이나 근거가 없는 것이다. 말하자면 목표 없이 교수가 가르치는 대로 학생은 따랐고 따라서 어디로 가고 있는지를 모르는 것이 당연하였다. 즉 교육과정 중 가장 중요한 목표 부분이 없는 채 나머지 세 가지 요인으로 꾸려왔던 것이다. 따라서 시험으로 얻어진 수치로는 극히 한정된 정보만을 얻을 수 있었고 성취도 확인 같은 절차는 선생의 마음속에 있는 기준에 따라 정해지는 것이 당연시되었었다. 시험문제의 작성도 그때 당시엔 학습 목표라는 것이 전혀 없었기 때문에 자연히 그럴 수밖에 없었다. 따라서 그 시험문항 자체의 타당성이나 목표에 알맞은 문항 형식 같은 것은 크게 고려의 대상이 되지 않았다.
이런 상태가 1970년대에 들어와서는 조금씩 달라지기 시작했다. 당시 세계보건기구(World Health Organization)에서는 좋은 의사를 양성하려면 먼저 교수가 학생을 잘 가르칠 수 있어야 하고 그렇게 되기 위해서는 교육과정이 제대로 구성되어야 하며 제 기능을 나타내야 한다는“새로운 의학교육의 개념”을 우리 나라에 보급시키기 시작했다. 이것은 가장 먼저 학장의 모임, 의학교육협의회를 통하여 각 의과대학에 퍼졌고 이에 따라 대학에서 실제 오랫동안 가르쳐 오던 많은 교수도 비로소 교육과정이 담고 있는 참뜻을 차츰 인식하기 시작하였다. 그 때부터 학장의 모임은 단순한 친교의 자리를 넘어 최신 의학교육에 관한 정보교환의 자리로 서서히 바뀌면서 이러한 변화의 움직임은 가속이 붙게 되었다[18-20].
이에 따른 움직임의 하나는 평가를 올바르게 하려면 우선 학습목표의 설정이 절실히 필요하다는 공감대의 형성이었다. 그 뒤 대학 단위로 또는 학회 단위로 학습 목표를 작성하는 활동이 활발하게 일기 시작하였다. 이에 영향을 받아 1988년에서 1992년에 걸쳐 대한의학회에서는 전국의 학회를 대거 참여시켜 학회별로 수집 편집한“의과대학 학습목표”를 출간하기에 이르렀다[21-23]. 교육과정에 목표란 개념이 전혀 없던 시절에 처음으로 활자화된 학습목표 집이 나왔다는 사실만으로도 이 학습목표 집은 매우 획기적인 사실로 기록되었다. 그러나 그 학습목표는 각 분과 학술단체가 독립적으로 작성을 주도함에 따라 1) 일차 의료에 대한 시각 차이, 2) 지식 중심의 학습목표, 3) 낮은 수준의 단순 지식, 4) 과목간, 과목 내 수준의 불균형과 중복, 5) 과목의 학문 체계 중심, 6) 목표기술 요령 부족 등의 많은 문제점이 노출되어 개정판 작업의 필요성이 대두되었다. 이에 따라 여러 차례의 홍보와 연수 과정을 거쳐[24-25] 대한의학회에서는 다시 문제점을 보완한“의과대학 학습목표(개정판)”집을 7-8년 뒤 펴내게 되었다[26, 27]. 급기야는 종전의 학과목 분류 체계에서 벗어나 의학이라는 큰 관점에서 기존의 학습목표를 재분류하면서 내용 역시 지식 중심에서 수기 및 태도 영역까지 광범하게 수록해야 한다는데 의견을 모아 의과대학학장협의회에서는 2004년 새로운 “의과대학학습목표”를 출간하여 오늘에 이르렀다[28]. 가장 마지막 출간된 간행물은 내용도 3개 학습영역이 고루 들어간 훨씬 다듬어진 학습목표로 재탄 생시킨 것이라고 볼 수 있다. 그러나 이 목표 역시 아직도 많이 다듬어야 할 부분이 남아 있다.
의과대학 졸업을 전후해서 학생들은 두 종류의 큰 시험을 치르게 되는데 하나는 졸업 전에 보는 임상종합시험이고 다른 하나는 졸업 후(실제로는 졸업 직전) 보게 되는 의사면허시험이다. 내용은 비슷하지만 임상종합시험은 대학 단위에서 출제하여 응시하도록 하는 시험이고 면허시험은 전국 규모로 같은 문제를 출제하여 같은 날 보는 점이 다르다. 또 하나 대학의 시험과 다른 점은 국가 단위에서 모든 의과대학 졸업생이 같은 기준, 같은 내용의 시험을 동시에 치러야 하기 때문에 면허시험에서는 사전에 문항개발기준과 출제기준이 모든 응시자나 이들을 가르치는 대학에 공지가 되어야 한다. 그러나 1980년대 이전의 면허시험에서는 이러한 개념이 명확하지 않은 채로 평가가 이루어져 왔다. 출제기준은 있었으나 어느 영역에서 문항이 개발되는지 그런 기준은 따로 없었다. 출제기준은 시험에서는 이러이러한 과목에서 몇 개의 문항이 출제되며 배점은 어떻게 된다는 것을 응시자에게 사전에 알려주는 공지 내용이었으나 이 출제기준은 당시에 통용되던 대로 무슨 과목에 몇 문제라는 식으로 매우 큰 윤곽만을 기술하는 것이 전부였다. 따라서 내용이 방대한 어느 특정 과목의 시험문제라도 출제자의 대학별 안배를 중요한 선정 기준으로 했기 때문에 대학은 다르지만 세부전공이 같은 교수가 지정될 경우 시험문제는 특정 영역에 치우쳐지는 현상도 나타났고 출제자의 주관적인 판단에 따라 난이도도 결정되었기 때문에 시험은 전반적으로 적절한 타당성의 범위에서 많이 벗어나 있었다. 그런 모순점을 해소시키는 한 방편인 문항개발기준은 이러이러한 기준에 따라 시험문항이 어떤 영역에서 만들어진다는 것을 미리 알려주는 것이며 따라서 만들어진 문항은 반드시 어느 시점에 시험문항으로 나온다는 보장은 없지만 수험자가 어느 범위에서 공부를 하여 시험을 치르게 될지를 미리 가늠할 수 있는 기준이다. 의사국가시험을 주관하던 당시 한국 의사국가시험원에서는 시험문항의 개발 범위를 기술한 “의사국가시험 문항개발기준”을 1997년에 개발 발표함으로써 대학에서의 학습목표 설정과 더불어 면허시험을 위한 평가의 기준 일부가 처음으로 등장한 것이다. 더욱이 이것은 의사의 직무능력을 검증하는 시험인 만큼 전통적인 교과목의 구분이 아닌 핵심과목 중심의 내용을 기관계통중심의 30개 대 항목으로 분류한 것으로서 종전의 의사국가시험 7개 과목을 대체하는 것이었다[29]. 이 문항개발기준은 예전 같으면 내과학에서 몇 문제, 외과학에서 몇 문제 같이 과목별로 몇 문제가 출제될 것이라는 예상만이 가능하던 상황에서 의사로서 필요한 진단기법에서는 몇 문제, 어른과 아이를 가를 것 없이 우리 나라에 가장 많은 호흡기질환에서는 상기도 감염, 폐의 감염 등으로 나누어 그 범위를 세분한 것이다. 그리하여 문항개발의 범위를 도합 30개의 대항목, 그리고 수 백 개의 중항목, 그리고 중항목마다 진단, 치료, 예방 등의 소항목으로 세분하기에 이르러 문항을 개발하여 문항은행에 비축하였다. 이에 따라 막상 시험에 낼 때는 별도의 출제기준을 마련하여 항목별 문항 수와 비율, 문항형태 비율, 지식수준 비율, 텍스트형과 자료제시형 비율까지도 포함하는 내용을 담는 것으로 바뀌게 되었다. 이렇게 하여 과거 20년 간에 걸쳐 평가는 기준이 될 목표가 전혀 없던 상태에서 대학에서는 학습목표라는 기준이, 의사국사시험에서는 문항개발기준이 설정됨으로써 평가할 수 있는 타당성 있는 근거를 찾게 되었으며 비로소 평가의 참된 기능을 일부분이나마 확보하게 된 것이다.
평가에서 시험을 통한 정확한 정보 즉 데이터를 얻으려면 우선 측정을 보다 정확하게 해야 하고 그렇게 하려면 측정도구의 타당성이 높아야 한다. 말하자면 관련성(relevancy)도 높고 신뢰성(reliability)도 높아야 하는 것이 당연하다. 예나 지금이나 의학교육 평가에서의 측정도구는 문항을 통한 시험이다. 1970년대까지만 해도 어떻게 해야 측정도구인 시험 문항의 질을 높일 수 있는지에 대한 개념이 별로 없었다. 그러나 그때 당시 학습 목표에 대한 개념과 함께 평가의 개념에 대해 눈뜨기 시작한 교수들의 자기반성과 연구열은 의외로 빨리 퍼져 나갔다. 그 때 당시 평가에 대하여 목표 설정 다음으로 변화하게 된 것이 시험의 타당성을 높여야 된다는 과제였다. 의학교육에 관심을 가졌던 사람 사이에 타당성을 높이기 위해서는 측정에 관련되는 많은 구성 요인 중에서도 타당성의 하부 구조에 해당되는 요인을 어디서부터 개선하여야 하는지 하나하나 찾아보는 일로 시작하였다. 그 하부 구조에 해당되는 요인을 고루 만족시키면 총체적으로 문항의 수준이 올라갈 것이라는 교수들의 신념에서였다. 그러나 시험에 꼭 내야 할 내용(Relevancy, Content validity)을 적절한 수준(Equity, Equilibrium)에서 고루 선택(Homogeneity)하여 적정수(Efficiency)의 문항을 객관적인 문항 형태(Objectivity)로 쉽지도 어렵지도 않게(Difficulty) 구성한다는 일이 생각처럼 쉽지 않았다. 그래서 우선 손쉬운 것에서부터 시작하는 것으로 의견을 모았는데 그 개선의 시작이 시험문항의 객관화였다. 그 때 시험문항 형태로는 여러 가지 중에서도 가장 널리 사용되어 오던 것이 객관식 5지선택형 문항(A형문항) 즉 선택형문항(multiple choice questions, MCQ), 조합형 문항(K형 문항) 그리고 주관식 형태(논술형이 아닌 단답형)였다. 그때까지만 해도 주관식 시험문제가 학교에서는 말할것도 없고 의사국가시험에서까지도 상당 부분 채택되고 있던 때였다. 1984년 의사국가시험에서는 그 중 단답형 문항을 객관식으로 대체시켜 나감으로써 대학보다 앞서서 시험문항의 객관화를 실행하였다. 그러나 대학에서는 지금까지도 시험에서 이 단답형 문제를 많이 사용하고 있는 것으로 안다. 의학평가에서는 이 두 유형(A, K형)의 문항으로는 적절한 능력 테스트를 하는데 한계를 느끼는 경우가 있었는데 이것을 극복하기 위하여 추가로 도입한 것이 미국의 의사시험원(National Board of Medical Examiners)에서 개발한 확장결합형문항(R형 문항, Extended Matching Type Items)이었다. 이것은 연계되는 여러 임상상황에서 실제로 선택해야 할 조치가 하나 이상일 경우 이 모든 것을 임상적으로 빠트림이 없이 선택하는지의 판단력을 확인하는 데는 매우 적합한 것으로 인정되어 우리 나라에서도 이미 1990년대 후반에 대학과 국가시험에서 도입하여 조심스럽게 실제 시험에 활용하며 그 효과를 분석하고 있다.
질을 높이기 위한 두 번째 노력으로는 신뢰성과 함께 또 하나의 큰 요인으로 작용하는 관련성 높이기에 의학 교육자들은 힘을 기울였다. 이것은 시험문항의 구성 재료인‘내용’을 무엇으로 삼을 것인가에 관한 과제였다. 당시 대학에서는 학습목표가 없었고 국가시험에서는 별도의 문항개발기준이 없었기 때문에 시험의 소재는 출제자가 마음먹기에 따라 정해졌고 따라서 시험내용은 의사가 되는데 판정하는 정보로 꼭 필요한 것에서부터 전혀 필요하지 않은 것에 이르기까지 다양하게 나타날 수가 있었다. 다행히도 학습목표가 만들어지고 세분화된 출제기준이 작성됨에 따라 문항의 개발도 그 범위 안에서 하도록 출제 경향이 점점 바뀌기 시작했으며 의사국가시험에서 1997년에 문항개발기준이 만들어지는 것을 고비로 1단계의 소재 범위가 가시화되었다. 그래서 그 뒤로는 기준이 될 목표도 다듬어지고 주관식에서는 탈피하여 객관식을 도입함으로써 타당성을 높이는 두 큰 요인을 개선하는 작업은 시작되었다.
문항의 질을 결정하는데 관한 또 하나의 요인은 관련성이 깊은 소재 가운데서도 지식의 수준을 어디로 잡을 것인가의 문제이다. 의학교육과정에서의 학습 대상인의학전문 지식은 비율로 보아 나머지 두 영역(수기 및 태도)에 비해 그 범위도 넓고 학습 분량도 많다. 이 지식은 의사가 사회에 나가 실제 직무를 수행하는 임상상황에 보다 가까운 내용이라야 관련성이 높아지는 것은 이론상 너무나 당연하다. 그러나 1970년대의 시험은 대학에서나 국가시험에서나 암기 수준의 문항이 주를 이루고 있었다. 그러나 이 암기 수준의 지식은 전체 지식 중 비교적 낮은 수준의 것으로서 단순한 기억력만 있으면 되었다. 따라서 이런 유형의 문항은 기억력이 좋은 사람에게는 유리한 입장이 된다. 그러나 의사에게는 의학지식을 활용하여 직무에서 부딪히는 실제 임상문제 또는 건강문제를 해결해야 하는 것이 본래의 역할이므로 그러한 유형의 학습을 시키도록 하고 검증을 할 때도 그런 수준의 지식을 테스트하는 것이 그 사람의 능력을 제대로 평가하는 척도가 된다. 그런 점에서 시험문항의 내용 수준의 비율을 암기 수준에서 해석 수준이나 문제해결 수준으로 점차 늘려 나가는 일은 결국 시험문항의 질을 높이는 일의 가장 시급한 과제가 되었었고 궁극적으로는 평가의 수준을 개선하는 일이 되었다. 1980년대와 90년대에 걸쳐서 이러한 지식수준의 비율 이동은 서서히 일어나 그 때의 시험문제에 비하면 지금의 시점에서 보는 문제해결형의 선택형문항은 수적으로도 비율이 많이 늘어났고 문항 형태도 이에 어울리는 모양새로 바뀌어 가고 있다. 즉 질문하는 문항줄기(Stem)는 보다 길어지고 답가지(Options)는 오히려 짧아지면서 답이 딱 떨어지게 명쾌해져 가고 있다. 임상상황을 제시하는 문제를 읽고 해석, 판단하기까지가 길지 선택할 답은 길 일 이유가 없기 때문이다. 여기에 덧붙여 시험문항도 글자로만 된 형태에서 한 걸음 더 나아가 실제 임상에서 진찰 또는 검사를 통해 얻어지는 각종 자료 예를 들면 진찰소견, 심전도, 혈액검사, 방사선 영상 등을 그대로 시험지에 옮겨서 실제 상황에 가까운 형태의 것으로 꾸며 나타내는 자료제시형 문항이 늘어가 시험의 질을 높이는데 큰 기여를 하는 하나로 꼽히게 되었다. 대학에서는 이 수준 높이기를 위한 노력을 교수 세미나, 워크숍, 실제 시험에의 적용 등을 통해 많이 시행해 왔고 국가시험에서도 늘 일정 비율 이상을 이러한 수준과 유형으로 반드시 출제하는 것을 출제기준에 명시하여 실행에 옮기고 있다.
좋은 소재를 가지고 객관식으로 아무리 좋은 시험문항을 만들었다고 하더라도 실제로 시험을 치른 뒤 과연 그 시험문항의 질이 어느 정도였는지를 판단하려면 문항분석을 하지 않고서는 판단할 정보를 얻어낼 길이 없다. 1970년대까지만 해도 시험을 끝낸 뒤 채점을 하여 성적을 매겨 보고하는 것으로 그쳤지 문항 자체를 분석하는 일은 따로 없었다. 그러나 이 과제 역시 그 당시 의학교육의 일반적인 개념 보급과 함께 대학에 널리 퍼져 시험을 끝낸 뒤에 반드시 문항분석(item analysis)을 하는 관습이 생기기 시작했다. 대학마다 답안지를 OMR card로 바꾸고 대학에서는 앞 다투어 card reader를 구입하여 교수들에게 문항분석을 정례화 하도록 독려했다. 의사시험은 1994년 민간기구로 시험업무가 이관되면서 바로 문항분석을 해마다 체계적으로 시행하여 다음 시험 준비에 반영하는 노력을 기울여 왔고 이러한 문항분석은 그 이후 지금까지도 계속되고 있다. 시험의 질을 높이기 위한 노력을 기울이고 그 결과를 분석하여 되먹임을 통해 질의 정도를 확인하는 역할을 비로소 하게 되었던 것이다. 그로 인하여 평가가 대학에서는 교육과정의 참뜻에 가깝게 다가서려는 노력의 시작이 이루어지게 되었고 면허시험에서는 개선을 위한 좋은 정보를 제공하고 있다. 시험문항이 얼마나 어려웠는지, 공부 많이 한 학생과 못한 학생을 어느 정도 구별하였는지, 한 문항의 정답률이 어느 정도였는지 등등의 정보를 통해 학생의 성취도 외에 선생이 문항을 얼마나 잘 작성했는지 참고를 할 수 있게 된 것이다.
1990년대 후반에 들어서면서 의학교육 평가에 관심을 가진 교수 사이에서는 문항분석에서 흥미와 관심의 영역을 넓히는 현상이 나타나기 시작했다. 즉 종전의 전통적인 고전검사이론에 따른 분석방법에서 한 차원 높여 문항반응이론(Item response theory) 공부에 열중하게 됨으로써(30-34) 의학교육평가도 지난 20년 동안 많은 발전을 하고 있음을 실감하게 되었다. 현재 보편적으로 널리 시행되고 있는 고전검사이론에 의한 방법이 총점으로 문항을 분석하고 시험을 본 사람의 능력을 추정하는 이론이라면 문항반응이론은 문항 하나하나에 근거하여 분석하는 이론이다. 즉 고전적인 검사에서는 한 수험생이 시험을 본 뒤 얼마나 많은 문항에서 정답을 선택하였는지에 대한 원 점수 계산과 한 문항에 얼마나 많은 수험생이 정답을 택하였느냐에 대한 계산을 해서 문항정답률을 분석하는 기술통계라고 한다면 문항반응이론에 따른 분석은 잠재적인 수험생의 능력과 잠재적인 문항의 난이도를 추정하는 것으로 추리통계에 해당한다[35]. 문항반응이론에 근거한 문항분석은 앞으로 언젠가 우리에게 다가올 실제 실행해야만 하는 능력시험이나 컴퓨터를 이용한 개별적응검사(computerized adaptive test, CAT)를 현실에서 적용하기 위해서는 필수적으로 갖추어야 할 연구 이론이라는 점에서 매우 고무적이다. 다른 한 면에서는 의과대학 의학교육 연구부서의 연구과제의 차원도 점차 달라지고 있음을 실감하게 한다.
의학교육과정에서 하나하나의 전문분야(과목)를 초월해서 포괄적으로 의학을 보았을 때 반드시 학습해야 할 3대 영역은 앞에서도 기술하였듯이 지식, 수기, 태도 영역이다. 이것은 의학의 어느 세부 분야에나 다 적용되며 의사가 되려는 사람에게는 반드시 필요한 학습내용이다. 지식이 환자의‘문제’를 해석하고 판단하여 어떤 결정을 내리는데 필요한 지적 능력이라고 한다면 임상수기와 태도는 그것을 해결하기 위해 실행에 옮겨가는 도구 격이기 때문이다. 따라서 이 세 가지가 고루 갖추어져 있어야 전문 집단에서 설정한 실행 표준에 따라 사회의 기대에 부응할 수 있는 방법으로 의사의 역할 즉 진료 및 다른 전문적 서비스를 해낼 수 있다. 그런 점에서 학습 3대 영역의 균형이라는 과제는 평가에서는 타당성을 높여주는 양 대 요인 중의 하나인 관련성과 깊은 관계가 있으며 이것이 제대로 균형을 이루고 있는 것이 곧 시험의 질을 결정하는 요인이기도 하므로 시험의 질을 다룬 앞의 제 5 장에서 기술되어야 할 내용이기는 하지만 학습 방법도 그렇고 그 평가 방법도 지식과는 다른 점이 많아 여기에 별도 항목으로 살펴보고자 한다.
의사가 이론만이 아니라 수행능력이 반드시 있어야 하며 그렇게 되려면 그 능력을 갖추기 위해 지식 이외의 나머지 영역도 종합적으로 학습해야하고 반드시 평가되어야 한다. 그 내용은 대학에 따라 조금씩 다르지만 여하튼 모든 대학의 교육과정은 그러한 데 초점을 맞추어 임상실습을 시키고 있다. 실습의 주된 내용은 임상추론절차를 어떻게 전개시켜 나가는지와 이에 따르는 임상수기(clinical skills)교육과 태도(attitudes)교육이며 실제 환자나 모의 환자를 통해 익힌다. 임상수기와 태도 교육에는 지적능력도 들어 있지만 행동으로 나타내야 하는 기술 또는 동작도 있으며 태도교육 내용은 그 과정에서 환자와 의사 사이에 끊임없이 교류하게 되는 말의 대화, 느낌을 주고받는 일종의 사람과 사람 사이의 대인관계(interpersonal skills)라고 보면 되고 그 관계의 핵심은 의사-환자 사이의 의사소통기술(communication skills)이다. 1970년대까지만 해도 이러한 임상실습은 학습을 시킨 뒤 관행적으로 직접 관찰(direct observation)이라는 방법 외에는 달리 평가에 적용할 길이 없었다. 그러나 이 방법은 주관적인 판단에 기인한 낮은 신뢰성, 많은 시간 소요, 평가자의 익숙하지 않은 평정척도(rating scale)나 점검표(checklist) 사용으로 실효를 거두기가 어려웠고 따라서 평가는 형식으로 흘렀으며 이에 따라 학생들도 점차 실습을 소홀히 하는 경향이 나타났다. 이에 따라 의대졸업자는 지식수준에서는 매우 높지만(knowledgeable) 실제 임상수행능력은 낮은 수준에 머물러있는 것(not-performable)이 현실이라는 것이 지배적인 의견이었다. 이렇게 필수적이고 중요한 비중을 차지하지만 그나마 학습이 끝난 뒤 평가를 체계적으로 시행하지 않으면 임상실습의 성취 정도는 알 길이 없고 특히 졸업을 앞둔 사람을 이제는 사회에 내보내도 되겠는지 그 안전성과 충실도를 대학이 보증하려고 할 때 판단할 근거가 없게 된다. 그러나 이러한 수기와 태도의 실행 상황을 측정하는 방법이 외국에서 하나 둘씩 개발되면서 그리고 유효성이 인정되면서 우리 나라 의학교육에도 이 방법이 소개되고 실행으로 옮겨지는 변화 현상이 뚜렷이 나타나고 있다.
임상수행능력은 지식과 수기와 태도를 한꺼번에 나타내게 하는 의학교육의 마지막 산물이다. 학생은 이미 배운 지식을 활용하여 정보를 찾아내고 그 결과를 해석, 분석, 판단하여 환자의 문제해결을 위한 어떤 임무(duties)와 과제(tasks)를 수행하게 되느니만큼 어떤 단일한 평면적 테스트만으로 이것을 평가하기는 적합하지 않다. 그러던 가운데 1970년대에 들어서면서 영국의 Harden 교수가 개발한 OSCE를 선보이면서 이러한 문제가 한걸음 앞으로 나가게 되었다. 이것은 테스트할 임상상황을 객관화하여 짜임새 있게 구성해 놓은 객관적 임상능력시험 (Objective Structured Clinical Examination, OSCE)으로서 학생의 임상수행능력을 비교적 신뢰성과 타당성이 있게 측정할 수 있는 방법으로 받아들여지게 되었다[36]. OSCE는 수험자에게 비교적 동일한 상황의 보다 표준적인 방법을 제시하면서 병력청취, 진찰, 의학적 조치, 의사소통, 데이터 해석, 검사의뢰 등을 종합적으로 평가할 수 있을 뿐 아니라 임상추론절차, 문제해결 능력까지 측정할 수 있다고 알려져 외국에서는 의과대학생은 물론 졸업 후 전공의(Resident)교육, 더 나아가 각종 면허시험에까지 적용되기에 이르렀다[37]. 수험생은 흔히 스테이션(Station)이라고 부르는 여러 개의 시험 방 시리즈를 차례로 돌게 된다. 스테이션은 보통 12-20 개 사이이고 정해진 시간 안에 주어진 표준화된 과제를 수행하고 그 상황을 채점자가 지켜보면서 평가하는 방식이다. OSCE는 특히 합격/불합격을 결정해야 할 상황이거나 학생이 미리 기술해 놓은 표준에 도달하였는지 여부를 판단해야 할 상황에 적합하다. 이 시험은 많은 수험생이 한꺼번에 시험을 치를수록 투자효과가 큰데 그것은 이 문제를 만들어내는 것뿐만 아니라 시험 진행을 하기가 힘들며 많은 자원이 동원되고 고도의 숙련도를 요구하기 때문이다. 시험을 연속해서 치르게 되면 시간이 그만큼 많이 절약되고 객관적인 시험과제(모듈 또는 시나리오)와 점검표의 풀(은행)을 유지하게 되면 시간, 노력, 경비를 줄일 수 있다. 이러한 시험은 타당성과 신뢰성이 더욱 높아짐에 따라 지식을 측정하던 것에서 다양한 종류의 기술(수기)을 측정하는 추세로 옮겨가게 하고 있다. 시험관이나 환자에 의한 변수는 상당 부분 제거되었다.
OSCE가 1990년대에 국내에도 본격적으로 알려지면서 의학교육학회를 중심으로 한 OSCE 연구회가 시동을 걸었고 이어 각 대학별 OSCE 연구회가 결성되고 활발한 연구 활동을 통해 많은 업적을 내었고 이미 거의 모든 대학에서 OSCE를 임상실행능력 학습과 시험에 실제 활용하고 있다. 이것을 위해 일부 대학에서는 수기학습센터(skill learning center)를 개설 운용하기도 하고 이러한 시설을 OSCE 형태의 시험에 전용할 스테이션으로의 복합적인 계획도 세우고 있다. 이에 맞추어 의사국가시험에서도 2007년경에는 지식 테스트에 추가하여 임상실기시험을 시행하려는 다단계시험 계획을 위해 연구를 이미 마친 것으로 알려졌다[38, 39]. 그것이 어떤 형태의 평가가 될지는 아직 윤곽이 드러나 있지 않지만 이러한 계획발표에 자극되어 많은 대학은 OSCE 연구에 이어 시나리오 개발, 표준화환자 훈련 및 활용 등에 힘을 기울이고 있으며 예전에는 거의 무관심 속에 놓여 있던 임상실습을 대학마다 한층 강화하고 있음을 알 수 있다.
OSCE라는 평가 방식은 많은 수험생이 실제 환자(Real patients)에게 피로감이나 스트레스를 주지 않도록 같은 임상문제에 대하여 임상모형(Models), 기기(Kits), 표준화환자(Standardized patient, SP), 또는 가상적인 모의 환자(Simulated patients) 등을 써서 시험을 치를 수 있도록 하고 있다. 그 중에서도 표준화환자는 훈련을 통하여 미리 정해진‘표준화된 행동’을 수행하게 하고 그것을 직접 또는 간접적인 관찰은 물론 점검표나 평정척도를 이용하여 측정하게 됨으로써, 전통적인 방법보다 훨씬 객관적인 시험이 된다[40]. SP는 최근 의학교육에서 개발된 가장 의미 있는 혁신적인 방법 중의 하나이다. 처음에는 프로그램화된 환자라는 뜻의 Programmed patient 라고 했었다. 그것은 환자가 아닌 일반 사람에게 환자의 역할을 하도록 훈련시켜서 행동하게끔 했기 때문이다. 70년대 이후 약 20년에 걸쳐 이 SP는 의미가 확대되어 가르치는 데 활용되는 일뿐 아니라 수험자의 능력 측정을 하는 평가자로도 복합적으로 기능이 커졌다[41]. 실제 환자는 같은 질환을 앓는 환자라도 질병의 양상, 신체적, 심리적 반응에 개인차가 많다. 그러므로 이러한 환자를 대상으로 평가하기는 편차가 크고 따라서 측정 결과의 신뢰성이 떨어진다. 더욱이 실제 환자는 질병의 치료과정에 본인이 교육의 자료로 노출된다는 점에 심리적으로 많은 부담도 가지고 있고 거부감도 있기 때문이다. 그런 점에서 SP는 환자를 표준화하기 때문에 질병의 특성을 어느 정도 균일하게 나타냄으로써 편차를 적게 하며 따라서 사전에 결정된 측정기준도 일관성을 유지하게 해주는 장점을 가지고 있다. 실용화 단계에서는 원고를 쓰는 의학 전문가(Case authors, Scenario writers), 교육 측정평가분야 전문가(Psychometrician), SP 훈련전문가(SP trainers) 그리고 당사자인 SP 등 여러 사람이 팀을 이루어 공동 노력을 해야 가능해진다[42]. 단점 중의 한 가지는 비용이 많이 든다는 점이다.
우리 나라에서도 OSCE의 도입과 함께 SP의 활용이 현실화되어 가고 있다. SP는 일반사람이면서 특수 교육을 받아 환자처럼 반응할 수 있어야 하므로 대개의 경우 기성 연극배우 또는 배우 지망 학생을 모집하여 환자연기를 하도록 교육 프로그램을 통해 가르치고 실제 시험 현장에 투입된다. 대상이 될 환자의 폭이 넓기 때문에 서양에서는 SP의 연령층도 어린이에서 노인에 이르기까지 다양하지만 아직 국내에서는 주로 성인이 대상이 되고 있다[43]. 2000년대에 들어서면서 국내에서는 잘훈련된 SP 확보를 위해 지역별 또는 대학별 연합 형태로 공동 연구와 실제 훈련을 시키는 일이 점차 늘고 있다. 가장 큰 규모의 컨소시엄은 서울경기 CPX 컨소시엄으로서 처음에 8개 대학으로 시작한 것이 확대되어 지금은 17개 대학(가천, 가톨릭, 경희, 고려, 관동, 서울, 성균관, 순천향, 아주, 연세, 울산, 이화, 인제, 인하, 중앙, 한림, 한양)으로 발전되었고 여기에 두 대학이 더 가입을 신청하고 있는 것으로 알려져 있다. 이들은 공동으로 출연한 예산으로 시나리오 개발, SP 트레이너 훈련, SP 모집과 훈련, 평가에의 활용 등 종합적인 업무를 관장하며 임상교육에도 적용하고 장차 면허시험에도 대비하려는 움직임이 조직적으로 이루어지고 있다[44]. 아무리 작은 나라이지만 실제로 한 지역에서 훈련된 SP가 다른 지역에 옮겨가서 비슷한 역할을 수행하려면 비용 부담이 크므로 많은 경우 인접한 지역 단위의 컨소시엄이 같은 목적으로 결성되어 운영되고 있다. 부산경남지역 4개 대학(부산, 동아, 경상, 고신) SP컨소시엄[45], 대구경북지역 5개 대학(경북, 영남, 계명, 대구가톨릭, 동국) 컨소시엄[46], 전남전북지역 5개 대학[전남, 조선, 전북, 원광, 서남]의 전라표준화환자 컨소시엄[47], 강원 충청 지역 3개 대학(강원, 충남, 충북)의 SP컨소시엄[48]이 그것이다.
OSCE보다 한 단계 더 발전된 것이 임상수행능력시험(Clinical Performance/Practice Examination, CPX)이다. 이 CPX 역시 미리 마련된 여러 스테이션을 거치면서 주어진 상황에서 대응하는 수행능력을 평가하는 방법인데 OSCE와 다른 점은 OSCE가 치밀하게 객관적으로 구성되어(Objective Structured) 있는 프로토콜에 따라 반응하도록 되어있는데 반하여 CPX는 수험자가 주어진 임상상황에서 무엇을 해야 할지를 알아서 판단하고 그에 따라 적절한 임무를 수행해야 하는 것이다. 즉 SP(환자)를 만나 그의 호소에 따라 할 일을 하고 다음으로 수행할 것을 중간 스테이션에서 필기, 구두, 컴퓨터를 통해 나타냄으로써 판단(결정력)이 채점된다. 그 동안 SP는 체크리스트에 따라 수험자의 수행사항을 평가한다. OSCE에서는 참관하는 평가자(교수)가 이런 수행사항을 체크리스트로 평가한다. 따라서 CPX에서는 환자(SP)를 만나 필요한 병력청취와 진찰기술 등의 임상수기 수행능력 시행과 동시에 환자와 교류를 하는 대인관계기술(의사소통능력 포함) 및 의사가 갖추어야 할 가치와 표준(Professionalism)까지도 나타내는 능력을 평가하게 되므로 실제 임상상황에 보다 가까운 상태에서 수기 및 태도를 모두 측정하는 것이다[49]. 그러나 CPX라도 실제 상황에서는 한계에 부딪칠 수 있는데 가령 자궁의 암을 가진 환자를 만나 내진을 하여야 할 상황이 되면 수험자는 내진을 하겠다는 의사를 나타내야 하고 SP는 그에 대응하여 방금 전에 검사를 받았다고 하면서 검사 결과를 적은 소견서를 보여주는 것으로 대체할 수도 있기 때문에 웬만한 환자를 다 다룰 수 있다. 우리 나라 대학에서는 초창기에는 OSCE에 대하여 관심을 가지고 있었지만 점차 CPX에도 관심을 두는 것으로 보아 두 가지 방법이 모두 적용될 가능성이 있다.
새로운 과학기술이 개발될 때마다 과학적 사실은 새로운 해석을 거쳐 그 결과가 다른 것으로 바뀌어 가듯이 의학교육의 평가에서도 더 나은 새로운 원리나 방법을 적용하면 거기서 얻어지는 데이터는 해석의 차원이 달라지고 그것이 의학교육에 되먹임을 할 때 그 영향은 의외로 커진다. 의학교육 평가는 의학 교육과정의 중요한 일부분이다. 이 사람이 의사로서의 공부를 모두 마쳤다고 판정할만한지, 이 사람의 능력이 의사면허를 받는데 적합한지 판단에 관계되는 당사자들은 지금의 기준을 적용하면서도 늘 고심을 한다. 무형의 능력(생각, 행동, 느낌)을 측정하는데 완벽은 없다. 다만 좀 더 사실에 가까운 자료를 얻어낸다는 일은 그런 점에서 무엇보다 소중한 의미를 지닌다. 이미 연구를 통해 알려진 대로 더욱 원칙에 가깝게 측정수단을 적용하는 것만으로도 시험도구의 질은 높아질 것이고 그 결과에서 얻어지는 데이터의 해석과 가치판단은 한층 신뢰성을 얻게 된다. 지금 우리 의학교육에서는 지식 영역의 측정 현장에서는 평가도구로서 객관식 문항 세 종류(A형, K형, R형)를 가장 널리 쓰고 있으며 수기와 태도 영역에서는 이제 막 OSCE와 CPX를 적용하려는 단계이다.
이미 오래 전부터 통용되고 있는 객관식 문항의 한 형태인 K형 문항은 의학교육에서 지향하고 있는 문제해결 능력을 갖추기, 암기중심의 학습능력을 줄이기의 방향에서 볼 때 과연 지속을 해야 할는지 관심 깊은 연구의 대상으로 떠오르고 있다. 그리고 나머지 두 형태인 A형과 R형 문항도 좀 더 그 문항의 특성을 살리기 위한 연구 노력과 함께 문항구성에 많은 시간 투자가 필요하다. 우리 나라 의대 교수의 능력으로 충분히 그 가치와 효율성을 얻어낼 수 있을 것으로 본다. 좋은 소재를 가지고 낮은 수준의 문항을 구성해 시험에 적용한다면 아까운 일이다.
우리 나라에서 개발한 것은 아니지만 OSCE와 CPX 모두 나름대로의 인정을 받고 있는 수기와 태도 같은 능력 측정의 혁신적인 방법이기 때문에 앞으로 당분간 실용을 통해 우리 환경에서의 적합성과 효율성이 하나씩 검증되고 그것이 체계적인 연구결과로 나타나면서 개선을 거듭할 것으로 생각된다. 지금은 처음으로 적용을 하려는 단계이기 때문에 어느 하나 조건이 갖추어진 것은 없다. 그러나 의학교육을 선도하는 교수들의 열의는 대단하여 언젠가는 이 평가방법을 제 궤도에 올려놓게 될 것이다. 그러기 위해서는 적용, 시행과 동시에 반드시 그 자체를 되먹임을 할 수 있는 연구계획도 함께 진행해야 할 것이며 그래야만 그 시험이 어떠하였는지 판단할 근거를 찾게 되기 때문이다. 평가에 대한 평가도 해야 한다는 뜻이다.
OSCE와 CPX 시행에 필연적으로 따르는 문제가 여럿 있다. 전문적인 시나리오 쓰기의 보급(훈련)과 적절한 시나리오 확보, SP 모집과 훈련을 총괄하는 관리체계, 전문적인 SP 트레이너 교육, 교육 프로그램 개발, 평가 단계에서 활용할 채점표 개발과 규격 표준화 등이 그것이다. 또한 물리적인 교육(평가)공간은 가장 시간이 많이 소요되는 부분이지만 이미 많은 대학이 장차 다가올 새로운 평가의 시대를 예견하여 신축, 개축을 통해 마련하였거나 마련할 계획을 세웠다는 점은 각 의과대학에서 얼마나 열의를 가지고 임상실기 수행능력 교육과 평가에 반응을 보이는지 짐작할만하다.
이런 모든 일을 원활하게 추진하려면 늘 시간에 쫓기는 의과대학 교수만의 힘으로는 힘겨울 정도가 아니라 거의 불가능하다고 보아야 한다. 물론 전문성 있는 평가이니까 교수가 주축이 되어야하지만 전문 인력의 도움이 적극 필요하다. 단순한 보조자가 아니고 기획단계에서부터 평가 전문가(psychometrician)의 도움이 절대적으로 필요하다. 그래야만 측정을 시행하는 과정에 좀 더 원리에 가깝게, 현실에 가깝게 도움을 받을 수 있기 때문이다. 시험이 끝난 뒤에 시험 자체에 대한 체계적인 평가가 반드시 따라야만 평가 본연의 기능도 살아난다는 점에서 이러한 업무를 주관할 의학교육 연구부서와 교육전문가의 확보도 시급한 과제로 떠오르고 있다. 2003년에 조사한 전국 의과대학의 의학교육 관련 부서는 17개였는데 현재는 아직 집계는 안 되었지만 더욱 많은 수로 늘어났다고 추정하고 있다.
우리 나라는 정보통신 강국이라고 자부하고 있다. 이미 방송, 통신이 융합되고 이것을 통한 무선화한 디지털 신호로 뉴스는 물론 교육, 연예, 오락까지도 여러 매체를 통하여 빠른 속도로 파급되고 있다. 의학교육에서도 예외가 아니어서 교육현장, 진료 현장에서 이미 종이, 필름, 사진, 보고 시트 등이 빠르게 컴퓨터, PDA 속으로 들어갔고 졸업 후 환자를 대할 때도 이제는 모든 진료 업무를 환자와 모니터를 동시에 앞에 놓고 하는 시대가 이미 다가왔기 때문에 졸업하여 허둥대지 않도록 학습을 그런 방법을 통하여 미리 시키고 평가도 그 방법을 적용하는 습관을 자연스럽게 키워주는 것이 시급한 과제이다. 이것도 사회가 변하면 대학도 마땅히 변해야 할 현상의 하나로 꼽을 수 있다. 대학의 각종 시험 중에서도 종전에 시행하던 필기시험은 멀지않아 컴퓨터를 통한 시험(Computer-based testing 또는 Computerized adaptive testing)으로 바뀔 날이 다가오고 있다. 실제 임상상황에 더욱 가깝도록 꾸밀 수 있는 모든 자료(글, 영상, 소리)를 엮어 넣을 수 있고 수험자의 채점과 되먹임을 현장에서 내려줄 수 있는 강력한 수단이 있기 때문이다. 이미 이런 시험을 시험적으로 시행하고 있는 대학도 있다. 그런 날을 위해서 환경을 꾸미고 한편으로는 데이터를 처리하는 이론을 공부하여 쌓아갈 가장 적합한 때이기도 하다.
여러 가지 점을 고려할 때, 우리 나라 의학교육 평가는 앞으로 당분간 지난 10년 사이에 기울였던 노력을 지속시켜갈 것으로 보이며 평가의 도구와 제도, 운용 및 기능을 한 층 향상시키는 데 힘을 기울일 것으로 예상된다. 이것은 평가에서 마땅히 갖추었어야 할 것이지만 못했던 것을 이제야 따라잡는 일이고 이 밖에도 더욱 앞으로 발전해나가는 선진국에서의 평가 추세를 마저 따라 잡아야 할 것이다. 예상되는 이 추세는 이미 1990년에 Miller 교수가 제창한 Pyramid of Competence가 방향을 말해준다[50]. 이 피라미드의 가장 낮은 수준은 주로 “안다(Knows)”는 능력에 초점을 맞추는 것이기 때문에 알고 있는지의 능력을 확인하려면‘지식’을 필기시험(Written test of lower grade)으로 평가하면 가능해진다. 그러나 이보다 상위 단계에서는“어떻게 하는지 안다(Knows how)”는 것을 보여주는 수준이므로‘지식의 응용’을 주로 학습시키고 평가하게 되었으며 이 능력을 보기 위해서는 필기시험 중에서도 주로 응용, 활용, 해결 능력을 평가하는 데에 역점을 두면 되는데 물론 이것도 필기시험(Written test of higher grade)이다. 그것의 대표적인 것이 문제해결 수준의 A형 문항과 더불어 요즘 관심의 수면 위에 오른 R형 문항 같은 것을 활용하는 방법이다. 우리 나라의 의학평가를 보면 우리도 이제는 많은 대학이“어떻게 하는지”를 평가하려는 2단계까지 와 있다. 앞으로 한 단계 더 나아간다면 어떻게 무엇을 측정하는 방향이 될 것인가? 지금까지는 어떻게 하는지 안다는 것을 확인하는데 까지 갔지만 한 수준 더 올라가면“어떻게 하는지 실제로 보여주는(Shows how)”데 까지 가는 것이 좀 더 실제 상황에 가깝도록 평가하는 것이 된다. 이것은 지식/수기/태도를 행동으로 나타냄으로써 보여주는 것이므로 실기시험 형태가 되지 않을 수 없고 따라서 문항을 활용하기보다는 SP를 써서 OSCE, CPX 형태의 수기 태도 능력시험(Competence test) 방법으로 바뀌는 것이다. 많은 대학은 지금 이러한 형태의 평가 방법을 정착시키려는 노력을 기울이고 있다. 그러나 하는걸 보여주는 단계에서 한걸음 더 나아가면“실제로 하는 것(Does)”을 평가하는 단계가 된다. 이것은 가장 실제 상황에 가깝고 그러기 위해서는 실행(수행)시험(Performance test)이라고 할 수 있는 그런 수준으로까지 진전될 것으로 보인다. 이것은 포트폴리오(Portfolio)로 측정하는 방법이다. 그러나 이 방법은 그냥 방치가 아닌 치밀하게 짜여진 즉 프로그램화되어 있는 것이고 수험자는 다만 실행을 하게끔 하는 것이다. 따라서 앞으로 이것을 평가의 수단으로 적용하기 위해서는 또 하나의 과제를 관심 있게 연구할 필요가 있다. 그러나 이것은 굉장히 앞서 나가있는 방법으로서 지금까지의 우리가 따라잡고 있는 실기시험(skill test)과는 한 차원 다른 것인데 선진국에서는 이런 것을 지금부터 관심을 가지면서 연구, 실행, 분석을 하고 있다. 우리 나라는 지금 이 Miller 교수의 피라미드 두 번째 단계에서 막 세 번째 단계로 진입하려는 길목에 와있다. 비록 의학교육 평가의 개선을 늦게 출발은 했지만 그래도 지난 20년 동안에 전반적인 흐름을 따라 매우 빨리 쫓아온 셈이다. 우리 나라의 의학교육 평가는 앞에서 기술한 바와 같은 기본을 업그레이드시켜 나가면서 이런 단계에까지 선진국을 마저 따라가야 하지 않을까 생각된다. 이것이 앞으로 우리가 해야 할 일이 될 것이다.
우리 나라 의학교육에서의 평가는 시대에 따라 중요성과 기능의 인식 정도, 실행 의지, 효율성, 신뢰성 등에 많은 변화를 가지면서 발전되어 왔다. 1970년대 이전의 평가는 교육 내용에 비하면 여러 측면에서 중요성의 정도가 낮았고 기능은 거의 학생의 성적 매김 같은 행정목적이 전부였다. 시험 타당성의 정도도 낮았고 이의 개선의지도 매우 미약하였다고 볼 수 있으며 교육학적인 개념 도입이 거의 안 된 상태로 의학자체만의 독특한 방법으로 유지하여 왔다. 그러나 그 뒤 교육학적인 개념의 도입으로 의학교육은 새로운 시야에 눈을 뜨기 시작했고 자책과 후회, 반성을 하는 교수들의 사회에서 변화의 방아쇠가 당겨졌다. 1980년대에는 평가의 기준이 될 학습목표의 중요성을 인식하게 되어 거의 전국적인 의견이 모아져 불완전하게나마 의학교육에서 가르쳐야 할 것, 평가해야 할 것의 근거를 찾게 되었고 그 다음에는 측정 도구인 문항의 질을 높이기 위한 노력을 여러 측면에서 시도하였다. 측정 목적에 따른 적절한 문항 형태의 선택, 문항작성의 기술적 보완, 시험 후 문항분석과 해석 그리고 되먹임(feedback) 등이 대표적인 개선 노력이었고 그 결과 지금은 전에 비하여 평가의 의미는 물론 타당성 면에서도 많이 개선되었다. 최근 10년 사이에는 그 동안 지식 중심으로 치우쳤던 평가의 영역이 임상수기와 태도에까지 확대되어 신뢰성을 어느 정도 인정받은 OSCE나 CPX 같은 새로운 평가 방법에 관심을 가지게 되었고 이에 따른 SP의 공동 훈련, 활용을 위한 지역별 컨소시엄이 자발적으로 구성되어 활발하게 연구, 기획, 실용 단계에까지 이르고 있다. 새로운 문항반응이론을 바탕으로 하는 문항분석 연구에의 강한 의지는 앞으로 시행될 컴퓨터를 통한 적성시험의 이론적 배경을 더욱 탄탄하게 만들어줄 희망이 될 것이다. 우리 나라 의학교육 변화의 견인차는 한국의과대학장협의회, 한국의학교육학회, 대한의학회 그리고 한국보건의료인국가시험원의 4두 마차라고 할 수 있으며 그 견인차를 끌어가는 에너지는 의학교육에 깊은 관심과 애정을 가져온 교수들의 헌신적인 열정에 힘입은 바가 컸을 것으로 생각된다.
참고문헌
1. Baik SH. Changes in the Medical School Curriculum and Licensure Examination in Korea. In Proceedings of the Inaugural Symposium of the Asian Medical Education Association(AMEA), “Asian Medical Education in the 21st Century”. University of Hong Kong: Asian Medical Education Association;2001, June 21-22.
2. Baik SH. Major Reforms in Korean Medical Education. In Proceedings of the First Asia-Pacific Medical Education Conference(APMEC) in Singapore. . University of Singapore;December 4-5, 2003.
3. 백 상호. 의학교육의 변화추세와 현황. 대학교육. 1986; 19:95–99.
4. 백 상호. 의학교육의 세계적 변화추세. 대한가정의학회지. 1996; 17(9):714–720.
5. 전 종휘. 현대의학의 발전: 그 연대와 인물들. 인제연구장학재단;1992.
6. Flexner A. Medical Education in the United States and Canada. New York, NY: Carnegie Foundation for the Advancement of Teaching;1910.
7. 백 상호. 우리 나라 의학교육의 과거, 현재, 미래. 가톨릭의대 의학교육과 창설 기념 세미나 자료집. 가톨릭의대 교수회의실: 가톨릭의과대학, 2002. 4. 4.
8. 백 상호. 의학교육에 있어서의 통합교육. 한국의학교육협의회/의학교육연수원 16회 의학교육 세미나. 중앙대학교 루이스홀: 한국의학교육협의회/의학교육연수원, 1982.5.4.
9. AAMC(Association of American Medical Colleges). Physicians for the Twenty-first century. Report of the Panel on the General Professional Education of the Physician(GPEP Report). Washington D.C.: AAMC;1984.
10. World Federation for Medical Education. Report of the World Conference on Medical Education. Edinburgh, 7-12 August, 1988.
11. World Health Organization. Community-based Education of Health Personnnel. Report of a WHO Study Group. WHO Technical Report Series. 1987. 764.
12. GMC. The Duties of a Doctor. General Medical Council. London. 1995.
13. 백 상호. 우리 나라 의과대학에서의 교육과정 개선시도. 한국의학교육. 1995; 7(2):107–114.
14. 한국의학교육학회. 한국의학교육학회 20년사. 서울: 한국의학교육학회;2003.
15. 성 태제. 현대교육평가. 서울: 학지사;2002.
16. Guilbert JJ, editor. Educational Handbook for Health Personnel. 6th ed. Geneva: World Health Organization;1987.
17. Mehrens WA, Lehmann IJ. Measurement and Evaluation in Education and Psychology. 4th ed. Orlando: Harcourt Brace College Publishers;1991.
18. 백 상호. 학교 교육평가에서의 문제점. 제1회 의학교육 세미나 자료집. 서울의대 의학교육연수원;1974.
19. 서울의대 의학교육연수원(옮김). 세계보건기구 간행물 시리즈 52. 의학교육프로그램 개발(WHO, Development of Educational Programmes for Health Personnel). 1978.
20. 백 상호. 평가 객관화의 필요성. 제16회 한국의학교육협의회 세미나(학업성적의 객관화 방안) 자료집. 서울 크라운호텔: 1981.
21. 대한의학회. 의과대학 학습목표(기초의학편). 대한의학회;1988.
22. 대한의학회. 의과대학 학습목표(임상의학편I). 대한의학회;1990.
23. 대한의학회. 의과대학 학습목표(기초의학편II). 대한의학회;1992.
24. 최 삼섭. 학습목표 작성. 한국의학교육. 1990; 2(1):68–75.
25. 백 상호. 학습목표의 영역과 수준. 한국의학교육. 1992; 4(2):91–98.
26. 대한의학회. 의과대학 학습목표(기초의학편, 개정판). 대한의학회;1999.
27. 대한의학회. 의과대학 학습목표(임상의학편, 개정판). 대한의학회;2000.
28. 한국의과대학학장협의회. 의과대학 학습목표. 한국의과대학학장협의회;2004.
29. 문항개발기준연구팀. 의사국가시험 문항개발기준. 한국의사국가시험원;1997.
30. 황 인홍. 문항반응이론을 의학 연구 및 교육에 어떻게 활용할 것인가? 제 3회 의학교육연구소 세미나자료집. 춘천: 한림대학교;2003. 25.
31. 임 은영, 박 장희, 권 일, 송 규림, 허 선. 고전검사이론과 문항반응이론에 따른 의사국가시험 문항분석. 보건의료교육평가. 2004; 1(1):67–76.
32. 임 미경. 문항반응이론을 이용한 2003-2004년도 의사국가시험의 검사동등화. 제13회 의학교육연구소 세미나 자료집. 춘천: 한림대학교;2004. 41–51.
33. 허 선. 의과대학 한 과목 시험에서 문항반응이론에 따른 검사 동등화 예. 한국의학교육. 2005; 17(1):(출판중).
34. 고려의대 의학교육실. 측정평가 이론 활용 워크숍 자료집. 고려의대;대한의학회;2005.2.22.
35. 채 선희, 지 은림, 백 순근, 설 현수. 믄항반응이론의 이론과 실제(McNamara. Measuring Second Language Performance). 서현사;2003.
36. Harden RM, Gleeson FA. Assessment of Clinical Competence Using an Objective Structured Clinical Examination(OSCE). Medical Education. 1979; 13:41–54.
37. Kramer AW, Zyuithoff JJ, Dusman H, et al. Predictive Value of a Written Knowledge Test of Skills for an OSCE in Postgraduate Training for General Practice. Medical Education. 2002; 36(9):812–819.
38. 황 건, 이 영미, 백 상호. 의사시험에 임상수기수행평가를 도입하기 위한 예비연구. 한국의학교육. 2001; 13:277–287.
39. 이 윤성, 이 영미, 박 훈기. 다단계시험제도의 실행 방안 연구 -실기시험 시행 방안을 중심으로-. 국시원 연구프로젝트 보고서. 한국보건의료인국가시험원;2004.
40. Barrows HS. An Overview of the Uses of Standardized Patients for Teaching and Evaluating Clinical Skills. Academic Medicine. 1993; 68(9):443–453.
41. Barrows HS. Training Standardized Patients to Have Physical Findings. Southern Illinois University. Springfield, IL. USA: 1999.
42. King AM, Perkowski-Rogers LC, Pohl HS. Planning Standardized Patient Programs: Case Development, Patient Training, and Costs. Teaching and Learning in Medicine. 1994; 6(1):6–14.
43. 이 성아. 표준화환자 모집 및 훈련 경험. 제1회 CPX 컨소시엄 심포지엄 자료집(서울의대 의학교육실, 의학교육 연수원, 한국의학교육학회). 서울의대 강당: 2004.12.3.
44. 김 석화. 서울 CPX 컨소시엄 경험. 제1회 CPX 컨소시엄 심포지엄 자료집(서울의대 의학교육실, 의학교육 연수원, 한국의학교육학회). 서울의대 강당:2004.12.3.
45. 서 닥준. 부산경남 지역 SP 컨소시엄. 개인 커뮤니케이션: 2005.
46. 이 정애. 전남북 지역 SP 컨소시엄. 개인 커뮤니케이션: 2005.
47. 김 대현. 대구경북 지역 SP 컨소시엄. 개인 커뮤니케이션: 2005.
48. 이 병국. 강원충청 지역 SP 컨소시엄. 개인 커뮤니케이션: 2005.
49. Garman KA. What is SP, OSCE, CPX? Korean Journal of Medical Education. 1998; 10(1):172–180.