Journal List > J Korean Med Assoc > v.57(5) > 1042812

고, 임, Ko, and Lim: 근거중심 보건의료의 시행을 위한 빅데이터 활용

Abstract

Data pools and their integration are fueling the big data revolution in health care with the recent advances in information technology. Korea has shown tremendous promise in the utilization of big data for its advanced technology, computerized health data, and unique identifiers. However, the Personal Information Protection Act (PIPA) severely limits access to personal identifiers, which has discouraged the use of health data even for the public good. In contrast, western countries have focused on research without the use of identifiers, which has augmented the use of the available data while maintaining and respecting privacy; they have allowed some exemptions of informed consent and utilized limited data sets, which have the identifiers removed. The amount of research output has increased rapidly and an in-depth understanding of cancer has been made possible based on the linkage of Surveillance, Epidemiology, and End Results (SEER) and Medicare in the US. More than 700 projects covering a wide range of medical areas have been conducted, which has led to changes in clinical practice based on the Western Australian Data Linkage System. Although rare, evidence-driven decisions based on data linkage have been found in some cases in Korea; the adoption of prostate cancer screening as a national screening program was suspended as its cost-effectiveness has not been verified on the basis of data linkage by the National Evidence-Based Healthcare Collaboration Agency. For the active use of health data, there is an urgent need to amend PIPA, prepare regulations for data analysis, and foster collaboration among data-related institutions. Great projects based on data linkage will guarantee the world's leading research output and will be major sources for moving forward to success.

서론

빅데이터(big data)는 기존의 데이터베이스 관리도구가 수집, 저장, 관리, 분석하는 범위를 넘어서는 규모의 데이터로 정의되지만, 이의 활용은 양적인 개념에 국한되지 않고 데이터의 분석과 활용의 전 과정을 포괄한다[1]. 빅데이터는 방 대한 자료의 분석을 통해 미래를 예측하는 기반을 마련해주기 때문에 국가의 미래 경쟁력을 좌우할 수 있는 핵심요인으로 평가 받고 있다. 세계경제포럼은 2012년 가장 주목해야 할 과학기술로 빅데이터 분야를 선정하였다[2]. 또한 여러 연구에서 공공분야에 빅데이터를 활용 시 미국의 추가 생산성은 1% 향상되며, 영국정부의 총 예산 중 2.5-4.5%가 절감될 수 있다고 예측하였다[3]. 보건의료 분야에서도 이러한 현상은 예외가 아니다. 매킨지는 '보건의료 분야의 빅데이터 혁명'이라는 보고서에서 빅데이터를 통해 근거중심 의료서비스 제공 및 의료전반에 걸친 패러다임 변화가 가능한데, 혁명의 핵심은 자료원이며 변화를 위한 전제조건은 자료원간 연계라고 제시하였다[4].
우리나라는 정보기술강국으로 전국민대상 주민등록번호와 전산화된 의료이용자료들이 있기에 빅데이터를 활용할 수 있는 인프라 측면에서는 선진국과의 경쟁에서 충분히 우위를 점할 수 있다. 이를 이용하여 질병의 원인적 연관성, 치료효과 파악 및 보건의료 분야 정책 입안에 필요한 근거들을 효율적으로 생성할 수 있다. 그러나 2011년 개인정보보호법 시행 이후 기관이 보유한 정보를 연계하여 활용하는 것이 극히 제한적인 상황이다. 개인정보를 중요시 하는 선진국에서도 과학적 근거창출을 위해 자료활용이 필요한 경우 공공의 이익을 위해 개인정보를 엄격히 보호하면서도 공익연구를 활성화시키고 있다. 우리나라도 근거중심의 보건의료를 위하여 자료를 연계한 빅데이터로 연구를 수행할 수 있는 기반을 마련하는 것이 매우 중요하다. 이에 본고에서는 빅데이터 활용의 필요성을 파악하고 국내외 활용현황을 살핌으로 향후 근거중심의 보건의료를 시행하기 위한 빅데이터 활용의 발전방안을 모색하고자 한다.

보건의료 분야 자료연계의 필요성 및 제한점

근거중심 보건의료란 개별적 환자나 의료서비스를 제공하는 의사결정에 있어서 현재 가용할 수 있는 최상의 근거를 사용하는 것이다. 근거수준이 높은 근거생성 연구방법은 무작위배정 임상시험, 코호트연구 등이 있다. 그러나, 무작위배정 임상시험의 연구결과는 일반화 가능성이 매우 낮고, 코호트연구는 비용과 시간이 많이 소요되며 시의 적절한 대응이 어렵다는 한계점이 있다. 이러한 기존의 연구방법과는 다른 차원에서 객관적이고 과학적인 근거 생성을 위해 국민을 대상으로 구축된 건강보험 청구자료, 검진자료 및 사망자료 등의 기존 자료를 활용할 수 있다(Table 1) [5]. 그러나 기존 국가기관 및 공공기관의 자료들은 각 기관의 고유 업무 수행을 위해 수집, 보관된 것이므로 단일 자료만을 사용 시 연구변수가 제한적이어서 결과 해석에 영향을 줄 수 있다. 따라서 여러 기관의 다양한 자료원 간 연계를 통하여 개별 자료원이 갖는 강점을 극대화하고 한계점을 상호 보완하여 질 높은 연구결과를 도출하는 것이 필요하다.
보건의료 분야 전문가를 대상으로 설문조사 시 조사대상의 92.1%가 공공기관 보건의료자료 융합의 필요성을 느끼며, 이는 근거 중심의 공공보건정책 수립에 필요하다고 응답하였다[5]. 그러나 개인정보보호법제정(2011년 9월 30일) 이후 공공, 민간부문, 비영리단체 및 개인을 포함하여 환자의 동의가 없는 경우 민감정보 및 고유식별정보의 수집 및 이를 이용한 연구가 불가능하게 되었기에 자료연계는 매우 어려운 상황이다. 자료연계 시 일시적으로 노출되는 고유식별정보로 인해 발생할 수 있는 기본권 침해로부터 환자의 인권을 보호하여야 하는 가치는 매우 중요하다. 그럼에도 불구하고 자료연계를 통해 얻을 수 있는 객관적 의료정보 제공 및 의료비 절감 효과 등 공익적 가치를 고려하여 자료연계 가능성 검토 및 연구 활성화 방안을 모색해야 할 것이다.

외국 보건의료 분야의 빅데이터 활용

1. 개요

미국, 호주, 캐나다, 영국 등에서는 보건의료 분야 연구에 연계자료를 활용하고 있으며, 관련 기관들은 세계적인 네트워크(International Health Data Linkage)를 형성하여 연계자료 생성 및 활용에 대한 원칙을 규정하고 엄격히 준수하고 있다(Table 2) [6]. 자료사용 원칙은 1) 연계된 자료가 없으면 연구가 수행될 수 없을 경우, 2) 자료가 어느 누구에게도 불이익이 되지 않는 경우, 3) 연구의 관심이 공익적 목적인 경우, 4) 안전성, 비밀유지 등이 유지되며 개인의 식별정보는 삭제되고, 비밀유지에 자료연계, 분석, 행정 담당자 및 연구자 모두 동의한 경우에 해당한다[5].

2. 관련 법령

헬싱키선언(2008)에서는 식별 가능한 자료가 포함되면 자료수집, 분석, 보관 및 재사용 등에 동의가 필요함을 전제하고 있다. 다만 필요 시 연구윤리심의위원회의 심의를 거쳐 동의를 면제받을 수 있는 예외 규정을 마련하였다. 이에는 동의 취득이 불가능하거나 현실적으로 어려운 경우 또는 동의가 연구의 타당성을 현저히 저해시킬 가능성이 있는 경우가 해당된다. 미국은 건강보험 양도 및 책임에 관한 법(Health Insurance Portability And Accountability Act)에서 익명화된 개인식별 건강정보는 개인식별 건강정보로 간주하지 않으며, 직접적 식별자를 제외한 경우를 제한된 데이터(limited data set)로 정의하여 연구에 활용할 수 있게 하였다. 이러한 법령 등을 통해 환자의 정보를 보호하면서도 효과적이고 효율적인 연구를 수행할 수 있는 기반을 마련하였다[5].

3. 미국의 Surveillance, Epidemiology, and End Results-Medicare data

미국의 Surveillance, Epidemiology, and End Results (SEER)-Medicare data는 암환자의 보건의료연구를 위하여 National Cancer Institute (NCI) 산하 SEER 암 레지스트리 자료와 Centers for Medicare and Medicaid Services (CMS)의 Medicare 청구자료를 연계한 자료원이다. SEER 프로그램에는 암 신환자의 발생 위치, 병기 및 조직학적 소견 등의 자료가 있으며 이 중 Medicare 수혜자인 경우 CMS 자료와 연계하여 의료이용현황을 파악할 수 있다[7].
SEER-Medicare data는 160만 명의 암 환자가 대상이며, SEER 프로그램에 포함된 암 레지스트리가 개인식별자를 제공하여 이를 Medicare 자료와 연계 후 병합한다. 자료연계는 1991년부터 시작되었으며, 3-4년 주기로 2012년까지 자료연계가 업데이트 되었다[8910].
자료연계 이후 개인식별자는 제거하여 연구를 목적으로 신청하는 외부연구자에게 제공된다. 그러나 요청 자료가 방대한 경우 개인식별위험이 있기에 별도 NCI의 승인을 받은 경우에만 사용이 가능하다. 연구자가 인구학적 정보나 의사의 개인정보(전문과, 전문의 자격 등)를 필요에 의해 요청 시 NCI 내 전문가가 암호화된 의사식별번호의 암호를 풀어 미국의사협회로 보내고, 미국의사협회에서 필요 변수를 붙여주면 NCI는 다시 이를 암호화하여 필요 변수와 함께 연구자에게 제공하기도 한다[10].
SEER-Medicare의 연계자료를 통해 암에 대한 다양한 연구들이 가능해졌으며, 특히 암 치료법의 효과에 대해 폭넓은 이해가 가능해져 신약개발 및 근거중심 급여정책에 많은 도움을 제공하고 있다. SEER-Medicare를 활용한 연구는 매년 증가하며 1993-2014년까지 수행된 연구는 총 978건에 달한다(Figure 1) [8]. 주제별로는 치료방법, 성과연구, 건강불평등, 연구방법론 등의 차지 비율이 높았으며, 종양부위별로는 유방암, 대장암, 전립샘암, 폐암 등의 연구가 많이 수행되었다[8].

4. Western Australian Data Linkage System

1995년에 서호주 주민들의 요청으로 서호주보건부의 주도 하에 서호주주립대학, 커틴대학 및 테프론연구소가 협력하여 개인정보에 대한 비밀유지를 전제로 자료연계 체계를 구축하였다. 호주는 주민등록번호 등의 개인고유식별자가 없으므로 Western Australian Data Linkage System (WADLS)는 서호주 인구 대상 의료이용자료 전반, 암 등록자료 및 인구동태자료 등에 대해 개인출생정보, 사망정보 및 부모정보 등을 토대로 확률적으로 연계하여 개인별 master linkage key를 산출한다. 개인식별코드를 이용하지 않기 때문에 기밀유지가 가능하고, 번거롭지 않은 1회의 양해각서 체결을 통해 공익적 목적의 연구수행이 가능하다[510]. 한편 개인정보를 보호하기 위하여 WADLS는 전반적으로 강한 문화적 환경을 조성하고 있고, 자료연계를 담당하는 공무원은 공공분야관리법(Public Sector Management Act)에 따라 고용되며 관련 규정을 준수해야 한다. 또한 자료의 새로운 연계가 필요한 경우 서호주 보건부의 윤리위원회 승인이 반드시 필요하며 모든 직원 및 연구자는 비밀유지 서약서에 서명을 해야 한다. 이후 자료가 연구자에 제공되기 전 자료관리자로부터의 공식 승인을 거치는 절차를 두고 있다[1112]. WADLS의 특징은 각 자료원 별로 관리기관에서 분산 운영하면서 국가 혹은 연구자가 요청 시 보건부 및 산하 연구조직기관에서 시의 적절하게 자료원을 연계하여 제공한다는 것이다.
WADLS 자료를 활용하여 임상연구, 질환예방, 질병정책 등이 발전하는 사회적 편익이 있었다. 학술적인 측면에서는 1995년 이래로 2013년까지 WADLS를 이용한 공익적 목적의 프로젝트가 700개 이상 수행되었다[11]. 또한, 국민개개인은 좋은 치료와 처치를 받을 수 있었다고 평가하였으며, 초기 비용이 많이 소요되었지만 경제적 편익을 창출한 비용편익적 사업으로 평가되었다. WADLS 를 이용한 공익적 목적의 연구들은 암, 심혈관질환, 사회환경 이슈 등의 주제가 많았다. 이 중 정신건강레지스트리, 병원자료, 암자료 및 사망자료를 연계하여 정신건강문제를 조사한 연구가 있었는데 수행 결과 현행 정신건강관리 프로그램 상의 문제점을 발견하였기에 개선안을 제안하였다. 이후 정부는 이 연구의 개선안을 기초로 약 1,700억 원의 예산을 책정하여 정신건강 상 문제가 있는 사람들을 보조하였다[512].

국내 보건의료 분야의 빅데이터 활용

국민건강보험공단은 2013년 건강보험의 진료내역, 건강검진, 거주지 및 보험료, 요양기관정보 등을 빅데이터로 활용한 연구용 표본 데이터베이스를 구축하였다. 이는 100만 명의 표본코호트 데이터베이스, 3개의 희귀질병 데이터베이스 및 건강검진 데이터베이스이며 공익적 연구목적에 한해 제공을 추진한다. 건강보험심사평가원도 2011년 입원환자 70만 명 및 외래환자 50만 명을 대상으로 진료세부내역이 포함된 환자표본자료를 개발하였다. 그러나 각 표본자료 모두 국립암센터, 통계청 자료 등과의 연계가 되지 않은 상태이므로 단일 기관이 보유한 자료원 사용에 따른 한계를 내포하고 있다. 암 등록자료의 경우 보건복지부 국가지정사업 등 극히 예외적인 경우를 제외하고는 개인정보가 포함된 자료를 사용할 수 없는 상황이다. 이에 암 등록자료와 지역사회 코호트 자료를 연계한 한국인 다기관 암코호트(Korean Multi-center Cancer Cohort) 등은 개인정보보호법 강화 이후 연구수행이 어려운 실정이다[10].

한국보건의료연구원의 경험과 제언

연구기관 중 한국보건의료연구원은 의료기술평가연구를 주제로 공익적 목적으로 타당하면서 시의 적절한 대응을 위한 연구결과를 도출하는 것이 중요하다는 판단 하에, 가용한 이차자료원을 적극적으로 활용하여 근거기반의 연구를 수행하여 왔다. 2009년 개원이래 2013년까지 건강보험 청구자료를 활용하여 수행된 연구는 34건이며, 이 중 정부의 필요 등으로 요청된 과제에 한해서는 병원자료, 청구자료, 중앙암등록자료, 통계청 사망자료 등을 연계하여 검토를 하였다. 이러한 대표적 경우가 전립샘암 검진도입의 타당성을 평가한 연구였다[13]. 2010년 전립샘암의 발생률과 사망률이 증가함에 따라 조기발견과 적극적 치료로 생존율을 향상시킬 필요성이 대두되었기에 국가 암검진 프로그램에 포함될지 여부를 판단하는 것이 필요하였다. 전립샘암 검진은 prostate specific antigen (PSA) 검사라는 비교적 간편한 혈액검사를 통해 수행할 수 있다. 이에 병원검진자료(인구학적 변수, 문진표, PSA 점수 등 실험실 검사치), 건강보험 청구자료(경제성 분석을 위한 전립샘암 발생률 및 치료비용), 중앙암등록자료(전립샘암 진단) 및 통계청 사망자료(전립샘암 사망)의 자료원을 연계하여 전립샘암 검진 연구를 수행하였다. 이 중 건강보험 청구자료와 중앙암등록자료의 직접 연계가 어려웠던 한계는 있었지만 이를 통해 전립샘암 검진법의 양성예측도를 분석하고 비용효용분석을 수행하였다. 그 결과 PSA검사를 이용한 전립샘암 집단검진의 임상적 효과와 경제적 이득은 비용효과적이지 못하다는 결론을 얻었고 이를 근거로 전립샘암의 국가 암검진사업 도입은 보류된 바 있다. 이후 한국보건의료연구원은 보건의료기술진흥법의 개정(2013년 7월 30일)을 통해 국가기관 및 공공기관의 민감정보 및 고유식별정보를 수집하여 연계할 수 있는 법적 근거를 마련하였다. 그러나 실제 자료연계를 활성화하기 위해서는 자료원을 보유한 기관별로 모든 관련된 자료를 검토해야 하고 상황을 파악해야 하는 어려움이 상존하고 있으며, 기관간의 협조가 아직은 원활치 않은 것이 사실이다. 개인정보보호라는 가치와 공익적 연구를 통한 보건의료근거의 창출이라는 가치간에 균형을 유지하면서 연구를 강화해야 하는 지혜와 사회적 합의가 요구된다. 특히 우리나라는 단일보험제도로 전 인구를 관리하고 있다는 강점이 있으므로 이러한 공공자료를 이용한 연구가 활성화될 경우 국가적 수준의 연구결과를 지속적으로 발표하여 세계 학계를 선도해나갈 수 이점이 있음을 강조하고자 한다.

보건의료 분야에서의 빅데이터 활용을 위한 향후 발전방안

급속하게 변화되는 정보화 시대에 우리나라가 보유한 보건의료 분야의 빅데이터 및 활용에 최적화된 전산자료는 세계에서 유례없는 귀중한 자산이다. 그러나 개인정보보호라는 사회적 요청에 따라 자료 활용 측면보다는 관리에 초점을 두고 있는 현 상황에서 자료연계를 이용한 연구는 매우 어려운 실정이다.
이를 위하여 우선은 개인정보보호법 개정을 통한 빅데이터 활용연구의 활성화를 도모하는 것이 선행되어야 할 것이다. 개인정보보호에 엄격한 선진국에서도 건강정보를 이용하여 공익적 목적의 연구를 하는 경우 이를 활용할 수 있도록 법적으로 명시하고 있다. 앞서 살펴본 것과 같이 연구를 위해 필요 시 동의를 면제받을 수 있는 예외규정 마련 및 직접식별자를 제외한 데이터 셋의 활용방안 등을 검토하여 이를 적용하는 방안을 마련해야 할 것이다. 이와 아울러 개인정보 없이 암호화된 식별자를 사용하여 연계하며, 연구수행 시 개인정보 노출의 위험성을 최소화시키기 위해 식별자 없이 자료분석을 하는 기본 원칙 준수를 위한 세부지침을 설정하여 개인정보보호를 위한 안전망을 마련해야 할 것이다.
또한, 공공자료 보유기관 간 원활한 협력체계가 구축되어야 하며 더 나아가서 민간의료기관과 공공자료 간 연계가 가능하도록 정부 차원에서 자료의 연계 및 활용에 대한 합의를 이끌어 내고 운영을 위한 재원마련에 노력해야 할 것이다.

결론

과학적 근거창출을 위해 빅데이터의 유용성이 매우 부각되고 있는 현 시점에서 개인정보보호의 목적은 달성하면서도 공공의 이익을 위해 원자료 관리기관들이 보유하고 있는 자료원들을 이용한 연구가 갖는 강점을 극대화하여 필요한 자료를 연계, 활용함으로 보건의료 분야 근거를 생성할 수 있는 기반을 마련하는 것이 절실하다. 특히 우리나라의 의료수준이 세계적으로 잘 인지되고 있다는 관점과, 우리나라가 단일건강보험체계를 성공적으로 운영하고 있다는 관점에서 각종 공공데이터를 연계하는 의학연구가 성공적으로 시행될 경우 세계 의학을 선도할 수 있는 좋은 연구결과를 발표함으로써 또 한번의 도약을 이룰 수 있을 것이다.

Peer Reviewers' Commentary

본 논문은 보건의료 결정과정이 최신의 타당한 근거를 바탕으로 이루어지려면 의료정보와 관련한 빅데이터의 적극적인 활용이 필요함을 강조하고 있다. 의료자원의 효율적 배분과 의료서비스의 안전성과 효과성을 확보하려면 빅데이터 연구를 수행할 수 있는 법적, 제도적 장치 마련이 필요하다는 저자들의 주장은 시기적절하다. 또한 자료연계과정은 타당하면서 질 높은 근거를 생성한다는 점에서 그 필요성을 강조하였고 이와 관련한 외국의 사례들을 제시하고 있어서, 본 논문은 우리 실정에 합당한 관련 법령을 개정하는 과정에서 주요 자료원이 될 것이다. 그러나 개인정보의 보호와 공익적 연구목적이라는 측면에서, 빅데이터 자료를 다루는 사용자들의 연구윤리가 선행되어야만 사회적으로 수용될 수 있을 것임을 저자들은 추가로 강조할 필요가 있다.
[정리: 편집위원회]

Figures and Tables

Figure 1
Numbers of publication based on United States SEER (Surveillance, Epidemiology, and End Results)-Medicare Data (1993-2012). a)2012 Publications through May 15 are under-counted due to reporting lags. From National Cancer Institute. SEER-Medicare linked database [Internet]. Bethesda: National Cancer Institute; 2013 [8].
jkma-57-413-g001
Table 1
Overview of secondary data in public health by data source
jkma-57-413-i001

NHIS, National Health Insurance Service; HIRA, Health Insurance Review and Assessment Service.

Modified from Park KS, et al. A strategic study of data linkage for evidence development. Seoul: National Evidence-based Healthcare Collaborating Agency; 2010[5].

Table 2
Data linkage centers in International Health Data Linkage Network
jkma-57-413-i002

From International Health Data Linkage. Data linkage centres [Internet]. [place unknown]: International Health Data Linkage; c2014 [6].

References

1. Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C. Big data: the next frontier for innovation, competition, and productivity. Lexington: McKinsey;2011.
2. World Economic Forum. Big data, big impact: new possibilities for international development. Geneva: World Economic Forum;2012.
3. Ko SJ, Chung YH. Health risk prediction using big health data. Health Welf Policy Forum. 2012; 193:43–52.
4. Groves P, Kayyali B, Knott D, Kuiken SV. The 'big data' revolution in health care: accelerating value and innovation. Lexington: McKinsey Global Institute;2013.
5. Park KS, Bae JM, Lee HJ, Kim JH, Jang EJ, Choi JE, Hyun MK, Chung SY, Hwang JS, Lee EJ, Lee NR, Lee S. A strategic study of data linkage for evidence development. Seoul: National Evidence-based Healthcare Collaborating Agency;2010.
6. International Health Data Linkage. Data linkage centres [Internet]. [place unknown]: International Health Data Linkage;c2014. cited 2014 Mar 3. Available from: http://www.ihdln.org/data-linkage-centres.
7. Ambs A, Warren JL, Bellizzi KM, Topor M, Haffer SC, Clauser SB. Overview of the SEER: Medicare Health Outcomes Survey linked dataset. Health Care Financ Rev. 2008; 29:5–21.
8. National Cancer Institute. SEER-Medicare linked database [Internet]. Bethesda: National Cancer Institute;2013. cited 2014 Mar 4. Available from: http://appliedresearch.cancer.gov/seermedicare.
9. Bradley CJ, Penberthy L, Devers KJ, Holden DJ. Health services research and data linkages: issues, methods, and directions for the future. Health Serv Res. 2010; 45(5 Pt 2):1468–1488.
crossref
10. Bae JM, Jee SM, Nam MH, Kim SH, Park JJ, Choi HY, Lee SM. Round-table conference of data utilization for public good healthcare study. Seoul: National Evidence-based Healthcare Collaborating Agency;2011.
11. Government of Western Australia, Department of Health. Data Linkage Western Australia [Internet]. East Perth: Government of Western Australia, Department of Health;2013. cited 2014 Mar 6. Available from: http://www.datalinkage-wa.org/.
12. Brook EL, Rosman DL, Holman CD. Public good through data linkage: measuring research outputs from the Western Australian Data Linkage System. Aust N Z J Public Health. 2008; 32:19–23.
crossref
13. Lee SM. Health technology assessment of prostate cancer screening test in the context of national cancer screening program. Seoul: National Evidence-based Healthcare Collaborating Agency, Ministry of Health and Welfare;2011.
TOOLS
ORCID iDs

Min Jung Ko
https://orcid.org/http://orcid.org/0000-0003-3599-7173

Tae-Hwan Lim
https://orcid.org/http://orcid.org/0000-0003-1213-8720

Similar articles