서론
전향적 연구(prospective study)는 특정 처치(treatment)를 받는 처치군(treatment group)과 대조군(control group)에 해당되는 연구대상을 선정하는 것에서 출발한다. 특정 처치가 나타내는 결과를 추정(causal inference) 하기 위하여 연구대상을 선정할 때는 연구 설계 단계에서 무작위 배정(random assignment)을 사용하여 결과에 영향을 주는 특성의 차이가 없도록 해야 한다. 그러나 임상에서 환자에게 위험(hazard)이 예상되는 경우 혹은 이미 특정 치료방법이 시행되고 있는 경우에는 무작위 배정이 윤리적 문제를 발생시킬 수 있다. 예를 들어 수술 전 간기능의 손상이 예상되는 환자를 대상으로 간기능에 영향을 미치는 마취약으로 전신마취를 시행하여 간기능의 손상이 진행 되거나, 폐암 치료방법으로 수술이 권장되는 경우 다른 방법과 비교를 하여 환자가 수술에 의해 치료를 받을 수 있는 기회를 박탈하는 경우 등이 있다.
준실험(quasi-experiment)은 무작위 배정의 과정을 거치지 않고 행하는 실험 방법이며, 대표적으로 관측연구(observational study)가 해당된다[1]. 관측연구는 무작위 배정없이 특정 집단을 대상으로 연구를 진행하기 때문에, 조금 더 현실적이고 일반적인 장점이 있다. 또한 추정된 치료효과를 임상에 적용할 수 있도록 조정이 가능하며, 특정 혼란변수에 대한 통계적 통제방법을 적용할 수 있다. 그러나 관측연구는 연구대상의 선정에서 선택편향(selection bias)을 피할 수 없고, 무작위 배정에 의하지 않기 때문에 어떤 현상의 원인을 추론하는 것이 근본적으로 불가능하다. 선택편향이란 특정 공변량(covariate)에 의하여 연구대상이 특정 처치를 받을 확률이 증가하는 것을 말하며, 이 공변량은 처치군과 대조군 사이의 결과 차이를 규명하는데 혼란변수로 작용하게 된다.
관측연구에서 선택편향을 감소시키는 방법으로 고전적으로 사용하는 방법은 짝짓기(matching)이다[1]. 짝짓기는 결과에 영향을 미치는 공변량의 수준을 맞춘 연구대상들을 처치군과 대조군에 고르게 포함시키는 방법이다. 그러나 발생률이 낮은 현상을 연구 대상으로 한다면, 짝짓기 방법으로 통계적 검정력(statistical power)을 가지는 수만큼 표본을 수집하는 것은 매우 어려우며, 공변량이 여러 개라면 두 군을 완전히 맞추는 것이 불가능하고, 오히려 여러 개의 공변량을 모두 맞추면 편향되고 왜곡된 통계 결과를 도출하기도 한다. 관측연구에서 고전적인 짝짓기 방법이 가지는 단점을 극복하고 선택편향을 최소화 하기 위해 propensity score를 이용한 짝짓기 방법이 사용되고 있다. Propensity score matching (PSM)은 관측연구 뿐 아니라 무작위 배정의 적용이 어려운 후향적 연구 등과 같이 준실험에 해당되는 연구방법에서 선택편향을 감소시키는 방법으로 사용된다[2].
이글은 PSM의 개념, 방법과 PSM이 가지는 장점과 단점 그리고 실제 사용에 있어서 주의 사항을 소개하는 데 목적이 있다.
Propensity Score의 정의와 계산방법
Propensity score란 연구 대상이 특정 공변량에 의해 대조군이 아닌 처치군에 포함될 확률이다[3]. 예를 들어 연구대상이 대형병원에 가까이 거주할수록, 대형병원에서 치료를 받을 확률이 높아진다. Propensity score는 확률이기 때문에 0에서 1사이의 값을 가진다. 만약 연구대상이 처치군과 대조군에 무작위 배정되었다고 가정한다면, 이때의 propensity score는 0.5가 된다. 그러나 실제 준실험 설계에서 무작위 배정은 불가능하므로 각 공변량에 대한 propensity score를 추정하여 이 점수(확률)을 이용한 조정(adjustment)을 시행하게 된다. Propensity score는 공변량과 특정 처치를 받아 처치군에 포함되는 것과의 연관성에 따라 결정된다. 다른 공변량의 효과가 없다고 가정한다면, 특정 공변량에 대해 같은 propensity score를 가지는 연구대상들이 처치군과 대조군에 같은 수로 포함된다면 이 두 집단을 대상으로 한 통계적 추론의 결과는 같은 propensity score를 가지는 공변량에 의한 효과보다는 특정 처치를 받아 처치군에 포함되었기 때문에 발생한 차이에서 기인한 것이라고 할 수 있다.
Propensity score는 두가지 방법으로 계산한다[1]. 한가지 방법은 2003년에 Lemon 등이 처음 소개한 non-parametric decision tree method로 ‘classification and regression tree analysis (CART)’라는 방법이다. 그러나 이 방법은 너무 복잡하고 특정 통계적 상황에서만 적용이 가능하기 때문에 널리 사용되지 않는다. 다른 방법은 로지스틱 회귀분석을 사용하는 방법이다. 이 방법은 처치군에 포함되는 경우를 1, 대조군에 포함되는 경우를 0으로 하는 이항반응(binary response) 형태로 종속변수를 설정하고, 보정하려는 공변량을 독립변수로 지정하여 로지스틱 회귀분석을 시행한다. 이 경우 로지스틱 회귀분석은 propensity score model을 추정하며, 이 모형에 의해 각 대상들의 추정된 확률(각 대상이 주어진 공변량에 의해 처치군에 포함될 확률)이 propensity score에 해당된다. 이후 대조군과 처치군에 포함된 모든 연구대상에 대하여 propensity score가 같은 혹은 유사한 대상끼리 짝을 맞추어 자료를 선정하게 되며 짝을 이루지 못한 것들은 통계분석에서 제외한다.
Propensity Score를 이용한 짝짓기 방법들
PSM이 등장한 이후로 다양한 matching method가 소개되었으나, 최근에는 Greedy matching method와 optimal matching method를 많이 사용한다. 이 두가지 방법은 다른 PSM의 장점들을 사용하여 이루어지며, 방대한 양의 자료를 다루기에 적합하다. PSM은 다음에 설명되는 방법들 중 단독으로 혹은 몇가지 방법을 함께 사용하여 왔으며, 마지막에는 최근 많이 사용하는 Greedy와 optimal matching method에 대해서 기술하였다[4,5].
층화 짝짓기(stratified matching)
Propensity score의 범위에 따라 몇 개의 간격으로 연구에 포함된 개체를 분류하는 방법이다. 다섯 개 정도의 층(strata)으로 자료를 분류하면 공변량에 의한 bias를 90–95% 가량 제거할 수 있다. 또한 통계분석 결과가 관찰되지 않은 공변량(unobserved covariate)에 의해 영향을 받는 것이 의심 되는 경우, 층화 짝짓기 방법이 매우 유용하다. 비슷한 propensity score를 가지는 대상들을 같은 계층에 모아 분석을 하면, 관찰되지 않은 공변량에 의한 효과가 의미 있게 감소하는 것으로 알려져 있다[5].
최 근접 짝짓기(nearest neighbor matching)
대조군과 처치군에 포함된 모든 연구 대상들의 추정된 propensity score 차이의 절대값이 가장 작은 순서대로 짝짓기를 하는 방법이다.
N : N matching
대조군과 처치군에 포함된 연구 대상을 무작위로 나열한 뒤, 처치군의 첫번째 개체부터 N개의 대조군 중에서 propensity score가 가장 차이가 적은 개체와 짝짓기를 하는 방법이다. 짝짓기의 방법은 대조군과 처치군의 각각 한 개씩 짝을 이루게 하면 1 : 1, 대조군 하나와 여러 개의 처치군을 짝을 이루게 하면 1 : N, 그 반대의 경우에는 N : 1 matching이 되며 상황에 따라 선택하여 사용한다. 1 : 1 matching은 대조군과 처치군의 propensity score가 비슷하지 않으면 많은 수의 처치군의 자료가 탈락되는 단점이 있다. 따라서 처치군과 대조군의 표본수가 같은 경우에는 1 : 2 matching이 1 : 1 matching보다 좋은 검정력을 가지나, 1 : 5이상으로 matching을 하면 검정력의 증가는 미미한 것으로 알려져 있다. 또한, 대조군의 표본수가 작은 경우에는 한번 짝짓기에 사용된 대조군의 연구대상을 반복해서 사용하는 ‘matching with replacement’방법이 효과적이다. 이 방법을 사용하는 경우에는 대조군의 자료 분포를 설명할 때 반복되어 사용된 개체가 있음을 명시해야 한다. 만약 대조군의 표본수가 충분히 많다면 대조군과 처치군을 1 : 2로 짝짓기를 하는 것이 적절하다.
Radius matching
처치군의 propensity score로부터 미리 설정한 간격 이내의 대조군을 짝짓기 하는 방법이다. 모든 처치군의 연구대상이 짝을 이루게 되나, 이들의 propensity score 차이는 반드시 설정한 간격 이내이어야 한다.
Kernel matching
처치군과 대조군의 propensity score의 차이에 반비례하는 값에 의하여 가중치(weight)를 결정하고 대조군의 가중평균 (weighted average)에 의거하여 처치군의 개체들과 짝을 이루는 방법이다.
Caliper matching
추정된 propensity score의 표준오차 (standard error)의 1⁄4에 해당되는 값을 범위로 지정하여 짝짓기에 사용한다. 대조군과 처치군의 짝을 이룰 대상들 사이의 propensity score 차이가 이 범위 내에 해당되는 경우에만 짝을 이루어 분석에 포함시키고 제외되는 모든 개체는 분석에서 제외한다.
Mahalanobis metric matching
처치군의 연구대상과 Mahalanobis distance가 가장 작은 대조군이 짝을 이루는 방법이다. 짝짓기는 모든 처치군 대상이 짝을 이룰 때까지 시행되며, 남는 대조군 개체들은 분석에서 제외한다.
Mahalanobis distance는 다음과 같이 정의된다(등식 1).
S−1: 짝을 이루는 변수들의 공분산행렬의 역행렬
xi,yi: propensity score에 따라 짝을 이룬 변수들
(xi-yi)T: 공분산행렬의 전달행렬(transfer matrix)
관찰연구에서 Mahalanobis matching method는 block randomization design과 같은 것으로 간주한다. 또한 대조군의 표본수가 많지만 비대칭 분포를 하는 경우에는 Radius나 Kernel 혹은 Mahalanobis matching이 사용된다.
Greedy matching method
Greedy matching method는 다양한 post-matching analysis이 가능하기 때문에 유용하다[6]. 또한 연구 대상이 정규분포를 하지 않거나, 연속변수가 아닌 경우에는 Caliper matching에서 정의된 범위 내로 최 근접 짝짓기를 이용한 Greedy matching method가 적절하며, 표본수가 작은 경우에는 Mahalanobis metric matching을 사용한 Greedy matching이 유용하다. 여러 장점에도 불구하고 Greedy matching method는 몇 가지 제한점을 가지고 있기 때문에 널리 사용되지는 않는다. 첫째, 이 방법은 가능한 정확한 matching을 하기 때문에 많은 수의 연구대상이 배제되게 된다. 둘째, Greedy matching은 대조군과 처치군의 추정된 propensity score들의 분포가 서로 겹쳐야 가능하며 대푯값(예: 평균 혹은 중앙값)이 유사하여야 사용이 가능하다. 이외에도 다양한 논문에서 제한점들이 제기되고 있다[6,7].
Optimal matching method
PSM의 방법 중 가장 최근에 소개된 Optimal propensity score matching (OPMS)은 network flow theory에 기초하여 짝짓기를 최적화하며, 관찰연구에서 bias를 통제하는데 가장 많이 사용된다[7,8]. 특히 2002년에 Hansen 등이 통계 프로그램인 R에서 사용할 수 있는 optmatch package를 공개하면서부터 사용빈도가 급증하였다. OPMS는 유사한 propensity score를 가진 대조군과 처치군의 연구대상들이 하나의 계층(stratum)으로 분류하여, 자료 전반에 걸쳐 층화(stratification)를 시행한다. 여러 개의 계층으로 나누어지는 과정 중에 짝짓기가 이루어지며, 각 계층 내에서 처치군과 대조군 표본수의 비율에 따라 matching process가 결정된다. Matching process는 1:1 matching (pair matching), 1:N matching (variable ratio 혹은 variable matching, 하나의 처치군에 여러 개의 대조군을 짝짓기 하는 방법), N:N matching (full matching, 여러 개의 처치군과 여러 개의 대조군을 짝짓기 하는 방법)중 선택이 가능하다. 이 방법으로 전체 표본에 대한 propensity score의 통계적 거리(statistical distance)를 최소화하는 계층을 만들어 통계분석을 시행한다.
Validating PMS
Propensity score가 같은 대상들만 짝짓기를 했다면 짝짓기가 완료된 자료는 완벽하게 균형을 이루는 처치군과 대조군을 가지게 된다. 그러나 propensity score는 propensity score model에 포함된 모든 공변량에 대한 확률이고, PSM은 propensity score가 가까운 것들끼리 짝짓기를 이루는 과정이다. 따라서 PSM후에는 짝짓기 과정의 적절성에 대해 검정이 필요하다.
Balance diagnostics는 공변량이 연속변수 이거나 혹은 이분변수(binary variable)인 경우에 평균과 표준편차 혹은 빈도를 이용하여 두 군의 공변량의 차이를 알아보는 가장 단순한 방법이다. 만약 공변량이 범주형 변수라면 가변수 (dummy variable)를 생성하여 분석이 가능하다. 이 방법에 의한 표준화된 차이(standardized difference; d, 등식 2, 3)가 0.1보다 작다면 두 군의 공변량에 의한 차이는 무시할 정도라고 결정한다[7].
x̄: 처치군과 대조군의 공변량의 평균
s2: 처치군과 대조군의 공변량의 분산
p̄: 처치군과 대조군의 공변량의 빈도
PSM을 이용한 자료는 짝짓기 전후의 balance diagnostics를 함께 표시하여 짝짓기 결과의 적절함을 반드시 밝혀야 하며, 가능하다면 paired, variable 그리고 full matching의 타당성 검사 결과를 모두 제시하여야 한다[9].
Matching Data의 분석
PSM에 의해 생성된 자료의 분석은 일반적인 이분변수를 분석하는 방법과 같다. 결과 변수가 중도 절단된 형태의 자료(censored data)라면, 생존분석을 이용하는 방법도 가능하다. 흔하게는 stratified log-rank test나 stratified Cox regression을 사용한다[10].
Optimal matching method를 사용한 경우 회귀분석이 유용하다. 1:1 optimal matching method를 예를 들면, 짝을 이룬 두 군의 개체들의 결과변수 차이를 종속변수로 지정하고, 짝을 이룬 개체들의 공변량의 차이에 대해 regression을 시행하면 절편(intercept)이 평균적인 처치의 효과(average treatment effect)를 나타내게 된다(difference score regression). Variable ratio나 full matching의 경우에는 Hodges-Lehmann aligned rank test를 시행한다. 몇몇 통계 프로그램에서 이 방법이 package나 내장된 함수 혹은 매크로로 제공이 된다.
결 론
준실험 형태의 연구에서 PSM을 이용하여 선택편향을 감소시키는 방법은 위양성 결과의 발현을 억제한다. 그러나 현존하는 PSM 방법은 많은 제한점을 가지고 있다. PSM 과정에는 선택되지 않고(분석에 포함되지 않고) 버려지는 표본의 수가 상당히 존재함으로, 발생율이 낮거나 표본수가 작은 경우에는 사용이 어렵다. 또한 상당히 보수적인 방법 (conservative method)임에도 불구하고 선택편향을 완전히 제거할 수 없다. 이외의 제한점들로는 관찰되지 않은 공변량에 대해서는 조정이 불가능하고, 많은 표본수를 요구하거나, 처치와 관련된 공변량을 대상으로 조정하나 그 공변량이 결과변수에 전혀 관련이 없거나 혹은 아주 높은 상관관계를 가지게 되는 경우에는 분석의 결과에 의도하지 않은 영향을 미치게 된다[11].
PSM은 최근 빠르게 발전하고 있는 분야로 여러 가지 방법들이 여전히 시험과정을 거치고 있다는 것은, 이 글에 소개한 방법들도 많은 제한점과 약점을 내재하고 있다는 것이다[11]. 따라서 PSM을 이용할 때는 각 방법이 기본적으로 내포하고 있는 가정(assumption)을 반드시 만족해야만 한다. PSM은 두가지 중요한 기본 가정을 필요로 한다. 첫번째는 conditional independence assumption이다. 즉, 한 연구대상이 처치군에 속하게 되는 것은 관찰된 특징들에 의해 결정되어야 한다. 만약 관찰되지 않은 요인이 존재한다면 matching estimator가 편향되게 된다. 두번째 가정은 common support condition혹은 overlap condition이다. 즉, 비교를 시행하는 두 군의 propensity score들은 반드시 어느정도 중복되는 분포를 가지고 있어야 한다. 만약 중복되지 않는다면 PSM은 불가능하다.
PSM을 위한 Statistical Packages
통계 프로그램으로 R (The R Foundation for Statistical Computing)을 사용한다면 쉽게 matching package를 구할 수 있다[14-16]. R과 PSM을 위한 package를 사용하는 방법이 가장 사용자가 원하는 대로, 쉽게 결과를 얻을 수 있기 때문에 이 방법을 가장 추천한다. Stata (StataCorp LP, Texas, USA)의 경우에도 PSM을 위해 내장된 함수 기능이 있기 때문에 비교적 용이하게 가능하다[17-19]. SAS (SAS Institute Inc. NC, USA)나 SPSS (IBMⓇ SPSSⓇ Statistics, IBM Corporation, NY, USA)의 경우에는 macro 기능을 이용하여 PSM을 사용할 수 있다[20,21]. SPSS에서는 이전버전에서 사용자 정의 대화상자 패키지 기능을 이용하여 국내에서 개발된 package가 소개된 적이 있으나 최근 버전에서는 작동하지 않는 아쉬움이 있다.