There has been a surge in medical research attempting causal inference along with the enhancement in the adoption of electronic health records (EHRs) and the secondary use of large claim databases. Unlike in randomized clinical trials, the assignment of treatment is not independent of the baseline characteristics in observational data. Hence, two key assumptions should be satisfied for estimating causal inference in the observational study: unconfoundedness and overlap. Unconfoundedness rather than overlap is a significant challenge in most studies. Intuitively, unconfoundedness is more plausible when more covariates are included in the analysis. In this regard, the large-scale propensity score model (LSPS) balancing virtually all observed confounders is favorable over the propensity score model adjusting expert-derived tens of variables. However, LSPS often fails to balance available covariates in the high-dimensional, low sample-size (HDLSS) data, i.e. p >> n. This weakness hinders its wide adoption through a distributed research network based on standardized clinical data. Hence, this study aims to develop a more robust framework for causal inference based on propensity score in HDLSS: database-wide representation-learning-based propensity score model (RLPS). RLPS is composed of two components: 1. a task-agnostic, database-wide asymmetrically stacked autoencoder (DASA) to abstract high-dimensional features: and 2. downstream Bayesian lasso to estimate propensity score. A task-agnostic, database-wide asymmetrically stacked autoencoder (DASA) is trained in an unsupervised way based on a database-wide feature matrix to distill condensed meaningful representation. Once DASA is pretrained, the deep encoder of DASA maps the covariates into condensed space, and then Bayesian lasso estimates propensity score as a downstream task. Finally, propensity score matching is conducted to estimate the average treatment effect. The performance of RLPS was evaluated by using two clinical cases: 1. comparative cohort study of new users of 1. angiotensin receptor blocker and calcium channel blocker in hypertension: 2. ranitidine and other H2-receptor antagonists. In each case, 1000 and 500 patients were randomly sampled 100 times from the single standardized EHR database of tertiary hospital. Unconfoundedness, accuracy in risk estimates, and residual bias were compared between RLPS and LSPS. Compared to LSPS, RLPS identified more overlap and achieved better balancing performance of a large set of covariates between target and comparator cohorts. Mostly, RLPS performs better when there is an empirical equipoise. RLPS can be an attractive alternative to LSPS in studies when the number of covariates exceeds observations. Furthermore, RLPS may facilitate the population-level estimation study using EHRs of single institutions across the distributed research network.
무작위 임상시험(randomized clinical trial)과 달리, 관찰형 연구(observational study)에서는 치료의 배정이 무작위로 이루어지지 않는다. 인과성 추론(causal inference)를 위해서 관찰형 연구에서는 치료 배정의 강한 무시 가능성(strong ignorable treatment assignment, SITA)의 가정이 필요하며 이는 무시 가능성 또는 비교란성(ignorability or unconfoundednes)과 중첩성(overlap or positivity) 가정으로 이루어져 있다. 일반적으로 관찰 연구에서는 무시 가능성의 성립을 주요하게 생각하며, 직관적으로 이는 가능한 많은 변수를 보정할 때 성립될 수 있을 것이라 생각할 수 있다. 대규모 성향 점수 모델(large-scale propensity score model, LSPS)은 베이지안 라소 (Bayesian lasso)를 이용하여 보통 10,000 개 이상의 가용한 거의 모든 변수를 실험군(target cohort)와 대조군(comparator cohort) 사이에 보정한다. 이는 대규모 데이터베이스에서 일반적으로 전문가의 의견에 따라 수십 개의 변수만을 보정하거나, 또는 임상 결과(outcome)와 관련 높은 변수만을 보정하는 고차원 성향 점수 모델 (high-dimensional propensity score model, hdPS)에 비해서 보다 강건한 위험도 예측을 할 수 있다. 하지만 LSPS 는 고차원의 대규모 데이터에서는 매우 좋은 성능을 보여주지만, 변수의 숫자(p) 가 실험군과 대조군의 숫자(n)보다 많은 경우, 즉 고차원의 작은 샘플 (high-dimensional low sample size) 데이터에서는 환자들의 교란 변수를 잘 통제하지 못하는 모습을 보여왔다. 이는 분산형 연구망(distributed research network, DRN)에 참여하고 있는 많은 의료기관에서의 LSPS 도입을 저해하고 있다. 무엇보다도 새롭게 도입되는 치료법이나 갑작스럽게 발생한 팬더믹 상황처럼, 환자수가 비교적 적은 경우, 신뢰성 높은 관찰형 연구의 진행을 어렵게 한다.따라서, 본 연구에서는 HDLSS 데이터에서도 SITA 가정의 성립을 도와줄 수 있는 표현 학습 기반 성향 점수 예측 모델 (representation-learning based propensity score model, RLPS)을 개발하였다. RLPS 는 고차원의 데이터를 저차원 잠재 공간(low dimensional latent space)로 전환(mapping) 해줄 수 있는 비대칭 오토인코더(Database-wide asymmetrically stacked autoencoder, DASA)를 미리 학습 (pretraining) 시켜 활용한다. 이후 DASA 의 one-layer decoder 를 LSPS 의 Bayesian lasso 로 치환하여 하향 과제(downstream task) 형태의 딥러닝 아키텍처로 RLPS 가 구성된다. RLPS 의 성능은 2 개의 임상 시나리오를 통해서 확인하였다. 먼저 라니티딘(ranitidine)을 복용한 환자와 기타 H2 수용체 길항제 (H2-receptor antagonists, H2RAs)를 복용 환자 간의 암 발생 위험도를 비교하였다. 또한 고혈압으로 angiotensin receptor blocker (ARB)을 복용한 환자군과 calcium channel blocker (CCB)을 복용한 환자군의 심근경색 위험도를 오몹 공통데이터모델(observational medical outcome partners-common data model, OMOP-CDM)으로 변환된 3 차 의료기관의 데이터를 이용하여 비교하였다. 전체 비교군 중 1000 명과 500 명을 100 번 무작위 추출하여 성향점수모델의 예측력, 중첩성, 비교란성에 대한 RLPS 의 성능을 LSPS 와 비교하여 확인하였다. 또한 전체 환자를 이용해 LSPS 를 통해 얻은 임상 결과에 대한 위험도를 기준으로 두고 예측된 위험도의 정확도를 비교하였고, 음성 대조군(negative controls)을 이용하여 잔여 교란(residual confounding)을 비교하였다. 전체 대상 환자 중 1000명과 500명의 환자를 임의 추출하여 확인하였을 때, RLPS 는 LSPS 에 비하여 치료 배정의 예측도(c-statistic)은 낮았다. RLPS 는 일반적으로 잔여교란 정도가 RLPS 가 LSPS 에 비해 낮았으나, 환자수의 부족으로 음성 대조군의 확인이 어려운 경우가 많았다. RLPS는 LSPS에 비해 더 많은 overlap 을 확인할 수 있었고, 가용한 변수들의 절대 표준화된 평균의 차이를 줄임으로써, 중첩성과 비교란성을 동시에 충족시키는 결과를 보여주었다. 본 연구에서 개발한 RLPS 는 HDLSS 데이터에서 기존의 LSPS 에 비해 향상된 성능을 보여주었다. RLPS 는 인과추론을 위하여 기존에 제시한 딥러닝 프레임워크와는 다르게 task-agnostic autoencoder 를 도입하여 효율성을 극대화하였으며, 실제의 임상데이터와 시나리오를 사용하여 SITA 가정의 충족을 도와줄 수 있음을 확인하였다. RLPS 는 분산형 연구망 내의 중소규모의 데이터를 이용한 인구수준 추정 연구 및 신종 전염병 또는 새롭게 도입된 치료법과 같이 연구 집단의 숫자가 많지 않은 경우의 연구에 많은 도움을 줄 수 있을 것이다.