분산 연구망 (Distributed research network, DRN)은 후향적 관찰연구를 수행하기 위해 위한 방안으로, 서로 다른 원천 데이터의 통합분석이 가능하도록 하여 다양한 연구 주제에 대한 후향적 연구의 통계적인 검증력을 확보할 수 있도록 해준다. 하지만 검체 검사(laboratory test) 등 검사 결과의 경우, 원천데이터마다 환자의 인구 구성이 서로 다르며, 또한 서로 다른 측정 방법을 사용하여 수집되어지기 때문에 다기관 통합 분석을 위해 단순히 검사 결과들을 합칠 경우, 심각한 오류가 발생할 수 있다. 임상 시험과 유전체 분석 분야에서 서로 다른 검사 측정 기기로부터 측정된 결과를 정규화 방법들이 존재하지만, 이러한 기존의 정규화 방법들은 실제 의료환경에서 수집된 의료 데이터에 적용하기에는 적합하지 않다. 본 연구에서는 원천 데이터의 이질적인 임상-역학적 특성을 보정하면서 서로 다른 원천 데이터의 검사 결과를 정규화 방법을 제시하는 것을 목적으로 하였으며, 본 연구를 통해 제시하는 방법은 부분 집단 보정 정규화법 (subgroup adjusted normalization, SAN) 방법이라 명명하였다.
SAN 방법은 인구 구성이 보정된 조건 하에서 두 원천 데이터셋의 평균과 표준편차를 정규화한다. SAN의 정규화 성능을 평가하기 위해, 본 연구에서는 SAN과 임상 시험 및 유전체 연구에서 사용되어 왔던 기존의 정규화 방법들을 비교하였다. 정규화 방법들의 성능 비교를 위해, 혈청 혈액요소질소(blood urea nitrogen, BUN), 혈청 크레아티닌(serum creatinine), 헤마토크리트(hematocrit), 헤모글로빈(hemoglobin), 혈청 칼륨(serum potassium), 총 빌리루빈(total bilirubin)으로 구성된 시뮬레이션 데이터와 국내 두 삼차 의료기관의 실제 데이터를 이용하였다.
정규화 결과의 성능을 평가하는 지표로는 평균의 표준화된 차이 (standardized difference in means, SDM)와 두 분포의 이질도를 나타내는 콜모고로프 스미르노프 통계치(Kolmogorov–Smirnov statistics, KS statistics)가 사용되었다.
다양한 임상-역학적 특징이 SAN 방법의 부분 집단 보정 과정에 적용될 수 있으나, 본 연구에서는 비교의 단순화를 위해 나이와 성별만을 활용하였다.
시뮬레이션 테스트 결과, 모든 검사 결과에서 SAN에 의한 정규화 결과가 가장 낮은 SDM값과 콜모고로프 KS statistics를 보였다(p < 0.05). 실제 데이터에 적용하였을 경우에는, SAN이 혈청 혈액요소질소, 헤마토크리트, 헤모글로빈, 혈청 칼륨 검사 결과에 적용되었을 경우, 다른 정규화 방법들에 비해 가장 낮은 SDM과 KS를 보였으며(p < 0.05), 혈청 크리아티닌 결과에 정규화 방법들을 적용하였을 때, 가장 낮은 SDM 값을 보였다(p < 0.05).
SAN은 기존의 다른 방법들 보다 서로 다른 두 기관의 검사결과를 정규화하는데 있어 가장 좋은 성능을 보여주었다. 또한 SAN 방법은 DRN 환경에 적용가능하기 때문에 DRN내 다기관의 데이터를 통합하여 분석할 수 있게 되어, 다기관 데이터를 활용한 다양한 후향적 관찰 연구가 촉진되는데 기여할 것으로 기대된다.