Traditional statistical methods, such as logistic regression, are designed to analyze data from a single source. Applying existing statistical methods to a distributed research network (DRN) creates the opportunity to conduct research using data from multiple organizations. The use of distributed data has been explored in previous studies: however, these methods are not suitable for analyzing large amounts of multi-source data. The purpose of this study is to propose a logistic regression method that can analyze large amounts of data from several sources. We call this method bigLR. bigLR logistic regression estimates coefficients according to the maximum likelihood estimation (MLE) method via the Newton–Raphson method. To enable large-volume data processing in each Newton–Raphson iteration, we further developed the bigLR-single method by applying the concept of data chunks (used for large-scale data processing in R) to create the bigLR-dist method. There are no differences in the estimated coefficients produced by the bigLR method and conventional methods, because they depend on the same mathematical formulae. bigLR can be applied to DRNs configured with a common data model. A single regression model can be derived from separated multi-source datasets rather than integrated data. We expect this method to facilitate collaborative research at home and abroad.
일반적으로 로지스틱 회귀분석(Logistic regression)과 같은 전통적인 통계분석 방법은 한 기관의 데이터를 이용하도록 설계되어 있다. 기존의 통계 방법론을 분산 연구망(Distributed research network, DRN)에 적용하면, 다기관의 데이터를 활용한 연구가 가능하다. 이전의 연구를 통해 다기관의 데이터를 활용하는 방법은 알려져 있으나, 대용량을 가진 다기관의 데이터를 분석하기에는 적절하지 않다. 본 연구에서는 대용량 데이터를 보유한 다기관의 데이터를 분석할 수 있는 로지스틱 회귀방법을 제시하는 것을 목적으로 한다. 이 방법을 bigLR이라 명명하였다. bigLR은 다기관의 대용량 데이터를 활용한 로지스틱 회귀분석 방법이다. 로지스틱 회귀분석은 뉴턴-랩슨 방법(Newton-Raphson method)을 이용한 최대우도추정법(maximum likelihood estimation, MLE)에 따라 회귀계수를 추정한다. 이 과정에 R에서 대용량 데이터 처리에 활용하는 데이터 덩어리(Chunk) 개념을 적용하여 bigLR-single 방법을 제시하였다. 이 방법을 기존의 다기관의 데이터를 이용한 로지스틱 회귀분석 방법에 적용하여, bigLR-dist 방법을 제시하고 다기관의 데이터를 이용한 로지스틱 회귀방법에 대용량 데이터를 처리할 수 있도록 하였다. 전통적인 방법과 비교하였을 때, 추정된 계수의 차이를 보이지 않았다. 이를 통해 동일한 잘 알려진 수학적인 방식으로 동작하기 때문에 결과에 차이가 없음을 확인하였다. bigLR은 공통 데이터 모델을 기반으로 하는 분산 연구망에 적용 가능하다. 각 기관별 결과가 아니라, 통합된 데이터로 분석하는 결과와 동일한 하나의 회귀모형을 도출할 수 있다. 이를 통해 다양한 국내외 공동연구 수행에 기여할 수 있을 것이라 기대한다.