비만 폐쇄수면무호흡 환자에서 기계학습을 통한 적정양압 예측모형
Predictive Model of Optimal Continuous Positive Airway Pressure for Obstructive Sleep Apnea Patients with Obesity by Using Machine Learning
Article information
Trans Abstract
Objectives
The aim of this study was to develop a predicting model for the optimal continuous positive airway pressure (CPAP) for obstructive sleep apnea (OSA) patient with obesity by using a machine learning.
Methods
We retrospectively investigated the medical records of 162 OSA patients who had obesity [body mass index (BMI) ≥ 25] and undertaken successful CPAP titration study. We divided the data to a training set (90%) and a test set (10%), randomly. We made a random forest model and a least absolute shrinkage and selection operator (lasso) regression model to predict the optimal pressure by using the training set, and then applied our models and previous reported equations to the test set. To compare the fitness of each models, we used a correlation coefficient (CC) and a mean absolute error (MAE).
Results
The random forest model showed the best performance {CC 0.78 [95% confidence interval (CI) 0.43–0.93], MAE 1.20}. The lasso regression model also showed the improved result [CC 0.78 (95% CI 0.42–0.93), MAE 1.26] compared to the Hoffstein equation [CC 0.68 (95% CI 0.23–0.89), MAE 1.34] and the Choi’s equation [CC 0.72 (95% CI 0.30–0.90), MAE 1.40].
Conclusions
Our random forest model and lasso model (26.213+0.084×BMI+0.004×apnea-hypopnea index+0.004×oxygen desaturation index–0.215×mean oxygen saturation) showed the improved performance compared to the previous reported equations. The further study for other subgroup or phenotype of OSA is required.
서 론
지속기도양압(continuous positive airway pressure, CPAP) 치료는 폐쇄수면무호흡(obstructive sleep apnea, OSA)의 주요한 치료이다[1-3]. 적정압력(optimal pressure)을 찾는 것은 CPAP 치료에 있어서 가장 중요한 부분이며, 검사실에서 수동적정검사(manual titration study)를 통해 압력을 결정하는 것이 금과옥조(gold standard)로 여겨지고 있다[2,4]. 최근에는 자동양압기(auto-adjusting CPAP, APAP)가 수동적정검사를 통한 고정양압기(fixed CPAP, fCPAP)에 비해 순응도나 주간 졸림 혹은 수면다원검사(polysomnography, PSG) 지표의 개선 등에서 열등하지 않다는 연구 결과들이 발표되면서, 점차 APAP의 사용이 증가하고 있다[3,5,6]. 하지만 이런 연구들은 대체로 단기적인 지표의 개선에 초점이 맞춰진 경우가 많아서, 고혈압, 심혈관계 질환, 뇌졸중, 대사증후군, 우울 및 사망과 같이 OSA의 예후와 밀접한 관련이 있는 동반 질환에 주는 효과에 대한 연구는 드문 실정이다[7,8]. 또한 OSA 환자가 가진 기저 질환의 종류에 따라 APAP의 적용이 불가능한 경우도 있고, APAP 적용 도중 여러 이유로 중도 탈락하여 fCPAP 적용이 필요한 환자들도 있다[5,6]. 더욱이 APAP과 비교하여 fCPAP이 사구체여과율(glomerular filtration rater) 감소의 지연 및 24시간 확장기 혈압(diastolic blood pressuer) 감소에 우수한 결과를 보여준 연구와 fCPAP이 혈압과 인슐린 저항성 등의 감소에 효과가 있었던 반면 APAP은 이러한 효과를 보여주지 못했던 연구들을 고려할 때[9-11], APAP이 fCPAP을 완전히 대체하기는 어려울 것이다. 인체 측정치(anthropometric values) 및 PSG의 변수들을 이용한 적정압력 예측 수식에 대해서는 과거부터 다양한 연구들이 있어 왔다[2,12]. 예상 압력(predicted pressure)이 측정된 압력(estimated pressure)을 완전히 대체할 수는 없더라도, 적정검사 전까지 적용할 압력을 결정하거나, 적정검사 시 시작압력 결정을 통한 성공률 향상에 유용성이 있음이 보고되어 있다[2,13]. 하지만 기존 연구들은 주로 최소제곱법(ordinary least square)을 이용하여 선형 회귀식을 도출하는 연구들이 주를 이루고 있으며, 기계학습(machine learning)을 이용한 연구는 드물다[2,14]. 이에 본 저자들은 단일 기관의 PSG 및 CPAP 적정검사 기록을 바탕으로 다중공선성 및 비선형관계에 의한 교란 변수와 과적합(overfitting)으로 인한 오류를 최소화하기 위해, least absolute shirinkage and selection operator(lasso) 회귀 및 랜덤 포레스트(random forest)와 같은 기계학습을 이용한 적정압력 예측모형을 만들고자 본 연구를 수행하였다[15,16]. 또한 OSA의 아형(subtype) 혹은 표현형(phenotype) 분류 연구에서 중요한 변수 중 하나로 보고되고 있는 비만으로 인한 혼란 효과를 최소화하기 위해 대상군을 비만 OSA 환자로 하였다[17].
방 법
대 상
2013년 9월부터 2017년 8월까지 본원 수면장애센터에서 PSG와 수동 CPAP 적정검사를 받은 19세 이상의 성인 OSA 환자 중 체질량지수(body mass index, BMI)가 25 이상으로 비만이 있는 환자를 대상으로 했다. 뇌경색 및 심한 내과 질환이 있는 경우나 수면제를 복용 중인 환자는 연구 대상에서 제외하였다. 본 연구는 순천향대학교천안병원 임상시험심사위원회의 승인을 받았다(SCHCA 2018-05-050-002).
인구통계학적 특성
환자들의 의무기록을 바탕으로 성별과 수면다원검사 당시의 연령, 키, 체중과 목둘레를 조사하였다. 키와 체중을 이용하여 BMI를 구하였다. 목둘레는 갑상선 연골의 가장 돌출된 부위 바로 아래에서 측정하였다.
엡워스 졸음 척도(Epworth sleepiness scale)
주간졸음 정도를 알아보기 위해 수면다원검사 시 시행한 엡워스 졸음 척도(Epworth sleepiness scale, ESS)를 조사하였다[18]. 본 수면센터에서 번역한 8개의 ESS 문항에 대한 환자의 답변에 대해 0점에서 3점까지 배점을 주어 합산하고 최대 24점을 기준으로 점수를 산정하였다.
수면다원검사 및 무호흡-저호흡지수(apnea-hypopnea index)
PSG는 표준뇌파(C3-A2, C4-A1, F3-A2, F4-A1, O1-A2, O2-A1), 안전도(ROC-A1, LOC-A2), 근전도(electromyography), 심전도, 산소포화도(pulse oximetry), 그리고 코골이 측정을 위한 목 마이크 등을 사용하여 시행하였다. 근전도는 턱밑근(submental muscle)과 양측 앞정강근(tibialis anterior muscle)에서 기록하였다. 호흡량 측정을 위해서는 입코열전대(oronasal thermistor)와 코압력변환기(nasal pressure transducer)를, 호흡노력을 측정하기 위해서는 흉곽과 복부에 교류저항 체적 변동기록법(plethysmography)을 사용하였다. 수면단계 및 그와 연관된 사건은 미국수면학회 규정집(American Academy of Sleep Medicine manual for the scoring of sleep and associated events v2.0)에 근거해서 판독하였다[19]. 무호흡은 호흡량 진폭이 기준에 비해 90% 이상 감소를 보이면서 10초 이상 지속되는 것으로 정의하였고, 저호흡은 호흡량 진폭이 30% 이상 감소가 10초 이상 지속되면서 이와 관련된 3% 이상의 산소포화도 감소 또는 뇌파에서 각성이 동반하는 경우로 정의하였다. 이런 호흡 패턴이 호흡 노력을 동반하는 경우는 폐쇄성, 동반하지 않는 경우는 중추성으로 정의하였다. 무호흡-저호흡지수(apnea-hypopnea index, AHI)는 수면시간당 무호흡과 저호흡이 나타나는 빈도 수로 정의하였다. 수면잠복기(sleep latency), 수면효율(sleep efficiency), 산소탈포화지수(oxygen desaturation index, ODI), 88% 이하 산소포화도분율(time oxygen saturation be-low 88%, T88), 평균산소포화도(mean oxygen saturation, mean O2), 최저산소포화도(minimum oxygen saturation, min O2)와 각성지수(arousal index)도 조사하였다.
CPAP 적정 검사(CPAP titration study)
양압적정은 AHI가 15 이상인 환자를 대상으로 하였다. 적정압력을 구하기 위해서 수면다원검사와 같은 몽타주(montage)를 사용하여 야간 수동 CPAP 적정검사(full-night manual CPAP titration study)를 시행하였다. 처방 적정압력은 미국수면학회의 지침(guideline)에 근거하여 모든 자세와 모든 수면단계에서 코골이와 공기 흐름의 제한(low limitation)이 관찰되지 않고 AHI가 5 이하이며 SpO2가 90% 이상을 유지하는 압력 중 가장 낮은 압력으로 결정하였다[4].
통계 분석 및 예측모형 구성
모형의 개발과 검증을 위해 대상군을 각각 훈련자료(training data set)와 검증자료(test data set)로 9:1로 무작위로 나누고, 두 군의 변수 값들을 비교했다. 연속형 변수들은 Shapiro-Wilks 검정을 사용하여 정규분포 여부를 분석하고, 정규분포를 따르는 경우는 평균±표준편차로 표시하고 독립표본 t-검정을 시행하였으며, 정규분포를 따르지 않는 경우는 중위 수(사분위수 범위)로 표시하고 Mann-Whitney 검정을 시행하였다. 범주형 변수는 %(명)으로 표시하였으며, Fisher의 정확 검정을 시행하였다.
적정검사를 통해 결정된 압력을 종속 변수로 하고, 수면다원검사 시 나이, 신체 계측치(키, 체중, BMI, 목둘레), 수면다원검사 수치(수면잠복기, 수면효율, AHI, ODI, T88, Mean O2, Min O2, 각성지수)와 기존 국내 연구를 참고하여 ESS를 독립 변수로 하여 예측모형을 만들었다[20]. 예측모형은 훈련자료를 이용하여, lasso 회귀 분석과 랜덤 포레스트를 통해 각각 만들었다[15,16]. Lasso 회귀 분석에서는 페널티 강도 매개 변수(penalty strength parameter, λ) 결정을 위해서, 10-겹 교차 검증(10-fold cross validation)을 이용하였다[15]. 랜덤 포레스트모형은 나무 수(ntree)를 5,500개로 설정하였으며, 마디 수(mtry)는 2로 설정하였다. 각 변수의 중요도를 평가하기 위한 방법으로는 평균 제곱 오차 백분율 증가(increase in percent mean squared error)와 마디 순도 증가(increase in node purity)를 사용하였다. 본 논문의 예측모형과 Hoffstein 공식, Choi 등의 공식과 같이 기존에 보고되었던 공식과 효용성을 비교하기 위하여[12,21], 검증자료를 이용한 예측치와 실측치 간의 Pearson 상관계수와 평균 절대 오차(mean absolute error, MAE)를 구했다. 통계 분석에는 SPSS 25.0(IBM Corp., Armonk, NY, USA)과 R 3.4.0(http://www.r-project.org)을 이용하였으며 p-value가 0.05 미만인 경우 통계적으로 유의하다고 판정하였다. 랜덤 포레스트 분석에는 R 패키지 random forest를 이용하였고, lasso 회귀에는 R 패키지 glmnet을 이용하였다[15,16].
결 과
인구통계학적 특성 및 수면다원검사 수치
적정검사를 시행하였으나 정상 체중이었던 74명과 외부 병원에서 수면다원검사를 시행하여 적정검사 전 수면다원검사 지표들을 확인할 수 없었던 2명, 적정검사에서 CPAP 적용에 실패하여 이단양압기(bilevel positive airway pressure)를 적용한 2명을 제외한 최종 162명의 환자가 본 연구에 포함되었다. 이들의 평균 연령은 47.8±11.2세였으며, 성비는 남 6:여 1이었다. BMI의 평균은 30.1±4.3이었으며, AHI의 평균은 56.0±25.0이었다. 수동적정검사에 의한 CPAP 압력은 평균 9.1±2.5 cmH2O였다. 이들을 무작위로 9:1로 나누어 구성한 훈련자료와 검증자료 사이에서는 ESS(p-value 0.02)를 제외한 인구통계학적 특성, 수면다원검사 수치들 및 적정압력은 통계적으로 유의한 차이를 보이지 않았다(Table 1). 훈련자료를 이용한 독립 변수들 간의 상관관계 분석에서 BMI는 목둘레, ODI, min O2, mean O2와 0.4 이상의 상관관계를 보였으며, AHI는 ODI, T88, mean O2, min O2, 각성지수, 목둘레와 높은 상관관계를 보였다(Table 2).
예측모형 구성
훈련자료를 이용하여 예측모형을 만들었다. Lasso 회귀모형에서는 최종모형에 BMI와 mean O2, AHI, ODI가 독립변수로 포함되었다(Table 3). 랜덤 포레스트모형에서는 ODI, mean O2, 목둘레, 몸무게, AHI, BMI, 각성지수 등의 순으로 모형 구성에 중요성을 보였다(Table 4).
예측모형 평가
Pearson 상관계수, MAE의 모든 항목에서 랜덤 포레스트 모형이 가장 우수한 추정 능력을 보여주었다(Table 5). Lasso 회귀식도 기존 Choi 등의 공식과 비교하여 Pearson 상관계수와 MAE에서 개선을 보여주었다[21]. Hoffstein 공식은 Choi 등의 공식보다 Pearson 상관계수는 낮았지만[12,21], MAE는 우수한 것으로 나타났다. Hoffstein 공식과 Choi 등의 공식은 랜덤 포레스트모형 및 lasso 회귀식과 비교하여 과소 추정의 비율이 높은 것으로 나타났다(Fig. 1) [12,21].
고 찰
본 저자들은 최초로 랜덤 포레스트모형과 lasso 회귀를 사용하여 비만 환자에서 CPAP 적정압력을 예측하는 모형을 만들었으며, 기존 최소제곱법을 이용한 선형 회귀모형들과 비교하여서 더 우수한 성능을 보여주었다. Lasso 회귀와 랜덤 포레스트 기법은 요즘 각광받고 있는 기계학습법에 속한다. 고전 통계에서는 최소의 편향과 최소의 분산을 가진 모형, 즉 최소분산불편추정량(minimum variance unbiased estimator) 모형을 구하는 것을 목표로 한다. 하지만 이러한 모형은 현실에서는 분석에 사용한 데이터에서만 좋은 성능을 보이는 모형이 만들어지는 과적합(overfitting)에 빠지기 쉽고, 그 결과 새로운 자료가 주어졌을 때는 예측력이 떨어질 수 있다. 기계학습법은 훈련자료를 이용하여 적절한 수준의 분산과 편향을 가진 모형을 찾는 방법이다[22,23]. 즉 기계학습법은 모형의 분산과 편향 사이의 상쇄(trade-off)를 고려하여, 검증자료에서 예측 오차를 최소화하는 모형을 추구한다고 볼 수 있다. 본 논문에서 랜덤 포레스트모형을 검증자료에 적용했을 때 상관계수는 0.78로 El Solh 등이 k-겹 교차검정(k-fold cross validation)을 적용한 인공신경망(artificial neural network)을 사용해 보여준 상관계수 0.85에 근접한 수준을 보여주었다[14]. Lasso 회귀모형 역시 상관계수 0.78의 우수한 성능을 보여주었다. 하지만 El Solh 등의 인공신경망(artificial neural network)모형은 본 연구에서 사용한 랜덤 포레스트와 더불어 대표적인 자율 학습 알고리즘(unsupervised learning algorithm)에 속한다[14,23]. 즉 분석의 과정이 일종의 블랙박스(black box)로 되어 있어, 공식이나 구체적인 과정을 알 수가 없다. 이러한 이유 때문에 현재까지 나온 예측모형 중 가장 우수한 성능을 보여주었지만[2], 이후 연구에서 재현되거나 비교 대상으로 이용되지 못했을 것으로 추측할 수 있다. 본 논문에서는 이러한 한계를 극복하고자 lasso 회귀모형(26.213+0.084×BMI+0.004×AHI+0.004×ODI-0.215×mean O2)을 같이 만들었으며, 랜덤 포레스트모형에 근접한 성능을 보여주었다. Table 2에서 보여준 것과 같이 각 독립 변수들은 서로 상관관계를 가지며, 특히 기존 논문들의 선형 회귀식에서 자주 독립 변수로 채택되는 BMI와 AHI는 다양한 변수들과 상관관계를 가지는 것으로 나타났다[2]. 즉 모형의 구성에 사용되는 변수들 사이에 다중공선성(multicollinearity)이 존재한다. 이러한 다중공선성은 회귀계수의 분산을 증가시켜, 그 결과 회귀계수의 추정치가 불안하고 해석하기 어렵게 만든다. 본 연구에서 이러한 다중공선성을 극복하기 위해 사용한 lasso 회귀모형이 기존의 Hoffstein 공식이나 Choi 등의 공식보다 우수한 결과를 보여준 것과 선형관계 추정이 아닌 분류에 의한 결정나무의 원리를 이용한 랜덤 포레스트모형이 앞의 선형모형들보다 더 우수한 성능을 보여준 것은 이러한 추정에 대한 방증이 될 수 있을 것이다[12,21].
선형 회귀모형에서는 모형계수 벡터 β에 대한 최소제곱(least square) 해보다는 이것을 약간 축소한 능형(ridge) 해를 쓰는 것이 예측 성과가 좋은 것으로 알려져 있다[23,24]. 또한 β의 일부 요소를 0으로 퇴화를 시킨 lasso 해를 쓰게 되면 모형이 간결해지고 변수의 선택이 가능해지는 이점이 있다[23]. 이를 일반선형화모형(generalized linear model, GLM)에 통합적으로 적용한 것이 GLM의 정형화(regularization)이다[15,23]. 이런 정형화는 설명 변수의 수가 많은 경우에 특히 유효하다[23]. Lasso는 능형 회귀, 엘라스틱 네트(elastic net)와 더불어 벌점화 회귀(penalized regression)에 속한다. 이러한 벌점화 회귀에서 λ는 조율 모수로 벌점(penalty)의 효과를 조절하며, λ가 커질수록 모형의 분산은 작아지고 편향은 커지는 편향-분산 상쇄(bias-variance trade-off)를 보인다. 이러한 상쇄를 고려한 최적의 λ는 본 논문에서와 같이 자동화된 교차검정을 통해 얻을 수 있다[23]. 본 저자들은 검증자료에 lasso 회귀모형을 적용하여 예측치를 구하였으며, 이는 기존에 보고된 최소제곱 추정법에 의한 선형 회귀모형들보다 우수한 성능을 보여주었다[12,21].
랜덤 포레스트는 의사결정나무에 기반한 기계학습법으로 최근 생물정보학(bioinformatics) 분야 연구에서 각광받고 있는 기법이다[16,22,25,26]. 랜덤 포레스트의 특징이자 강점은 배깅[bagging (bootstrap aggregating)]으로, 이는 부트 스트랩(bootstrap) 샘플을 사용하여 만든 다양한 의사결정나무들을 앙상블 기법을 사용하여 하나의 의사결정숲으로 구성하는 방법이다[22,26]. 부트 스트랩 샘플은 훈련자료에서 중복을 허용하여 무작위로 추출된 학습용 데이터 세트이다[16,22]. 그리고 앙상블 기법은 랜덤 포레스트의 최종 단계에서 각 나무들의 예측 결과를 취합하고 평균이나 다수결에 의한 선택을 통해 결론을 내리는 방법이다[26]. 랜덤 포레스트는 자율 학습 알고리즘(unsupervised learning algorithm)에 속하며, 생성된 의사결정나무의 내부를 관찰할 수 없어 예측 결과 이외의 정보는 얻을 수 없다는 단점이 있다[25,26]. 하지만 모형 생성 시 나무의 수와 분기점 안에 들어가는 조건의 수만 결정하면 되므로 비교적 사용하기 간편하다는 장점도 있다[22,25]. 본 논문에서도 랜덤 포레스트가 가장 우수한 성능을 보여주었지만, 공유 가능한 수식이 도출되지는 않기 때문에 다른 기관 및 이후 연구에서 사용하는 것에는 어려움이 있을 것으로 예상한다.
요즘 정밀의료(precision medicine)의 중요성이 대두되면서, OSA의 표현형(phenotype) 분류가 주목받기 시작했다[17]. 최근 k-mode 기법을 이용하여 OSA 환자를 세 군의 아형(subtype)으로 분류한 연구에서 비만 여부는 중요한 설명 변수로 나타났다[17]. 기존의 연구들에서는 이를 고려하지 않아서[2], 대상군에 비만군과 정상 체중군이 혼재되어 있었으며, BMI 등 주요한 변수들이 모형 구성에 주는 효과에 일정 부분 혼란 변수로 작용했을 것으로 생각된다. 본 연구는 이를 참조하여 비만을 가진 OSA 환자만을 대상으로 한 CPAP 적정압력 예측모형을 만들어서, 이러한 혼란 변수의 효과를 최소화하려고 시도하였다는 것에 차별점이 있다. Hoffstein 공식을 본 연구의 검증자료에 적용했을 때[12], 비교적 우수한 성능(상관계수 0.68, MAE 1.34)을 보여주었다. 이는 Choi 등의 공식(상관계수 0.72, MAE 1.40)과 비교해서도 열등하지 않은 수준이었다[21]. 기존 국내 연구들에서 Hoffstein 공식을 한국 환자의 데이터에 적용했을 때 과소 추정의 비율이 높아서 예측력이 낮았던 것을 고려하면[12,20,21], 비만 유병률의 차이 같은 인구통계학적인 차이에서 기인했던 혼란 요인이 비만 환자를 대상군으로 한 본 연구에서는 보정된 것으로 이해할 수 있을 것이다[2]. 나아가 BMI, AHI 등의 독립 변수들이 비만군과 정상 체중군에서 각기 다른 효과(즉 다른 β 값)를 가질 수 있다는 사실을 추측할 수 있다.
본 연구에서는 단일 기관의 비만 OSA 환자의 수동 CPAP 적정검사 자료에 lasso 회귀 및 랜덤 포레스트 기법을 적용하여 예측모형을 만들었으며, 기존 선형 회귀식에 의해 만들어진 예측 공식들보다 우수한 성능을 보여주었다. 이는 기존 연구 및 본 연구에 사용된 여러 독립 변수들 간에 다중공선성이 존재하며, 또한 종속 변수와 비선형 관계가 존재함을 방증한다고 볼 수 있다. 또한 비만 OSA 환자를 대상으로 한 예측모형을 만들어, OSA 환자의 아형 혹은 표현형에 따른 치료의 장점을 미약하나마 보여주었다는 데 의의가 있다. 하지만 본 연구는 단일 기관의 자료를 이용한 후향적 연구로 연구 대상의 선택 편향 문제에서 완전히 자유로울 수는 없으며, 본 연구에서 제시한 모형은 앞으로 전향적인 연구와 타기관의 자료를 통한 검증이 필요할 것으로 사료된다. 이후 정상 체중 OSA 환자와 여성 OSA 환자, 소아청소년 OSA 환자 등의 OSA 아형 혹은 OSA 표현형별 적정압력 예측모형에 대한 연구에 본 연구가 밑거름이 되기를 기대한다.