정리필요/논문리뷰

[논문리뷰] 폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측

kstar2 2021. 3. 30. 18:07

논문출처 : www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002672338

 

폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측

폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측 Predictive of Osteoporosis by Tree-based Machine Learning Model in Post-menopause Woman 1동남보건대학교 2동남보건대학교 초록 . In this study, the prevalence o

www.kci.go.kr

논문편명 : 폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측

 

연구 배경 :

- 골다공증의 환자 수가 꾸준히 증가하는데 이는 폐경 여성에서 흔히 발생한다.

- 골다공증은 골절이 일어나기 전까지 무증상인 경우가 많아 조기 진단 및 치료를 수행하여 병변으로 인한 사회적, 경제적 부담을 줄일 수 있다.

- 최근 인공지능 기술이 당뇨병 예측, 피부 유형 판단 등 다양한 분야에 적용되고 있다.

 

연구 목적 : 폐경여성에서 트리기반 머신러닝 모델로부터 골다공증 유무 예측

 

연구 대상 : 국민건강영양조사에서 실시된 제5(2010~2011) 원시자료에서 결측치를 제외한 1,995명을 연구대상으로 선정

 

feature : 선행연구 및 도메인 지식(전문 분야에서 사용되지는 지식)으로 연관성 높은 변수를 파악

- 류마티스성 관절염 유병여부, 성인 여성 고위험 음주빈도, 하루 평균 수면 시간, 현재 흡연 여부, 1주일간 근력운동 일수, 신장, 체중, 허리둘레, 부모 중 골다공증진단, 허리 휨, 경미한 외상골절 경험여부(가족력) 10개의 독립변수를 선정

- T-score(DEX 검사 결과, -1.0 이상 정상, -1.0~2.5 골감소증, -2.5이하 골다공증)기준 산출된 골다공증 유병여부(유병 여부에 따라 비골다공증군 1,310명과 골다공증군 685명으로 분류)

 

preprocessing :

- 모름으로 응답한 것과 수면시간에서 0, 1, 20시간 등 비정상적으로 생각되는 행 삭제

- 연속형 변수는 StandardScaler(평균 = 0, 분산은 1로 변경) 처리

- 데이터 유의성 검정은 연속형 변수는 t검정을 이용하여 평균과 표준편차 구함, 범주형 변수는 카이제곱검정을 이용하여 빈도를 구했고 p-value0.05 미만인 경우에 통계적으로 유의하다고 판단. (SPSS 23.0 software 이용)

- train datasettest dataset홀드아웃 방법 사용 (7:3비율로 나눔)

 

Model : Decision tree, Random forest, Gradient boost machine, Extra gradient boost 모델 사용

 

모델 평가 및 최적화 :

- 이진 분류 모델의 성능 평가와 비교를 위하여 의학 진단, 생물학, 신용평가 등의 분야에서 분류 모델의 성능평가 지표로 주로 사용되는 AUC를 이용 (Python 3.7.3, 주피터노트북)

- 평가결과 가장 높은 성능의 알고리즘에서 독립변수를 줄여가며 예측결과를 파악하여 모델의 최적화 수행

 

결과 :

- 나이, 고위험 음주빈도, 1주일간 근력운동 일수, 신장, 체중, 허리둘레, 가족력 등은 통계적으로 유의

- 류 마티스성 관절염 유병여부, 하루 평균 수면시간, 현재 흡연 여부는 유의하게 차이가 나타나지는 않았다

- XGBoost 0.710으로 가장 높았으며 10개의 독립변수를 하나씩 축소하여 평가한 결과 7개의 독립 변수(나이, 체중, 가족력 등, 1중일간 근력운동 일수, 신장, 허리둘레, 하루 평균 수면시간)을 사용 했을 시 0.750으로 가장 높았다.

- 4개 모델 전부 나이가 골다공증 유병여부를 예측하는데 영향력이 가장 큰 변수 였다.

 

고찰 :

- 빅데이터를 활용하여 유용한 정보의 추출 및 예측이 가능한 만큼 더 많은 변수들을 사용한다면 모델 성능 향상 및 일정 수준의 예측 성능을 유지할 수 있는 최소 변수를 찾는데 유용할 것이다.

- 머신러닝은 하이퍼 파라미터 조절을 통해 성능을 향상시킬 수 있고 이는 정해진 값이 없기 때문에 경험법칙 또는 GridSearchCV 등을 이용하면 모델의 성능을 향상시킬 수 있을 것이다.

 


T-score 출처 : www.checkyourhealth.co.kr/news/articleView.html?idxno=364

 

[뼈] 골다공증 검사③ | 골다공증 진단,‘T점수’로 결정 - 건강검진뉴스

‘T점수’, 건강한 성인 골밀도와 비교해 도출골다공증 진단은 DEX 검사 결과인 ‘T점수’(T-score)에 의해 결정된다.DEX 검사 결과는 골반과 척추 부위를 촬영해 가장 낮은 골밀도를 보이는 곳을 기

www.checkyourhealth.co.kr

T-score 기준 :  DEX 검사 결과값으로 -1.0 이상 정상, -1.0~2.5 골감소증, -2.5이하 골다공증, -2.5이하에 골절이 있으면 심각한 골다공증으로 보낟.


DEX 검사 출처 : www.checkyourhealth.co.kr/news/articleView.html?idxno=365

 

[뼈] 골다공증 검사➁ | ‘이중에너지 X선 흡수 계측법’ 검사는 간단, 진단은 까다로워 - 건강검

비교적 간단한 DEX 검사\'이중에너지 X선 흡수 계측법\'(이하 DEX)이 현재 가장 널리 이용되는 골다공증 검사다. 보통 \'DEX\', \'DEXA\' 등으로 불린다.DEX 검사 방법은 에너지가 높은 X선, 에너지가 낮은

www.checkyourhealth.co.kr

DEX 검사는 이중에너지 X선 흡수 계측법으로 에너지가 높은 X선, 에너지가 낮은 X선을 각 한 번씩 총 두 번 촥영하여 얻은 자료로 골밀도를 구한다.


StandardScaler 출처 : homeproject.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81-Data-Scaling

 

데이터 스케일링 (Data Scaling)

데이터 스케일링이란 데이터 전처리 과정의 하나입니다. 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으

homeproject.tistory.com

StandardScaler란 각 feature의 평균을 0, 분산을 1로 변경하여 모든 특성들이 같은 스케일을 갖게 된다.


t검정 출처 : m.blog.naver.com/PostView.nhn?blogId=sendmethere&logNo=221333164258&categoryNo=7&proxyReferer=https:%2F%2Fwww.google.com%2F

 

[통계교육] 풀어쓰는 통계 - t 검정(t-test)이란?

1. t 검정을 비롯한 관련 용어 설명 2. t 검정의 특징 t검정의 특징을 정리하자면 다음과 같다. 3. t 검정...

blog.naver.com

모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법


카이제곱검정 출처 : medium.com/@Aaron__Kim/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1%EA%B2%80%EC%A0%95-chi-squared-test-2b900f5a86bd

 

카이제곱검정 (Chi-squared test) — 교차분석, 독립사건, 종속사건

독립사건과 종속사건 여기서 독립 사건이라 함은 한 사건의 발생 여부가 다른 사건에 영향을 미치지 않음을 의미하고, 종속 사건이는 다른 사건에 영향을 미친다는 의미다. 독립 사건: 발 크기

medium.com

교차분석이라고 불리며 두 범주 형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립 사건인지 판별하는 것이다.

두 변수가 종속 사건일 경우 x^2값이 크고, 중요한 feature로서 분류에 용이하다는 의미다.(p-value와 반비례 관계다)


홀드아웃 출처 : skasha.tistory.com/81

 

머신러닝 모델 성능 평가 (홀드아웃 및 k-겹 교차 검증)

모델이 너무 간단하면 과소적합(높은 편향)이 문제가 되기도하고, 모델이 너무 복잡하면 훈련 데이터에 과대적합(높은 분산)이 일어나 문제가 되곤 합니다. 이런 현상을 피해 적절한 편향-분산 t

skasha.tistory.com

trainset과 testset을 분리한 후 trainset을 검증하기 위해 validationset을 나누어 검증하는 방법이다.

즉, trainset, testset, valiationset으로 나누어 훈련을 검증한다.