논문편명 : 폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측
연구 배경 :
- 골다공증의 환자 수가 꾸준히 증가하는데 이는 폐경 여성에서 흔히 발생한다.
- 골다공증은 골절이 일어나기 전까지 무증상인 경우가 많아 조기 진단 및 치료를 수행하여 병변으로 인한 사회적, 경제적 부담을 줄일 수 있다.
- 최근 인공지능 기술이 당뇨병 예측, 피부 유형 판단 등 다양한 분야에 적용되고 있다.
연구 목적 : 폐경여성에서 트리기반 머신러닝 모델로부터 골다공증 유무 예측
연구 대상 : 국민건강영양조사에서 실시된 제5기(2010~2011) 원시자료에서 결측치를 제외한 1,995명을 연구대상으로 선정
feature : 선행연구 및 도메인 지식(전문 분야에서 사용되지는 지식)으로 연관성 높은 변수를 파악
- 류마티스성 관절염 유병여부, 성인 여성 고위험 음주빈도, 하루 평균 수면 시간, 현재 흡연 여부, 1주일간 근력운동 일수, 신장, 체중, 허리둘레, 부모 중 골다공증진단, 허리 휨, 경미한 외상골절 경험여부(가족력) 등 10개의 독립변수를 선정
- T-score(DEX 검사 결과, -1.0 이상 정상, -1.0~2.5 골감소증, -2.5이하 골다공증)기준 산출된 골다공증 유병여부(유병 여부에 따라 비골다공증군 1,310명과 골다공증군 685명으로 분류)
preprocessing :
- 모름으로 응답한 것과 수면시간에서 0, 1, 20시간 등 비정상적으로 생각되는 행 삭제
- 연속형 변수는 StandardScaler(평균 = 0, 분산은 1로 변경) 처리
- 데이터 유의성 검정은 연속형 변수는 t검정을 이용하여 평균과 표준편차 구함, 범주형 변수는 카이제곱검정을 이용하여 빈도를 구했고 p-value는 0.05 미만인 경우에 통계적으로 유의하다고 판단. (SPSS 23.0 software 이용)
- train dataset과 test dataset은 홀드아웃 방법 사용 (7:3비율로 나눔)
Model : Decision tree, Random forest, Gradient boost machine, Extra gradient boost 모델 사용
모델 평가 및 최적화 :
- 이진 분류 모델의 성능 평가와 비교를 위하여 의학 진단, 생물학, 신용평가 등의 분야에서 분류 모델의 성능평가 지표로 주로 사용되는 AUC를 이용 (Python 3.7.3, 주피터노트북)
- 평가결과 가장 높은 성능의 알고리즘에서 독립변수를 줄여가며 예측결과를 파악하여 모델의 최적화 수행
결과 :
- 나이, 고위험 음주빈도, 1주일간 근력운동 일수, 신장, 체중, 허리둘레, 가족력 등은 통계적으로 유의
- 류 마티스성 관절염 유병여부, 하루 평균 수면시간, 현재 흡연 여부는 유의하게 차이가 나타나지는 않았다
- XGBoost가 0.710으로 가장 높았으며 10개의 독립변수를 하나씩 축소하여 평가한 결과 7개의 독립 변수(나이, 체중, 가족력 등, 1중일간 근력운동 일수, 신장, 허리둘레, 하루 평균 수면시간)을 사용 했을 시 0.750으로 가장 높았다.
- 4개 모델 전부 나이가 골다공증 유병여부를 예측하는데 영향력이 가장 큰 변수 였다.
고찰 :
- 빅데이터를 활용하여 유용한 정보의 추출 및 예측이 가능한 만큼 더 많은 변수들을 사용한다면 모델 성능 향상 및 일정 수준의 예측 성능을 유지할 수 있는 최소 변수를 찾는데 유용할 것이다.
- 머신러닝은 하이퍼 파라미터 조절을 통해 성능을 향상시킬 수 있고 이는 정해진 값이 없기 때문에 경험법칙 또는 GridSearchCV 등을 이용하면 모델의 성능을 향상시킬 수 있을 것이다.
T-score 출처 : www.checkyourhealth.co.kr/news/articleView.html?idxno=364
T-score 기준 : DEX 검사 결과값으로 -1.0 이상 정상, -1.0~2.5 골감소증, -2.5이하 골다공증, -2.5이하에 골절이 있으면 심각한 골다공증으로 보낟.
DEX 검사 출처 : www.checkyourhealth.co.kr/news/articleView.html?idxno=365
DEX 검사는 이중에너지 X선 흡수 계측법으로 에너지가 높은 X선, 에너지가 낮은 X선을 각 한 번씩 총 두 번 촥영하여 얻은 자료로 골밀도를 구한다.
StandardScaler 출처 : homeproject.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81-Data-Scaling
StandardScaler란 각 feature의 평균을 0, 분산을 1로 변경하여 모든 특성들이 같은 스케일을 갖게 된다.
모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법
카이제곱검정 출처 : medium.com/@Aaron__Kim/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1%EA%B2%80%EC%A0%95-chi-squared-test-2b900f5a86bd
교차분석이라고 불리며 두 범주 형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립 사건인지 판별하는 것이다.
두 변수가 종속 사건일 경우 x^2값이 크고, 중요한 feature로서 분류에 용이하다는 의미다.(p-value와 반비례 관계다)
홀드아웃 출처 : skasha.tistory.com/81
trainset과 testset을 분리한 후 trainset을 검증하기 위해 validationset을 나누어 검증하는 방법이다.
즉, trainset, testset, valiationset으로 나누어 훈련을 검증한다.
'정리필요 > 논문리뷰' 카테고리의 다른 글
[논문리뷰] 텍스트 분류 기반 기계학습의 정신과 진단 예측 적용 (0) | 2021.04.05 |
---|---|
[논문리뷰] 초진환자 재방문 예측모형 개발 (0) | 2021.03.29 |
[논문리뷰] 유방암 분류를위한 적층 앙상블 기법 (0) | 2021.03.25 |
[논문리뷰]머신 러닝 알고리즘을 이용한 만성 질환 관련 입원 환자의 장기 입원 예측 (0) | 2021.03.24 |
[논문리뷰] 응급실 환자의 한국인 분류 및 시력 척도 수준의 머신 러닝 기반 예측 (0) | 2021.03.23 |