논문출처 : e-hir.org/journal/view.php?number=968
논문편명 : Stacking Ensemble Technique for Classifying Breast Cancer
소개 :
- 한국인의 주요 사망 원인이 암인데 암 사망률 중 두 번째가 유방암이다.
- 현재 가장 많이 사용하는 유방암 검사는 미세 침 흡인 검사로 이는 다양한 요인으로 인해 진단이 부정확 할 수 있다.
- 따라서 정확한 유방암 진단을 위한 보조 도구가 필요하다.
연구 목적 : 유방암 데이터 분류를 위한 지원 도구로 스태킹 앙상블을 이용한 모델 중 가장 좋은 성능 모델 식별
데이터 셋 :
- 위스콘신 대학에서 제공한 위스콘신 유방암 진단 데이터(WBCD) (569개, 진단결과를 제외한 30개의 feature로 구성)
- 위스콘신 유방암-원본(WBCO) (699개, 유방 생검에 대한 9개 feature와 1개의 진단 값으로 구성)
모델 학습 및 평가 데이터 :
- WBCD의 ID를 제외한 수치 측정 값은 정규화 시킴
- WBCO는 정규화 안함, 결측치 있는 10개의 행만 제거(즉, 689개의 데이터)
- 각 데이터 셋은 학습용 8 : 평가용 2 비율로 무작위로 추출 (단, 데이터 값이 중복되지 않음)
- 결과 신뢰성 보장을 위해 5회 무작위로 반복
사용 모델 : GBM, DRF, GLM, DNN
- R프로그램의 H2O 패키지 사용
- GBM은 max depth = 5, 50개의 tree
- DRF는 depth = 20, 50개의 tree
- GLM은 family parameter를 ‘binomial’로 사용
- DNN은 2개의 Dense, 200개의 노드, epoch = 10, activation function = ‘relu’
- 기본 학습 모델과 메타 학습모델은 같은 것으로 사용
결과 :
- accuracy와 RMSE로 비교
- WBCD 데이터는 앙상블 모델이 단일 모델 보다 더 좋은 accuracy를 보임
- DRF, GLM, DNN을 이용한 스태킹 앙상블의 RMSE 값이 단일 모델보다 낮다.
- WBCO 데이터는 GBM, DNN을 제외한 다른 앙상블 모델은 단일 사용 모델보다 예측률이 낮음
- WBCO 데이터는 GBM, GLM은 RMSE가 단일 모델보다 낮지만 DRF, DNN은 높음
- GLM과 GBM을 메타 학습자로 사용하는 스태킹 앙상블이 유방암 예측을 위한 보조 도구로 적합하다.
한계 및 향후 방향 :
- H2O가 제공하는 기본 매개 변수 값을 기반으로 한다.
- 각 모델에 대한 세부 하이퍼 파라미터를 조정하여 더 높은 성능의 앙상블 개발 기대
(내가 생각했을 때는 한계에 데이터 셋의 편향이나 데이터 양의 부족 등 일반화가 이루어 지지 못했을 가능성도 있을 꺼 같다.)
'정리필요 > 논문리뷰' 카테고리의 다른 글
[논문리뷰] 폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측 (0) | 2021.03.30 |
---|---|
[논문리뷰] 초진환자 재방문 예측모형 개발 (0) | 2021.03.29 |
[논문리뷰]머신 러닝 알고리즘을 이용한 만성 질환 관련 입원 환자의 장기 입원 예측 (0) | 2021.03.24 |
[논문리뷰] 응급실 환자의 한국인 분류 및 시력 척도 수준의 머신 러닝 기반 예측 (0) | 2021.03.23 |
[논문리뷰] 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 (0) | 2021.03.22 |