정리필요/논문리뷰

[논문리뷰] 유방암 분류를위한 적층 앙상블 기법

kstar2 2021. 3. 25. 17:59

논문출처 : e-hir.org/journal/view.php?number=968

 

Stacking Ensemble Technique for Classifying Breast Cancer

I. Introduction According to statistics released by the National Statistical Office in 2016, cancer is the leading cause of death among Koreans. The mortality rates also increased from the previous year in the order of leukemia, breast cancer, and brain ca

e-hir.org

논문편명 : Stacking Ensemble Technique for Classifying Breast Cancer

 

소개 :

- 한국인의 주요 사망 원인이 암인데 암 사망률 중 두 번째가 유방암이다.

- 현재 가장 많이 사용하는 유방암 검사는 미세 침 흡인 검사로 이는 다양한 요인으로 인해 진단이 부정확 할 수 있다.

- 따라서 정확한 유방암 진단을 위한 보조 도구가 필요하다.

 

연구 목적 : 유방암 데이터 분류를 위한 지원 도구로 스태킹 앙상블을 이용한 모델 중 가장 좋은 성능 모델 식별

 

데이터 :

- 위스콘신 대학에서 제공한 위스콘신 유방암 진단 데이터(WBCD)  (569, 진단결과를 제외한 30개의 feature로 구성)

- 위스콘신 유방암-원본(WBCO) (699, 유방 생검에 대한 9feature1개의 진단 값으로 구성)

 

모델 학습 및 평가 데이터 :

           - WBCD ID를 제외한 수치 측정 값은 정규화 시킴

           - WBCO는 정규화 안함, 결측치 있는 10개의 행만 제거(, 689개의 데이터)

           - 각 데이터 셋은 학습용 8 : 평가용 2 비율로 무작위로 추출 (, 데이터 값이 중복되지 않음)

           - 결과 신뢰성 보장을 위해 5회 무작위로 반복

 

사용 모델 : GBM, DRF, GLM, DNN

           - R프로그램의 H2O 패키지 사용

           - GBM max depth = 5, 50개의 tree

           - DRFdepth = 20, 50개의 tree

           - GLMfamily parameterbinomial’ 사용

           - DNN 2개의 Dense, 200개의 노드, epoch = 10, activation function = ‘relu’

           - 기본 학습 모델과 메타 학습모델은 같은 것으로 사용

 

결과 :

           - accuracyRMSE로 비교

           - WBCD 데이터는 앙상블 모델이 단일 모델 보다 더 좋은 accuracy를 보임

           - DRF, GLM, DNN을 이용한 스태킹 앙상블의 RMSE 값이 단일 모델보다 낮다.

           - WBCO 데이터는 GBM, DNN을 제외한 다른 앙상블 모델은 단일 사용 모델보다 예측률이 낮음

           - WBCO 데이터는 GBM, GLMRMSE가 단일 모델보다 낮지만 DRF, DNN은 높음

           - GLMGBM을 메타 학습자로 사용하는 스태킹 앙상블이 유방암 예측을 위한 보조 도구로 적합하다.

 

한계 및 향후 방향 :

           - H2O가 제공하는 기본 매개 변수 값을 기반으로 한다.

           - 각 모델에 대한 세부 하이퍼 파라미터를 조정하여 더 높은 성능의 앙상블 개발 기대

 

(내가 생각했을 때는 한계에 데이터 셋의 편향이나 데이터 양의 부족 등 일반화가 이루어 지지 못했을 가능성도 있을 꺼 같다.)