[논문리뷰] 유방암 분류를위한 적층 앙상블 기법

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

공부 기록

[논문리뷰] 유방암 분류를위한 적층 앙상블 기법 본문

예전 것들/논문리뷰

[논문리뷰] 유방암 분류를위한 적층 앙상블 기법

kstar2 2021. 3. 25. 17:59

논문출처 : e-hir.org/journal/view.php?number=968

Stacking Ensemble Technique for Classifying Breast Cancer

I. Introduction According to statistics released by the National Statistical Office in 2016, cancer is the leading cause of death among Koreans. The mortality rates also increased from the previous year in the order of leukemia, breast cancer, and brain ca

e-hir.org

논문편명 : Stacking Ensemble Technique for Classifying Breast Cancer

소개 :

- 한국인의 주요 사망 원인이 암인데 암 사망률 중 두 번째가 유방암이다.

- 현재 가장 많이 사용하는 유방암 검사는 미세 침 흡인 검사로 이는 다양한 요인으로 인해 진단이 부정확 할 수 있다.

- 따라서 정확한 유방암 진단을 위한 보조 도구가 필요하다.

연구 목적 : 유방암 데이터 분류를 위한 지원 도구로 스태킹 앙상블을 이용한 모델 중 가장 좋은 성능 모델 식별

데이터 셋 :

- 위스콘신 대학에서 제공한 위스콘신 유방암 진단 데이터(WBCD) (569개, 진단결과를 제외한 30개의 feature로 구성)

- 위스콘신 유방암-원본(WBCO) (699개, 유방 생검에 대한 9개 feature와 1개의 진단 값으로 구성)

모델 학습 및 평가 데이터 :

- WBCD의 ID를 제외한 수치 측정 값은 정규화 시킴

- WBCO는 정규화 안함, 결측치 있는 10개의 행만 제거(즉, 689개의 데이터)

- 각 데이터 셋은 학습용 8 : 평가용 2 비율로 무작위로 추출 (단, 데이터 값이 중복되지 않음)

- 결과 신뢰성 보장을 위해 5회 무작위로 반복

사용 모델 : GBM, DRF, GLM, DNN

- R프로그램의 H2O 패키지 사용

- GBM은 max depth = 5, 50개의 tree

- DRF는 depth = 20, 50개의 tree

- GLM은 family parameter를 ‘binomial’로 사용

- DNN은 2개의 Dense, 200개의 노드, epoch = 10, activation function = ‘relu’

- 기본 학습 모델과 메타 학습모델은 같은 것으로 사용

결과 :

- accuracy와 RMSE로 비교

- WBCD 데이터는 앙상블 모델이 단일 모델 보다 더 좋은 accuracy를 보임

- DRF, GLM, DNN을 이용한 스태킹 앙상블의 RMSE 값이 단일 모델보다 낮다.

- WBCO 데이터는 GBM, DNN을 제외한 다른 앙상블 모델은 단일 사용 모델보다 예측률이 낮음

- WBCO 데이터는 GBM, GLM은 RMSE가 단일 모델보다 낮지만 DRF, DNN은 높음

- GLM과 GBM을 메타 학습자로 사용하는 스태킹 앙상블이 유방암 예측을 위한 보조 도구로 적합하다.

한계 및 향후 방향 :

- H2O가 제공하는 기본 매개 변수 값을 기반으로 한다.

- 각 모델에 대한 세부 하이퍼 파라미터를 조정하여 더 높은 성능의 앙상블 개발 기대

(내가 생각했을 때는 한계에 데이터 셋의 편향이나 데이터 양의 부족 등 일반화가 이루어 지지 못했을 가능성도 있을 꺼 같다.)

'예전 것들 > 논문리뷰' 카테고리의 다른 글

[논문리뷰] 폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측 (0)	2021.03.30
[논문리뷰] 초진환자 재방문 예측모형 개발 (0)	2021.03.29
[논문리뷰]머신 러닝 알고리즘을 이용한 만성 질환 관련 입원 환자의 장기 입원 예측 (0)	2021.03.24
[논문리뷰] 응급실 환자의 한국인 분류 및 시력 척도 수준의 머신 러닝 기반 예측 (0)	2021.03.23
[논문리뷰] 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 (0)	2021.03.22

'예전 것들/논문리뷰' Related Articles

공부 기록

[논문리뷰] 유방암 분류를위한 적층 앙상블 기법 본문

[논문리뷰] 유방암 분류를위한 적층 앙상블 기법

'예전 것들 > 논문리뷰' 카테고리의 다른 글

티스토리툴바