표본추출 방법
1. 확률표본추출 (probability sampling)
모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법
-> 표본추출틀(sampling frame, 표집틀) 필요
ex) 모집단이 a, b, c, d, e에서 2개의 표본을 추출하면 어떤 개체가 표본으로 뽑힐 확률은 2/5
표본추출 방법의 대표적으로 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있음
2. 비확률표본추출 (non-probability sampling)
특정 표본이 선정될 확률을 알 수 없음
ㄴ 그래서 추론결과의 정확도(precision)을 알 수 없어 해당하는 표본만 A라 할 수 있지 모집단이 A라 할 수는 없음
ㄴ 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되나 모집단을 대표하기는 어렵다
대표적인 추출 방법
- 편의추출 : 자발적 참여 ex) 백화점 앞, 포털사이트 인터넷 조사
- 유의추출 : 전문가 선택
- 할당 추출 : 그룹 내 조사대상 선택에서 랜덤화 과정 없음 (조사하는 사람이 임으로 선정하는 것, 즉 랜덤화 과정이 x)
----------------------------------------------------------------------------------
목표모집단 vs 조사모집단
- 목표모집단 (target population)
관심대상이 되는 모든 기본다위들의 집합으로 시공간상 명확하게 정의된 연구 대상 집단
ex) 조사시점, 지리적인 경계, 연령 기준 등으로 정하여 '수도권 거주 고등학생 학부모 대상'처럼 선정
- 조사모집단(survey population) 또는 조사가능모집단(accessible population)
(현실적인 제약 고려) 표본추출 대상 기본단위들의 집합, 표본추출틀을 통해 추출될 수 있는 기본단위들의 집합
ex) 전화여론조사 : 전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인
실제로 목표모집단은 어디고 실제로 조사한 모집단은 어딘지 언급해주는 것이 좋음
------------------------------------------------------------------------------------
확률표본추출 방법
- 단순확률추출법 (Simple random sampling, SRS)
크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출, 모든 단위들이 표본에 선택될 확률이 동일
ex) 가구조사 : P(이니네 집 추출) = n / N
실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초 이론)
- 계통추출법 (Systematic sampling)
표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k 간격으로 단위들을 표본으로 추출
계통표본 추출과정
추출간격 k의 결정 : N / n 또는 정확도를 고려 결정
표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용
ex) 선거출구조사, 주차장 출입 차량에 대한 조사
- 층화확률추출법 (Stratified random sampling)
일반적으로 가장 많이 사용된다
모집단을 서로 중복되지 안흔 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출
부모집단(subpopulation)의 구성 내역을 알고 있어야 하고 부모집단 간 특성에 차이가 있어야 함
ㄴ 조금더 더 모집단을 대표하는 모집단을 표현 가능하다
과정 : 층의 구성 (성별, 연령, 지역 등) -> 각 층에서 독립적으로 단순확률추출법을 사용한다
층의 비율에 맞게 추출하지만, 비율에 맞지 않으면 가중치 반영
- 집락표본추출 (Cluster sampling)
서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사
ex) 서울시 고등학생 월평균 사교육비 추정
- SRS로 할시
추출틀 : 서울시 전체 고등학생명단 -> 작성비용 과다
조사대상 : 서울 전역에 산재됨 -> 조사비용 과다
- 집락추출로 할시
1 단계 : 고등학교추출(PSU, primary sampling unit)
2 단계 : 학생추출 (학급 -> 학생)
활용 이유
- 조사단위에 대한 표집틀 확보에 어려움 -> 상대적으로 집락에 대한 표집틀 확보는 쉬움
- 조사단위들이 산재되어 관측비용 증가 -> 지역적으로 집중되도록 표본추출
'정리필요 > 수학' 카테고리의 다른 글
[통계개념] 잡다하게 정리 (0) | 2021.03.25 |
---|---|
[개념] 평균, 표준편차, 분산에 대한 개념 (0) | 2021.03.15 |
statistics_study 1 (0) | 2021.02.23 |