정리필요/수학

statistics_study 2

kstar2 2021. 2. 23. 18:30

표본추출 방법

 

1. 확률표본추출 (probability sampling)

  모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법

  -> 표본추출틀(sampling frame, 표집틀) 필요  

 

ex) 모집단이 a, b, c, d, e에서 2개의 표본을 추출하면 어떤 개체가 표본으로 뽑힐 확률은 2/5

 

표본추출 방법의 대표적으로 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있음

 

2. 비확률표본추출 (non-probability sampling)

 특정 표본이 선정될 확률을 알 수 없음

 ㄴ 그래서 추론결과의 정확도(precision)을 알 수 없어 해당하는 표본만 A라 할 수 있지 모집단이 A라 할 수는 없음

 ㄴ 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되나 모집단을 대표하기는 어렵다

 

대표적인 추출 방법

- 편의추출 : 자발적 참여 ex) 백화점 앞, 포털사이트 인터넷 조사

- 유의추출 : 전문가 선택

- 할당 추출 : 그룹 내 조사대상 선택에서 랜덤화 과정 없음 (조사하는 사람이 임으로 선정하는 것, 즉 랜덤화 과정이 x)

 

----------------------------------------------------------------------------------

 

목표모집단 vs 조사모집단

 

- 목표모집단 (target population)

 관심대상이 되는 모든 기본다위들의 집합으로 시공간상 명확하게 정의된 연구 대상 집단

 ex) 조사시점, 지리적인 경계, 연령 기준 등으로 정하여 '수도권 거주 고등학생 학부모 대상'처럼 선정

 

- 조사모집단(survey population) 또는 조사가능모집단(accessible population)

 (현실적인 제약 고려) 표본추출 대상 기본단위들의 집합, 표본추출틀을 통해 추출될 수 있는 기본단위들의 집합

 ex) 전화여론조사 : 전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인

 

실제로 목표모집단은 어디고 실제로 조사한 모집단은 어딘지 언급해주는 것이 좋음

 

------------------------------------------------------------------------------------

 

확률표본추출 방법

 

- 단순확률추출법 (Simple random sampling, SRS)

 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출, 모든 단위들이 표본에 선택될 확률이 동일

 

 ex) 가구조사 : P(이니네 집 추출) = n / N

 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초 이론) 

 

- 계통추출법 (Systematic sampling)

 표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k 간격으로 단위들을 표본으로 추출

 

 계통표본 추출과정

   추출간격 k의 결정 : N / n 또는 정확도를 고려 결정

 표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용

 ex) 선거출구조사, 주차장 출입 차량에 대한 조사

 

- 층화확률추출법 (Stratified random sampling) 

 일반적으로 가장 많이 사용된다

 모집단을 서로 중복되지 안흔 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출

 

 부모집단(subpopulation)의 구성 내역을 알고 있어야 하고 부모집단 간 특성에 차이가 있어야 함

 ㄴ 조금더 더 모집단을 대표하는 모집단을 표현 가능하다

 

 과정 : 층의 구성 (성별, 연령, 지역 등) -> 각 층에서 독립적으로 단순확률추출법을 사용한다

층의 비율에 맞게 추출하지만, 비율에 맞지 않으면 가중치 반영

 

- 집락표본추출 (Cluster sampling)

 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사

 

ex) 서울시 고등학생 월평균 사교육비 추정

 - SRS로 할시 

  추출틀 : 서울시 전체 고등학생명단 -> 작성비용 과다

  조사대상 : 서울 전역에 산재됨 -> 조사비용 과다

 - 집락추출로 할시

  1 단계 : 고등학교추출(PSU, primary sampling unit)

  2 단계 : 학생추출 (학급 -> 학생)

 

 활용 이유

 - 조사단위에 대한 표집틀 확보에 어려움 -> 상대적으로 집락에 대한 표집틀 확보는 쉬움

 - 조사단위들이 산재되어 관측비용 증가 -> 지역적으로 집중되도록 표본추출

 

 

'정리필요 > 수학' 카테고리의 다른 글

[통계개념] 잡다하게 정리  (0) 2021.03.25
[개념] 평균, 표준편차, 분산에 대한 개념  (0) 2021.03.15
statistics_study 1  (0) 2021.02.23