9. Resampling과 가설검정

2019. 12. 18. 17:22stats

반응형

SNUON 통계학

9-1. Resampling (Bootstrap)

 

Resampling

- 신뢰구간을 유도하는 과정은 중심극한정리에 의존한다

- 만약 우리가 분산, 혹은 변동계수 (표준편차 ÷ 평균)의 신뢰구간을 구하고 싶다면 어떻게 해야 할까?

- 방법 1 : 분산(변동계수)의 추정치인 표본분산 (표본 변동계수) 를 구한 후 추정치의 sampling distribution을 이론적으로 계산한 후 이를 바탕으로 신뢰구간을 구한다

- 방법 2 : 방법 1과 같은 방식을 사용하지만 sampling distribution을 bootstrap을 사용해 구한다

 

- 이론적으로 sampling distribution을 알 수 없다면 어떻게 sampling distribution을 알아낼 수 있을까?

- 만약 우리가 B개의 sample이 있다면 sample마다 원하는 summary statistic을 구하고 B개의 summary statistic(분산, 변동계수)의 histogram을 그린다면 summary statistic의 sampling distribution을 짐작할 수 있다

- 하지만 일반적으로 우리는 단 하나의 sample을 가지고 있다

 

Bootstrap

- Bootstrap의 key idea는 모집단이 아닌 empirical distribution(표본)에서 여러 개의 sample을 추출하는 데 있다

 

 

sample에서 sample with replacement로 뽑음 

 

Bootstrap

- Empirical distribution에서 size가 n인 sample을 뽑는 방법은 다음과 같다

- 각각의 observation에서 1부터 n까지의 번호를 부여한 후 sampling with replacement로 n개의 자료를 뽑는다. 여기서 같은 번호가 2번 이상 뽑힐 수도 있다

- 각 번호가 뽑힐 확률은 1/n으로 똑같다

- 이렇게 뽑힌 sample을 boostrap sample이라고 한다

 

- 만약 우리가 모수 θ (예 : 표준편차)를 추정하고 싶다고 가정하자

- 먼저 1000개의 bootstrap sample을 추출하고 각각의 bootstrap sample에서 모수의 추정치 θ* (예 : 표본 표준편차)를 계산한다

- 추정치를 가장 작은 순서부터 큰 순서로 나열한다 : θ*(1), ... , θ*(1000)

- bootstrap sample이 얼마나 퍼져있는지가 추정치의 불확실성 (standard error)이다

 

Bootstrap Confidence Interval

- bootstrap을 이용해 (1-a) * 100% confidence interval을 어떻게 구할 수 있을까?

- 먼저 (1-a) * 100% 신뢰구간의 정의를 다시 상기해보자

- 만약 중심극한정리를 사용할 수 있다면 다음과 같은 식을 사용한다. 먼저 δ = θ*- θ 라고하자

Pr( δ 0.025 <= θ*- θ <= δ 0.975 ) = 0.95

- 여기서 δ 0.975 와 δ 0.025는 δ = θ*- θ 의 97.5 percentile과  2.5 percentile을 나타낸다

* δ 0.975 와 δ 0.025의 값은 랜덤이다 ∵ δ 자체가 랜덤이기 때문

 

9-2. 가설검정과 A/B Test

 

A/B Test

- (ex) 웹사이트에서 방문자에게 무작위로 한 개의 버튼 요소의 디자인만 다른 두 가지 버전을 무작위로 방문자에게 제공하여 디자인의 효용성을 측정

- 마케팅과 웹분석에서 A/B 테스트는 두 개의 변형 A와 B를 사용하는 종합 대조 실험(controlled experiment)

- 통계학의 two-sample test와 같은 개념이다

 

통계적 가설 검정

통계적 가설 검정을 이해하기 위해 다음과 같은 과학적 사실에 대해 생각해보자

- 가설 : 모든 백조는 흰색이다

- 예측 : 만약 백조를 본다면, 모든 백조들은 흰색일 것이다

- 검정 : 백조를 찾아서 확인해보자 

 

가설이 명확하지 않다면?

- 가설 : 대부분의 백조는 흰색이다 (대부분이 몇 % 인가?)

- 예측 : ?

- 검정 : ? 

 

가설을 보다 명확히 하면?

- 가설 : 최소한 99%의 백조는 흰색이다

- 예측 : 만약 백조 100마리를 관측한다면 그 중 최소한 99마리는 흰색이다

- 검정 : 100명의 백조를 임의로 뽑고 색깔을 확인한다 (실제는 99%가 맞더라도, 샘플에 따라 99%가 안 나올 수도 있음)

 

검정결과

- 검정 : 100명의 백조를 임의로 뽑고 색깔을 확인한다

- 만약 95마리가 흰색이라면 가설은 여전히 참일까?

- 만약 흰색인 백조가 80마리 이하라면 가설은 참이라고 할 수 있을까?

 

예제 : 성차별 

 

  승진 O 승진 X 합계
남성 21 3 24
여성 14 10 24
합계 35 13  

남성이 승진할 확률 = 21/24 ≒ 0.88

여성이 승진할 확률 = 14/24 ≒ 0.58

 

귀무가설 : 성별과 승진이 관련이 없다면 승진 비율의 차이는 우연에 의한 것이다

대립가설 : 성별과 승진이 관련이 있다면 승진 비율은 실제로 성별에 따라 차이가 있다 

 

Permutation 결과

35명 중 승진 실패하는 인원을 13명으로 고정시켜놓고,  남성/여성을 랜덤하게 섞음

남성과 여성이 승진할 확률이 30% 이상 차이가 날 확률은 매우 적다

 

 

 성별과 승진이 관련 있다 (대립가설 채택)

 

가설검정 

- 귀무가설 : 현 상태를 나타내는 것

- 대립가설 : 우리가 증명하고자 하는 것

 

검정통계량(test statistic)의 표본분포(sampling distribution)

- 귀무가설이 참이라는 가정하에 검정통계량의 표본분포를 resampling 또는 이론적인 방법을 통해 알아본다

- p-value는 귀무가설하에서 관측된 검정통계량의 값 혹은 이보다 더 extreme한 값을 관측할 확률을 말한다

※ p-value ≠귀무가설이 참일 확률 

※ p-value가 크다고 귀무가설이 참인 것이 아니라, 귀무가설을 거짓이라고 할 만한 충분한 증거가 없는 것 

 

- 주어진 유의수준(Significance level) α 와 p-value를 비교하여 귀무가설을 reject 혹은 fail to reject 할 지 결정한다

- 유의수준 : 얼마나 드물면 귀무가설 reject할 지 미리 정해놓은 값, 일반적으로 0.05 

- p-value < 0.05 이면 귀무가설을 기각함

- p-value > 0.05 이면 귀무가설 기각할 만한 충분한 증거가 없다 

 

귀무가설과 대립가설

- 귀무가설 : 지금 현 상황을 얘기하며 법정에서 무죄추정의 원칙과 같다

- 대립가설 : 우리가 증명하고자 하는 사실. 법정에서는 검사의 위치로서 피고의 유죄를 증명해야 한다

- 평균에 대한 귀무/대립가설 

 

 

(ex) 한국 남자의 평균 키가 변한 것 같음 

귀무가설 : 한국 남자의 평균 키는 XXX cm 이다 (원래 알려져 있던 평균 키)

대립가설 : 한국 남자의 평균 키는 XXX cm보다 크다 / 작다 / 같지 않다 

 

검정통계량

- 귀무가설이 참이라는 가정 하에서 이러한 자료 (혹은 검정통계량으로 대표되는 summary statistic)을 관측할 확률이 얼마나 큰지 여부로 가설검정을 시행한다

- 평균의 값에 관한 가설검정에서 검정통계량 (표본평균 표준화)

 

SE = Standard Error, n은 표본크기, s는 표본표준편차

 

가설검증 결론

- 유의수준은 일반적으로 0.05를 사용한다

- p-value를 유의수준과 비교하여 결론을 내린다

- 만약 p-value < α 이면, 귀무가설 H0을 기각하며, 데이터는 대립가설 H_A의 증거를 제공한다

- 만약 p-value > α 이면, 귀무가설 H0을 기각하지 못하며, 데이터는 대립가설 H_A의 증거를 제공하지 못한다

 

가설검정과 신뢰구간

- 양측 검정(Two sided test) : 대립가설이  "~와 같지 않다"인 경우

- 양측 검정에선 가설검정과 신뢰구간은 같은 통계적 분석 방법으로 고려할 수 있다 

- 뮤가 신뢰구간 안에 포함되어 있으면 귀무가설을 기각할 수 없다

- 뮤가 신뢰구간 밖에 있으면(귀무가설 참이라고 가정했는데 뮤가 너무 extreme한 값임) 귀무가설을 기각할 수 있다 

 

단측검정(One-sided) vs 양측검정(Two-sided)

- 단측검정(One sided test) : 대립가설이  "~보다 크다/작다"인 경우

- 같은 유의수준, 검정통계량을 사용하면 단측검정에선 기각이 되는데 양측검정에선 기각이 되지 않는 경우도 있다

(유의수준이 똑같이 0.05라면 양측검정은 양 끝의 0.025, 단측검정은 한 쪽 끝의 0.05)    

 

 

→ 특별한 이유가 없으면 양측검정을 써야한다

(ex) 제약회사 신약 개발. 더 효과가 좋아졌다고 믿으니 단측검정을 하고 싶지만, 안전상의 이유로 양측검정을 해야 한다

 

신뢰구간을 이용한 가설검정

연애횟수 예제에서 서울대생의 평균 연애 횟수가 3회라고 가정하자

실제로 신뢰구간을 구한 결과 (2.7, 3.7)이 귀무가설의 값인 3을 포함하므로 연애횟수가 3이 아니라고 할 충분한 이유가 없다

이 경우 귀무가설을 기각하지 않는다 (fail to reject the null hypotheses)

 

예제 : 서울대 통계학과 신입생의 평균 지원대학교 개수

일반적으로 고3들의 평균 지원대학교 개수는 8개로 알려져 있다. 서울대 통계학과 신입생의 평균지원대학교 숫자도 8일까? 

- 귀무가설 : 서울대 통계학과 신입생의 평균지원대학교는 8개다

- 대립가설 : 서울대 통계학과 신입생의 평균지원대학교는 8개 아니다

- 검정통계량 : 각 학생마다 지원대학교 개수 물어봐서 표본평균을 구한 후, 여기서 8(=뮤)을 빼고 이를 Standard Error(표본표준편차/√표본크기)로 나눈다 

- 결론 : 검정통계량이 굉장히 크거나 작으면 귀무가설 기각 가능 

 

 

Decision Error

 

 

1) 1종 오류 (Type 1 error)

- 귀무가설이 참일 때, 귀무가설을 기각하는 경우 

- 1종 오류의 최대허용범위가 유의수준(significance level)이다 

(ex) 무죄인데 유죄로 판결하는 경우 

 

2) 2종 오류 (Type 2 error)

- 귀무가설이 거짓인 경우에 귀무가설을 기각하지 않은 경우 

- 2종 오류를 범할 확률은 β

(ex) 유죄인데 무죄로 판결하는 경우

 

→ 두 오류를 같이 줄일 순 없다 

 

3) 검정력(Power)

- 귀무가설이 거짓일 때 귀무가설을 기각할 확률 

- 검정력은 1- β 로 정의 함 

 

가설검정에서 우리는 유의수준을 최대한 낮게 하고 검정력은 최대한 크게 하기를 원한다 

반응형

'stats' 카테고리의 다른 글

11. 모평균에 관한 추론 I  (0) 2020.01.07
10. 중심극한정리와 검정력  (0) 2020.01.07
8. 통계적추론의 개요  (0) 2019.12.18
7. 다양한 이산분포  (0) 2019.12.18
6. 확률분포  (0) 2019.11.16