18. 회귀분석 III

2020. 1. 15. 17:23stats

반응형

SNUON 통계학

 

18-1. 회귀모형에 관한 추론 

 

추론

1) 가설검정 : 기울기가 0이냐 아니냐?

2) 신뢰구간 : 기울기가 어떤 범위 안에 속하냐? 

* 추정치의 불확실성 

 

Nature or nurture?

- 일란성 쌍둥이를 연구하여 지능의 유전적 영향에 대해 연구 

- 양부모에 의해 길러진 쌍둥이와 생물학적 쌍둥이 27쌍의 지능을 나타낸다

- x축 : 생물학적 IQ

- y축 : 양부모에 의해 길러진 쌍둥이의 IQ 

 

 

Testing for the slope

이 연구에서 사용된 27쌍 쌍둥이가 출생 시 떨어져서 양육된 쌍둥이를 대표하는 표본이라고 가정하자. 우리는 생물학적 쌍둥이를 이용하여 양부모하의 IQ를 예측할 수 있는지에 관심이 있다(유전적으로 지능 모두 설명 가능). 이 경우에 적절한 가설검정은?

 

- H_0 :  β1 = 0  ( y는 x의 값에 상관없다 ) 

- H_A :  β1  != 0 

 

 * 회귀분석은 모집단(b가 아니라 β)기울기(β0이 아니라 β1)에 관한 것 

 

 

- 회귀직선에서 기울기에 대한 검정은 t-검정을 사용한다 

- 검정통계량 test statistic T = ( point estimate - null value) / SE 

- Point estimate = b1 은 자료에서 추정한 기울기 

- SE_b1 은 기울기 추정치의 표준오차

- 기울기의 자유도 (degrees of freedom)은 df = n-2 이다. 여기서 n은 표본의 크기이다

(기울기와 절편을 고정하는데 데이터 2개가 소모되어 자유도는 n-2라고 생각하면 됨)

* 일반적으로 자유도는 (표본크기) - (내가 추정해야하는 모수의 개수) 

* 회귀분석에서는 기울기와 절편 2개의 모수 추정해야 함 

- 대부분 null value = 0

cf. 선행연구로 기울기가 특정 수치로 알려져 있는 경우 null value가 0이 아닐수도

 

- 이 예제에서 검정통계량 T는 ( 0.9014 - 0 ) / 0.0963 = 9.36 = t value 

- 표본의 크기가 30 이상이면 CLT를 통해 정규분포를 따른다고 볼 수 있음. 그러나 이 예제에서 n=27 (27쌍의 쌍둥이)

- 그래서 t-검정을 이용함. 자유도는 n-2 = 27-2 = 25 

- p-value는 0.000. 따라서 귀무가설 기각 가능 

 

 

Percent college graduate vs. percent Hispanic in LA

히스패닉의 비율과 대졸 비율 사이에는 어떤 관련이 있는가?

 

 

 

- p-value가 0.05보다 작으므로 귀무가설 기각 가능 (기울기 0 아님)

- 히스패닉과 대졸 사이 반비례 관계 

- 히스패닉 비율이 1% 증가하면 대졸 비율은 0.7527% 감소하는 경향이 있다 

 

- 만약 우편번호가 randm하게 뽑히지 않았다면 위의 분석결과는 신뢰할 수 없다 

- random해야 표본을 모집단으로 확대하여 해석할 수 있음 

 

 

Confidence interval for the slope 

쌍둥이 지능 예제에서 기울기에 대한 신뢰구간을 계산하라

 

 

신뢰구간 = point estimate ± Z * SE

0.9014 ± 2.06 * 0.0963

 

Z 값 

1) 표본크기가 충분히 큰 경우 : 정규분포에 근사, 95% 신뢰구간이면 1.96 

2) 표본크기가 작은 경우 : t-분포의 percentile

 

표본크기가 27로 작음. 자유도가 25인 t-분포를 따른다 

95% 신뢰구간을 구하려면 자유도 25인 t-분포의 97.5% 와 2.5% 값을 찾는다 (부호만 반대고 절댓값 같음)

t-분포는 정규분포보다 꼬리가 두텁기 때문에 정규분포의 Z값보다 크다 

 

Recap

단순회귀분석에서 기울기의 검정 : 1) 가설검정과 2) 신뢰구간

 

- 절편 자체에 대한 추론은 거의 하지 않는다

- R 등 통계분석 프로그램에서는 기울기가 0인지 여부에 대한 t-검정의 결과를 양측검정에 기반한 p-value를 제공한다 

 

주의사항

- 어떤 형태의 자료를 가지고 분석하는지 항상 주의 깊게 살펴보라! 모집단이 무엇이며 자료는 확률표본(random sample)인지 여부를 확인하라

- 모집단 자료가 있다면 굳이 표본을 이용하여 분석한 결과를 사용할 필요가 없다

- 표본인 확률표본이 아니라면 결과는 신뢰할 수 없다

- 서로 독립인 관측치를 확보하는 것이 중요하다 

 

반응형

'stats' 카테고리의 다른 글

20. 다중회귀분석 II  (0) 2020.01.15
19. 다중회귀분석 I  (0) 2020.01.15
17. 회귀분석 II  (0) 2020.01.15
16. 회귀분석 I  (0) 2020.01.15
15. 모비율에 관한 추론 II  (0) 2020.01.14