19. 다중회귀분석 I

2020. 1. 15. 21:13stats

반응형

SNUON 통계학

 

다중회귀 Multiple Regression

1. 다중회귀분석

2. 모형선택

3. 그래프를 이용한 회귀분석의 가정점검

4. 로지스틱 회귀분석

 

19-1. 다중회귀분석의 소개 

 

Multiple Regression

- 단순회귀분석 : 설명변수가 1개인 경우

- 다중회귀분석 : 설명변수가 여러 개인 경우 

 

 

어린왕자 예제

 

 

Hardcover vs Paperback

- 단순회귀분석 : volume과 weight 사이의 관계를 hardcover와 paperback 별로 나누어 살펴보자 

 

 

Modeling weights of books using volume and cover type 

 

 

- 나머지 변수의 값이 모두 같다는 전제하에 (커버가 같은 종류라면) volume이 1 단위 증가하면 weight는 0.71795 증가한다

- volume이 같고 paperback이라면 weight는 184.0473만큼 감소한다 

 

- Slope of volume : 책의 커버 종류가 같은 경우 책의 무게는 1세제곱 센티미터마다 0.72 그램 더 나간다

- Slope of cover : volume이 같을 경우 paperback의 무게가 hardcover bok의 무게보다 평균적으로 184 그램 가볍다 

 

Reference Level

- 커버의 reference level = hardcover

- papberback이면 1, hardcover면 0 

 

weight_hat = 197.96 + 0.72*volume - 184.05 * cover:pb 

 

1) Hardcover books : weight_hat = 197.96 + 0.72*volume

2) Paperback books : weight_hat = 197.96 + 0.72*volume - 184.05 * 1 (절편의 값이 작아진다)

 

 

 

아이의 키, 몸무게, 팔목 두께

- 단순회귀분석 : 키-몸무게, 키-팔목 두께, 몸무게-팔목 두께 모두 양의 상관계수를 가짐 

- 그러나 다중회귀분석의 경우 상관계수의 부호까지 달라질 수 있음

- 회귀는 나머지 변수를 통제한 후 두 변수의 관계를 측정하는 것! 

- 같은 몸무게인 두 아이라면, 키가 커질수록 팔목이 가늘어짐 (음의 상관)

 

 

Interpretation of the regression coefficient

 

 

 

Another example : Modeling kid's scores 

어머니의 특징을 사용하여 3-4살 어린이의 인지능력점수를 예측하고자 한다 

 

엄마 고등학교 졸업 여부, IQ, 근무 여부, 나이 

 

기울기의 해석 

 

 

- mom_hs/work 의 reference level = no 졸업하지 못한 경우 ( mom_hs/work:yes = 1 / no = 0 )

- 엄마의 학력, IQ는 p-value < 0.05. 따라서 기울기가 0 아님 

- 다른 모든 조건 (엄마의 나이, 학력, 직업)이 같다면 엄마 IQ가 1 높은 경우 자녀의 IQ는 평균적으로 0.56 높다 

- 절편의 해석? 고등학교를 졸업하지 않고 아이가 태어난 후 첫 3년간 일하지 않았으며 IQ가 0? 인 엄마의 자녀들의 평균 IQ는 19.59 (의미 X)

 

 

Revisit : Modeling poverty

50개주의 빈곤율 

 

metro_res = metroplitan resident 대도시 거주율 / hs_grad = 고등학교 졸업률 / female_house = 여성 세대주 비율

 

여성 세대주 비율을 이용한 빈곤율 예측 (단순회귀분석) 

 

 

- 여성 세대주 비율이 1% 증가하면 빈곤율은 0.68% 증가한다 

- R^2 = 0.28 : 이 모형이 반응변수(빈곤율) 변동(=분산)의 28%를 설명한다 (그리 높은 설명력 아님) 

 

 

R^2의 3가지 계산 방법

1) x와 y의 상관계수의 제곱

2) y_hat과 y의 상관계수의 제곱

3) 원래 정의 

explained : 모델에 의해 예측된

 

Sum of Squares

 

 

3가지 방법을 사용하는 이유?

- 단순회귀분석에서는 3가지 방법 모두 사용할 수 있다

- 다중회귀분석에서는 (첫 번째 방법 빼고) 2가지 방법을 사용할 수 있다

- R^2 특징 중의 하나는 변수를 추가할수록 증가한다는 것이다. 그렇다면 R^2이 높으면 좋은 모형일까?

 

 

빈곤율 예측에 두 예측변수를 사용할 경우

 

 

백인의 비율을 추가하는 것이 빈곤율 예측에 도움을 주는가?

- female_house와 white의 상관계수는 -0.75. 큰 관련이 있음. 그래서 빈곤율 예측에 비슷비슷한 두 변수를 넣은 셈! 따라서 R^2 수치가 크게 늘지 않음

- 기존의 변수인 female_house랑 상관이 크게 없으면서 poverty와는 상관있는 새로운 변수를 추가해야 R^2(설명력)가 증가함

 

Colinearity between predictors

 

 

- female_house와 white의 상관계수가 커서 뒤죽박죽

- 두 변수가 크게 관련 없었다면 기존 female_house의 slope이 크게 변화하지 않았을 것! (지금은 0.69 에서 0.89 로 크게 증가)

- female_house와 white가 correlated

 

Colinearity between predictors

- 예측변수들이 서로 관련이 있을 때 colinearity가 존재한다고 한다

- 관련이 있는 예측변수를 모형에 추가할 경우 실제 예측에 도움을 거의 주지 않는다

- 관측연구에서는 colinearity가 거의 항상 존재하고 실험에서는 예측변수들 사이가 독립이 되도록 설계하는 것이 중요하다

 

R^2 vs. adjusted R^2 

 

 

- 예측변수를 추가하면 R^2는 항상 증가한다

- 좋은 모형을 결정하는 기준으로 R^2 대신 adjusted R^2을 사용할 수 있다

 

cf. R^2 = 1 - (SS_error) / (SS_total) 

- 여기서 p는 예측변수의 개수를 의미하며 n은 자료의 개수이다 

- p가 많아질수록 (n-1)/(n-p-1) 은 1보다 커진다. R^2에 비해 1에서 더 큰 값을 빼게 되므로 adjusted R^2 은 더 작아진다

- adjusted R^2 은 예측변수가 많아지는 경우 R^2에 패널티를 준 것이라고 생각할 수 있다

- 따라서 adjusted R^2를 모형선택의 기준으로 사용할 수 있다

 

Adjusted R^2 계산하기

 

dsd

sd

반응형

'stats' 카테고리의 다른 글

21. 2x2 분할표 I  (0) 2020.01.21
20. 다중회귀분석 II  (0) 2020.01.15
18. 회귀분석 III  (0) 2020.01.15
17. 회귀분석 II  (0) 2020.01.15
16. 회귀분석 I  (0) 2020.01.15