16. 회귀분석 I

2020. 1. 15. 15:25stats

반응형

SNUON 통계학

 

선형회귀분석

1. 직선적합, 잔차, 상관관계

2. 최소제곱추정법

3. 이상점

4. 회귀분석의 추론

 

16-1. 직선적합, 잔차, 상관관계

 

1) 범주형 변수 하나, 연속형 변수 하나 : 분산분석

(ex) 각 반의 평균 비교

2) 범주형 변수 두개 : 분할표 

(ex) 카이제곱 검정 (독립성/동일성 검정)

3) 연속형 변수 두개 : 선형회귀분석 

 

Modeling numerical variables

두 연속변수 사이의 관계를 모형화하는 방법을 배우고 특히 한 변수를 이용하여 다른 변수를 예측할 경우에 대해서 알아보자

 

Poverty vs. HS graduate rate

아래 scatterplot (산점도)는 미국 50개 주와 DC에서 고등학교 졸업률과 빈곤율 사이의 관계를 보여준다

 

 

- 반응변수는? 빈곤율 

- 설명변수는? 고등학교 졸업률

- 두 변수 사이의 관계는? 음의 상관관계 (반비례 관계)

 

Quantifying the relationship

- 상관계수(correlation)는 두 연속형 변수 사이의 선형(linear) 관계의 정도를 나타내는 측도

- 상관계수는 1(perfect positive)과 -1(perfect negative) 사이의 값을 가진다

- 상관계수가 0인 경우 선형관계가 전혀 없다는 것을 의미한다 

- 두 변수가 선형관계가 아니라면, 상관계수 필요없음! 

 

상관관계 공식 

- 상관계수(correlation)의 정의는 다음과 같다 

 

Cov = Covariance 를 표준화

 

- 여기서 Cov(X,Y) = E(XY) - E(X)*E(Y)

* 기하학적 해석 : corr = 코사인 θ  ( X,Y 완벽 일치하는 경우 코사인 0 = 1 )

 

- 표본상관계수는 다음과 같이 계산할 수 있다 

 

각 변수를 표준화한 후 곱한 것을 다 더함 

 

16-2. 최소제곱추정법 Fitting a line by least squares regression

 

잔차(Residual)

- 모형 적합 후 실제 값과 적합된 모형의 차이 

- Data = Fit + Residual

 

 

- 잔차 e_i

* y_i = 실제 데이터, y_i_hat = 예측치

 

- DC의 빈곤율은 예측치보다 5.44% 높다

- RI의 빈곤율은 예측치보다 4.16% 낮다

 

 

A measure for the best line

- 잔차가 작을수록 직선 적합이 잘 되었다고 생각할 수 있다

1) 잔차의 절댓값을 최소화

2) 잔차의 제곱을 최소화 (least squares)

- 최소제곱법을 사용하는 이유?

1) 가장 일반적

2) 손으로 계산하기 쉽고 모든 통계 프로그램에서 구현되어 있음

3) 잔차의 값이 2배라는 것은 실제 상황에서는 그 이상으로 나쁜 경우가 종종 있기 때문에 제곱이 이 상황을 잘 반영한다

 

The least squares line

 

 

- 절편(Intercept) : Parameter =  β_0 / Point estimate = b0 

- 기울기(Slope) : Parameter =  β_1 / Point estimate = b1 

( β 가 모집단의 값, b는 샘플(표본)로 추정한 값)

 

R output

 

 

Slope 

- 회귀직선의 기울기는 다음과 같이 주어진다 

 

R = 상관계수

 

- 빈곤율과 고교졸업률의 예제에서 b1 = 3.1 / 3.73 * (-0.75) = -0.62

- 해석 : 고교졸업률이 1% 높아지면 평균적으로 빈곤율이 0.62% 낮아질 것으로 예상된다 

 

Intercept

- 절편은 회귀직선에서 x=0일 때 y의 값이다. 절편의 공식은 회귀직선이 (x bar, y bar) 를 지난다는 점을 착안하면 다음과 같이 주어진다

 

 

- 빈곤율과 고교졸업률의 예제에서 b0 = 11.35 - (-0.62)*86.01 = 64.68

- 해석? : 고교졸업률이 0% 일 때 빈곤율이 64.68%로 예상된다 ( 사실상 의미 X )

- x=0 이라는 의미는 고교졸업률이 0이라는 걸 의미하지만 실제로 그러한 주는 없을 것으로 생각되며, 또한 대부분 졸업률이 0보다 훨씬 높기 때문에 절편값 자체에 대해 큰 의미를 두지 않는다 

 

Interpretation of slope and intercept

 

 

- Intercept : x=0일 때, y의 값 

- Slope : x가 1단위 증가할 때, y는 평균적으로 기울기만큼 증가/감소한다

※ 주의 : 자료가 randomized controlled experiment에서 얻어진 것이 아니라면 위의 해석은 인과관계를 의미하는 것은 아니다

 

Prediction

- 회귀분석모형을 이용하여 주어진 설명변수 값에 대응하는 반응변수의 값을 추정하는 것을 예측(prediction)이라고 한다

- 이러한 예측치에는 불확실성이 동반된다 

반응형

'stats' 카테고리의 다른 글

18. 회귀분석 III  (0) 2020.01.15
17. 회귀분석 II  (0) 2020.01.15
15. 모비율에 관한 추론 II  (0) 2020.01.14
14. 모비율에 관한 추론 I  (0) 2020.01.12
13. 분산분석 ANOVA  (0) 2020.01.11