17. 회귀분석 II

2020. 1. 15. 16:45stats

반응형

SNUON 통계학

 

선형회귀분석

1. 직선적합, 잔차, 상관관계

2. 최소제곱추정법

3. 이상점

4. 회귀분석의 추론

 

 

17-1. 회귀분석모형의 적합

 

Extrapolation

- 주어진 자료의 범위 밖에서 모형을 이용하여 예측하는 것을 외삽(extrapolation)이라고 한다 

- 절편이 외삽에 해당하는 경우가 종종 있다 

 

Examples of Extrapolation

 

 

Conditions for the least square line

1) 선형관계 (Linearity)

2) 정규분포 (Nearly normal residuals)

3) 등분산성 (Constant variability) 

 

Conditions (1) Linearity 

- 반응변수와 설명변수의 관계는 선형이어야 한다

- 반응변수와 설명변수의 관계가 비선형인 경우 nonparametric regression을 사용하면 된다

- 관계의 선형 여부 파악 방법 : Check using a scatterplot of the data, or a residuals plot 

 

위는 scatter, 밑은 residual plot

 

Anatomy of a residuals plot

 

 

Conditions (2) Nearly normal residuals

- 잔차는 정규분포를 따라야 한다

- 이상점이 있을 경우 혹은 3번째 가정(등분산성)을 만족하지 않을 경우 정규분포를 따르지 않을 수 있다

- 정규분포 따르는지 파악 방법 : 잔차의 histogram 혹은 normal probability plot을 이용하여 check한다 (심각하지만 않으면 OK)

 

Conditions (3) Constant variability 

- 회귀직선 주위의 point의 variability는 일정해야 한다

- 즉 잔차의 분산은 x의 값에 관계없이 일정해야 한다 

- 등분산성을 다른 용어로 homoscedasticity

- 등분산성 여부 파악 방법 : residual plot 이용  

 

대부분의 데이터가 회색 영역 안에 있어야 등분산성

 

Checking conditions

다음 그림은 회귀분석에서 어떤 가정을 만족하지 않는가?

답 : 선형관계

 

답 : 등분산성

 

R^2 (R-square)

- 선형모형의 적합정도를 나타내는 정도

- R^2 는 상관계수의 제곱

- R^2은 모형에 의해 설명된 반응변수의 변동정도 

- 모형에 의해서 설명되지 않은 변동은 (1) 모형에 포함되지 않은 설명변수 혹은 (2) 자료 자체의 randomness에 기인한다고 생각할 수 있다 

 

Interpretation of R^2

고교졸업률과 빈곤률 예제에서 R = -0.62, R^2 = 0.38

해석 : 빈곤률의 변동 중 38%가 회귀모형으로 설명된다 

 

Poverty vs. region (east, west)

- 설명변수가 범주형, 반응범주가 연속형 변수인 경우에도 회귀분석 사용 가능 

(따라서 앞에서 배운 분산분석들도 회귀분석으로 나타낼 수 있음)

 

poverty_hat = 11.17 + 0.38 * west 

- Explanatory variable : region 

- Reference level : east (east=0, west=1)

- Intercept : 동부지역의 평균 빈곤율은 11.17%이다 (설명변수에 0을 넣어 계산) 

- Slope : 평균적으로 서부 지역 주의 빈곤율이 동부지역 주에 비해서 0.38% 높다 (설명변수에 1을 넣어 계산)

 

cf. 분산분석에선 표본평균 비교해서 t-검정 등등을 했는데, 회귀분석에선 기울기가 0인지 아닌지 따짐

→ 그래서 진짜 평균에 통계적으로 유의미한 차이가 있나?

 

Poverty vs. region (northeast, midwest, west, south)

어느 지역이 기준 지역(reference level)인가?

답 : northeast 

 

northeast가 기준점

northeast vs. midwest : midwest의 빈곤율이 northeast보다 0.03 높다 

northeast vs. west : west의 빈곤율이 northeast보다 1.79 높다 

northeast vs. south : south의 빈곤율이 northeast보다 4.16 높다 

→ 이들의 차이가 유의미한지에 대한 검정 (t-value)

 

west vs. south : south의 빈곤율이 west보다 4.16 - 1.79 = 2.37 높다 

→ 이들의 차이가 유의미한지에 대한 검정은 나와있지 않음 

 

northeast의 빈곤율이 가장 낮고, south의 빈곤율이 가장 높다 

 

기준점을 south로 바꾸면 estimate의 값은 모두 음수가 될 것이다 

 

 

17-2. 이상점 

 

Types of outliers

 

 

1) 다음 그림에서 이상점(outlier)이 회귀직선에 어떻게 영향을 주었나?

- 왼쪽 하단의 4점을 포함해서 구한 회귀직선과  포함하지 않고 구한 회귀직선이 어떤 모양인지 생각해보자

- 빨간직선은 모든 점을 포함한 경우의 회귀직선이며 왼쪽 하단의 점들을 포함하지 않을 경우 회귀직선의 기울기는 조금 더 낮아질 것이다

 

 

2) 다음 그림에서 이상점은 회귀직선에 어떤 영향을 주었나?

- 이상점이 없다면 반응변수와 설명변수 사이는 큰 연관이 없어 보인다

 

Some terminology

- Outliers는 대부분의 데이터에서 떨어져 있는 점을 말한다

- Outliers 중 대부분의 데이터에서 수평적으로 떨어져 있는 점을 high leverage points라고 한다

- 회귀직선의 기울기에 영향을 주는 Outliers는 influential points라고 한다

- Outlier가 influential인지 여부를 알아보려면 그 점을 포함한 회귀직선과 포함하지 않은 회귀직선을 그린 후 두 직선의 기울기의 차이를 살펴보면 된다

 

Influential points

 

 

- Outliers 포함하면 음, 포함하지 않으면 양의 상관관계

 

Types of outliers

 

 

1) 다음 그림의 이상점은 어떤 유형?

- High leverage 

 

 

 

2) 다음 그림에서 이상점은 기울기에 영향을 미치는가?

- 큰 영향을 미치진 않는다 

 

Recap

다음 중 사실인 것은?

a. Influential points는 항상 회귀직선의 절편을 바꾼다

b. Influential points는 항상 R^2을 축소한다 

c. Leverage point가 값이 작을 경우 큰 경우와 비교하여 influential point일 가능성이 더 높다

d. 데이터가 influential point를 포함한 경우 반응변수와 설명변수의 관계는 항상 비선형이다

 

답: a 

Influential points는 기울기를 바꾸므로 절편도 바뀐다 (R^2는 알 수 없음) 

 

 

Anscombe's quartet

 

 

- 4가지 경우의 x 평균/분산, y 평균/분산 모두 같고, 상관계수도 0.816으로 같고, 단순회귀분석도 y = 3 + 0.5x 로 같음 

- numerical summary에는 차이가 없지만 시각적으로 확인해보면 매우 다름

- 분석의 첫 단계에는 히스토그램 또는 산점도로 시각화하기! 이후 추론하기 

 

 

반응형

'stats' 카테고리의 다른 글

19. 다중회귀분석 I  (0) 2020.01.15
18. 회귀분석 III  (0) 2020.01.15
16. 회귀분석 I  (0) 2020.01.15
15. 모비율에 관한 추론 II  (0) 2020.01.14
14. 모비율에 관한 추론 I  (0) 2020.01.12