23. 로지스틱 회귀분석 I

2020. 1. 21. 20:41stats

반응형

SNUON 통계학

 

로지스틱 회귀분석

1. 단순 로지스틱 회귀분석

2. 회귀계수의 추론

3. 다중 로지스틱 회귀분석

4. Case Study

 

23-1. 단순 로지스틱 회귀분석

 

로지스틱 회귀분석 사용 예

- 유전자 정보를 이용하여 환자의 유방암 발병율을 예측한다

- 이메일이 스펨메일인지 아닌지 여부를 알아낸다

- 한약재의 화학적 성분을 이용하여 한국산/중국산 여부를 알아낸다 

→ 반응변수가 binary 

 

예제 : 관상동맥 심장질환

관상동맥 심장질환(CHD)과 나이와의 관계에 대해 알아보고자 한다

병원환자 중 58명을 대상으로 관상동맥 심장질환여부와 나이를 조사한 결과 연령층은 20-64세였고, 이 중 43%가 관상동맥 심장질환을 앓고 있었다

 

Linear Regression을 잘 적합시킬 수 없다

 

반응변수가 binary인 경우

목표 : 나이와 흡연이 CHD의 위험요인인가? 그렇다면 각각의 위험용ㄴ이 실제 질병에 미치는 영향의 크기는 어느 정도인가?

 

분석방법

- 연령을 binary로 바꾸어서 두 개의 그룹으로 나누어 두 표본비율의 차이에 관한 검정

- 연령을 범주형 자료로 바꾸어서 여러 개의 그룹으로 나누어서 분산분석을 이용한 다중검정

- 연령을 그대로 연속형 변수로 두고 로지스틱 회귀분석 시행 

 

예제 : 관상동맥 심장질환

- 연령을 여러 개의 그룹으로 나눈 후(20대, 30대, ...) 그룹별로 CHD 환자의 비율 계산

 

 

로지스틱 회귀분석

- 연속변수인 나이를 범주형으로 전환하지 않고 앞에서와 같은 구조로 모형화할 수 있을까?

- 정답은 로지스틱 회귀분석

- 나이와 같은 연속형 변수를 범주형으로 사용하지 않고 반응변수가 binary일 경우 사용하는 회귀분석 방법

 

 

로지스틱 회귀분석의 목적

- 예측 : 주어진 독립변수를 바탕으로 Y=1일 확률을 예측하는 모형개발 

- 예를 들면 CHD 예제의 경우 주어진 나이를 바탕으로 CHD를 앓고 있을 확률을 로지스틱 회귀모형을 통해 예측할 수 있다

- 위험요인이 반응변수에 미치는 영향의 크기 추정 : 여러 독립변수들과 반응변수간의 연관성의 정도를 추정한다

 

로지스틱 회귀모형 

p = Pr(Y=1) 에 대한 방정식 (Y=1일 확률에 대한 방정식)

 

x1, x2.. 는 설명변수

p는 확률이므로 0<= p <= 1

 

로지스틱 회귀분석

앞의 식은 다음과 같이 바꾸어 쓸 수 있다

 

 

0 <= odd (무한대까지 가능)

따라서 log(odds)는 -무한대에서 +무한대까지 가능 

 

 

예제 : 관상동맥 심장질환

CHD와 나이의 자료에서 아래 로지스틱 회귀직선 추정식을 구하고자 한다

 

- 여기서 p = (CHD를 가진 사람의 비율), x1은 나이를 의미한다

- 위의 식을 아래와 같이 표현할 수도 있다

 

 

로지스틱 회귀분석

- 특정 사건의 오즈가 높을수록 그 사건이 발생할 확률이 높다

- 예측변수 x가 특정 사건과 양의 관련성이 있다면 역시 사건이 발생할 확률과 양의 관련성이 있다. 즉, x의 회귀계수가 양수이다

- 예측변수 x가 특정 사건과 음의 관련성이 있다면 역시 사건이 발생할 확률과 음의 관련성이 있다. 즉, x의 회귀계수가 음수이다

 

예제 : 관상동맥 심장질환

관상동맥 심장질환에서 로지스틱 회귀분석을 적합시키면 다음과 같은 결과를 얻는다

 

 

- 추정된 회귀계수 베타1(=0.135)이 양수이다. 즉 나이와 log(Odds of CHD)는 양의 관계가 있다

- 그렇다면 회귀계수의 추정치 0.135는 어떻게 해석해야 할까?

- 먼저 나이가 한 살 차이나는 2개의 그룹을 생각해보자

1) 그룹1 : 나이= k years

2) 그룹2 : 나이= (k+1) years

- 이 경우에 해당하는 로지스틱 회귀모형은 다음과 같다

 

 

기울기의 추정치 = 각 로그 오즈의 차이

 

 

- 즉 베타1은 log(오즈비의 추정치)이다 

 

 

- 이 예제에서는

 

 

- 만약 우리가 한 살 차이 나는 2개의 그룹을 비교한다면 한 살 많은 그룹이 젊은 그룹에 비해 심장질환을 가질 오즈비의 추정치가 1.14이다

 

 

예제 : 연령별 모유 수유 현황

- 임의표본추출로 3살 이하 네팔 유아 236명을 선정한 후 모유 수유 여부와 아이들의 나이를 달 단위로 기록하였다

- 모유 수유와 유아의 나이의 관계를 로지스틱 회귀분석을 이용해서 분석하자

 

 

- 여기서 p는 모유수유 비율이고 x1은 유아의 나이이다 

- 베타1이 음수일거라 추정 가능 (나이들수록 모유 수유X)

 

 

- 기울기가 음수이므로 유아의 나이와 모유수유는 음의 관련성이 있는 것을 알 수 있다

- 구체적으로 한 달차이가 나는 2개의 유아그룹의 모유수유 오즈비는 0.78이다

- 즉 한 달 먼저 태어난 유아가 모유수유를 할 오즈는 어린 그룹에 비해 22% (1-0.78=0.22) 낮다

- 6개월 차이가 나는 두 그룹을 비교하자. 즉 24개월된 유아와 18개월된 유아를 비교할 때 모유수유의 오즈비 추정치는?

- 먼저 각 그룹의 오즈를 구해보자

 

 

- 차이를 계산하면

 

 

 

 

- 이제 유아의 성별과 모유수유 여부와의 관계에 대해서 알아보자 

 

 

- 여기서 p는 모유수유 비율이고 x1은 유아의 성별(여자=1, 남자=0)이다 

 

- 여기서 베타1=0.002이다. 즉 남자 유아와 여자 유아의 모유수유의 오즈비 추정치

 

 

- 따라서 남자 유아와 여자 유아의 모유수유의 오즈는 거의 같다

 

반응형

'stats' 카테고리의 다른 글

Micro- and Macro F1 scores  (0) 2020.10.07
24. 로지스틱 회귀분석 II  (0) 2020.01.21
22. 2x2 분할표 II  (0) 2020.01.21
21. 2x2 분할표 I  (0) 2020.01.21
20. 다중회귀분석 II  (0) 2020.01.15