2020. 1. 21. 20:41ㆍstats
SNUON 통계학
로지스틱 회귀분석
1. 단순 로지스틱 회귀분석
2. 회귀계수의 추론
3. 다중 로지스틱 회귀분석
4. Case Study
23-1. 단순 로지스틱 회귀분석
로지스틱 회귀분석 사용 예
- 유전자 정보를 이용하여 환자의 유방암 발병율을 예측한다
- 이메일이 스펨메일인지 아닌지 여부를 알아낸다
- 한약재의 화학적 성분을 이용하여 한국산/중국산 여부를 알아낸다
→ 반응변수가 binary
예제 : 관상동맥 심장질환
관상동맥 심장질환(CHD)과 나이와의 관계에 대해 알아보고자 한다
병원환자 중 58명을 대상으로 관상동맥 심장질환여부와 나이를 조사한 결과 연령층은 20-64세였고, 이 중 43%가 관상동맥 심장질환을 앓고 있었다
반응변수가 binary인 경우
목표 : 나이와 흡연이 CHD의 위험요인인가? 그렇다면 각각의 위험용ㄴ이 실제 질병에 미치는 영향의 크기는 어느 정도인가?
분석방법
- 연령을 binary로 바꾸어서 두 개의 그룹으로 나누어 두 표본비율의 차이에 관한 검정
- 연령을 범주형 자료로 바꾸어서 여러 개의 그룹으로 나누어서 분산분석을 이용한 다중검정
- 연령을 그대로 연속형 변수로 두고 로지스틱 회귀분석 시행
예제 : 관상동맥 심장질환
- 연령을 여러 개의 그룹으로 나눈 후(20대, 30대, ...) 그룹별로 CHD 환자의 비율 계산
로지스틱 회귀분석
- 연속변수인 나이를 범주형으로 전환하지 않고 앞에서와 같은 구조로 모형화할 수 있을까?
- 정답은 로지스틱 회귀분석
- 나이와 같은 연속형 변수를 범주형으로 사용하지 않고 반응변수가 binary일 경우 사용하는 회귀분석 방법
로지스틱 회귀분석의 목적
- 예측 : 주어진 독립변수를 바탕으로 Y=1일 확률을 예측하는 모형개발
- 예를 들면 CHD 예제의 경우 주어진 나이를 바탕으로 CHD를 앓고 있을 확률을 로지스틱 회귀모형을 통해 예측할 수 있다
- 위험요인이 반응변수에 미치는 영향의 크기 추정 : 여러 독립변수들과 반응변수간의 연관성의 정도를 추정한다
로지스틱 회귀모형
p = Pr(Y=1) 에 대한 방정식 (Y=1일 확률에 대한 방정식)
p는 확률이므로 0<= p <= 1
로지스틱 회귀분석
앞의 식은 다음과 같이 바꾸어 쓸 수 있다
0 <= odd (무한대까지 가능)
따라서 log(odds)는 -무한대에서 +무한대까지 가능
예제 : 관상동맥 심장질환
CHD와 나이의 자료에서 아래 로지스틱 회귀직선 추정식을 구하고자 한다
- 여기서 p = (CHD를 가진 사람의 비율), x1은 나이를 의미한다
- 위의 식을 아래와 같이 표현할 수도 있다
로지스틱 회귀분석
- 특정 사건의 오즈가 높을수록 그 사건이 발생할 확률이 높다
- 예측변수 x가 특정 사건과 양의 관련성이 있다면 역시 사건이 발생할 확률과 양의 관련성이 있다. 즉, x의 회귀계수가 양수이다
- 예측변수 x가 특정 사건과 음의 관련성이 있다면 역시 사건이 발생할 확률과 음의 관련성이 있다. 즉, x의 회귀계수가 음수이다
예제 : 관상동맥 심장질환
관상동맥 심장질환에서 로지스틱 회귀분석을 적합시키면 다음과 같은 결과를 얻는다
- 추정된 회귀계수 베타1(=0.135)이 양수이다. 즉 나이와 log(Odds of CHD)는 양의 관계가 있다
- 그렇다면 회귀계수의 추정치 0.135는 어떻게 해석해야 할까?
- 먼저 나이가 한 살 차이나는 2개의 그룹을 생각해보자
1) 그룹1 : 나이= k years
2) 그룹2 : 나이= (k+1) years
- 이 경우에 해당하는 로지스틱 회귀모형은 다음과 같다
- 즉 베타1은 log(오즈비의 추정치)이다
- 이 예제에서는
- 만약 우리가 한 살 차이 나는 2개의 그룹을 비교한다면 한 살 많은 그룹이 젊은 그룹에 비해 심장질환을 가질 오즈비의 추정치가 1.14이다
예제 : 연령별 모유 수유 현황
- 임의표본추출로 3살 이하 네팔 유아 236명을 선정한 후 모유 수유 여부와 아이들의 나이를 달 단위로 기록하였다
- 모유 수유와 유아의 나이의 관계를 로지스틱 회귀분석을 이용해서 분석하자
- 여기서 p는 모유수유 비율이고 x1은 유아의 나이이다
- 베타1이 음수일거라 추정 가능 (나이들수록 모유 수유X)
- 기울기가 음수이므로 유아의 나이와 모유수유는 음의 관련성이 있는 것을 알 수 있다
- 구체적으로 한 달차이가 나는 2개의 유아그룹의 모유수유 오즈비는 0.78이다
- 즉 한 달 먼저 태어난 유아가 모유수유를 할 오즈는 어린 그룹에 비해 22% (1-0.78=0.22) 낮다
- 6개월 차이가 나는 두 그룹을 비교하자. 즉 24개월된 유아와 18개월된 유아를 비교할 때 모유수유의 오즈비 추정치는?
- 먼저 각 그룹의 오즈를 구해보자
- 차이를 계산하면
- 이제 유아의 성별과 모유수유 여부와의 관계에 대해서 알아보자
- 여기서 p는 모유수유 비율이고 x1은 유아의 성별(여자=1, 남자=0)이다
- 여기서 베타1=0.002이다. 즉 남자 유아와 여자 유아의 모유수유의 오즈비 추정치
- 따라서 남자 유아와 여자 유아의 모유수유의 오즈는 거의 같다
'stats' 카테고리의 다른 글
Micro- and Macro F1 scores (0) | 2020.10.07 |
---|---|
24. 로지스틱 회귀분석 II (0) | 2020.01.21 |
22. 2x2 분할표 II (0) | 2020.01.21 |
21. 2x2 분할표 I (0) | 2020.01.21 |
20. 다중회귀분석 II (0) | 2020.01.15 |