5. 조건부 확률과 확률변수

2019. 11. 11. 11:16stats

반응형

SNUON 통계학 강의

5-1. 조건부확률 (베이즈 룰)

 

조건부 확률과 독립

P(A|B) = P(A)이면 사건 A와 B는 서로 독립이다. 서로 영향을 주지 않는다. 

 

임신테스트

특정 임신테스트가 99% 정확하다.

이는 P(양성|임신)=0.99, P(음성|임신x)=0.99를 의미 

  임신 임신x
양성 99 99
음성 1 9801

하지만 내가 알고 싶은 것은 테스트기가 양성일 때 실제로 임신했을 확률, P(임신|양성)이다.

P(임신|양성) =  99/198 = 0.5

 

유방암 검사

성인 여성의 1.7%가 유방암 환자 → P(암) = 0.017, P(~암) = 0.983

유방암 검사를 통해 유방암 환자 중 78%를 정확히 진단할 수 있다 → P(암&양성) = 0.017*0.78, P(암&음성) = 0.017*0.22

유방암 검사 결과 10%의 false positive (정상인데 유방암으로 오진하는 경우)가 발생한다 → P(~암&양성) = 0.983*0.1, P(~암&음성) = 0.983*0.9

 

Probability Tree

유방암 검사 결과가 양성일 때 실제로 환자가 유방암에 걸린 경우의 확률?

P(암|양성) = P(암&양성) / P(양성) = P(암&양성) / P(암&양성) + P(~암&양성) = 0.12

 

→ 암 환자의 수가 적기 때문에 조건부확률이 매우 작아짐 

 

Bayes' Theorem

A1, ...An이 서로 disjoint이고 P(A1 ∪ ... An) = 1 이면,

P(A1|B) = P(B|A1) * P(A1) / ∑P(B|Ai) * P(Ai) 

※∑P(B|Ai) * P(Ai)  = P(B)

 

연습문제: SIR model

신종플루 유행 중 60%의 인구가 susceptible(걸릴 위험이 있음), 10%는 infected(걸림), 30%는 recovered(회복)라고 하자.

신종플루 검사의 정확성은 다음과 같다.

susceptible : 95% (음성 판정비율)

infected : 99% (양성 판정 비율)

recovered : 65% (음성 판정 비율)

신종플루 검사의 결과가 양성일 때, 신종플루에 걸렸을 확률? 

 

P(infected|양성) = P(infected&양성) / P(양성)

= P(infected&양성) / P(susceptible&양성) + P(infected&양성) + P(recovered&양성)

※ P(infected&양성) = 0.1 * 0.99 

※ P(susceptible&양성) = 0.6 * 0.05

※ P(recovered&양성) = 0.4 * 0.35 

 

The Birthday Problem

임의로 선정한 한 명의 학생 생일이 나의 생일과 같은 확률은?

121명 중 최소한 2명이 생일이 같은 확률은? 

 

아무도 생일이 같지 않을 확률 = 1 * (1 - 1/365) * (1- 2/365) * ... * (1 - 120/365) = 거의 0

따라서 최소한 2명이 생일이 같을 확률은 1이다.

 

Sampling without Replacement

50명의 학생이 있는 수업에서 교수님이 질문하는데 한 번 질문을 한 학생은 더 이상 선정하지 않는다고 하자.

처음으로 A가 뽑힐 확률? 1/50

2번째로 B가 뽑힐 확률? 1/49

3번째로 C가 뽑힐 확률? 1/48

 

Sampling with Replacement

A가 뽑힌 후 또 다시 A가 뽑힐 확률? 1/50

 

5-2. 확률변수와 연속형 확률분포 

 

확률변수 Random Variable

- 표본공간의 원소를 실수 공간에 할당하는 함수 

- 주로 영문 대문자를 이용해 표시하고 확률변수가 취하는 값은 영문 소문자를 사용  (ex) P(X=x)

- 1) 이산형 확률변수 2) 연속형 확률변수 

 

이산형 확률변수 : 정수 값만 가질 수 있는 경우 (ex) 일주일 동안 일어나는 교통사고의 횟수

연속형 확률변수 : 실수 값을 가지는 경우 (ex) 키, 몸무게 

 

이산형 확률변수의 기대값 Expectation of Discrete Random Variable

이산형 확률변수 X가 x1, ... , xk의 값을 취할 때 X의 기대값은 

μ = E(X) = ∑xi * P(X=xi)

 

이산형 확률변수의 분산 Variance of Discrete Random Variable

σ ^2 = Var(X) = ∑(xi - E(X))^2 * P(X=xi) 

σ = SD() = √Var(X)

 

연습문제: 섭씨와 화씨 변환

섭씨를 화씨로 변환하는 공식 : 화씨온도 = 섭씨온도 * 9/5 + 32

서울의 3월 최고기온의 표준편차는 섭씨 4도이다. 화씨 기준으로 표준편차는 얼마?

| 4 * 9/5 | = 7.2 

 

히스토그램에서 연속형 분포 

히스토그램을 smooth curve로 바꿀 수 있다.

이러한 smooth curve를 probability density function(pdf, 확률밀도함수)라고 한다.

반응형

'stats' 카테고리의 다른 글

7. 다양한 이산분포  (0) 2019.12.18
6. 확률분포  (0) 2019.11.16
4. 확률이란?  (0) 2019.10.31
자료 유형에 따른 시각화 방법  (0) 2019.10.30
3. 자료의 유형과 사례연구  (0) 2019.10.28