2019. 11. 11. 11:16ㆍstats
SNUON 통계학 강의
5-1. 조건부확률 (베이즈 룰)
조건부 확률과 독립
P(A|B) = P(A)이면 사건 A와 B는 서로 독립이다. 서로 영향을 주지 않는다.
임신테스트
특정 임신테스트가 99% 정확하다.
이는 P(양성|임신)=0.99, P(음성|임신x)=0.99를 의미
임신 | 임신x | |
양성 | 99 | 99 |
음성 | 1 | 9801 |
하지만 내가 알고 싶은 것은 테스트기가 양성일 때 실제로 임신했을 확률, P(임신|양성)이다.
P(임신|양성) = 99/198 = 0.5
유방암 검사
성인 여성의 1.7%가 유방암 환자 → P(암) = 0.017, P(~암) = 0.983
유방암 검사를 통해 유방암 환자 중 78%를 정확히 진단할 수 있다 → P(암&양성) = 0.017*0.78, P(암&음성) = 0.017*0.22
유방암 검사 결과 10%의 false positive (정상인데 유방암으로 오진하는 경우)가 발생한다 → P(~암&양성) = 0.983*0.1, P(~암&음성) = 0.983*0.9
Probability Tree
유방암 검사 결과가 양성일 때 실제로 환자가 유방암에 걸린 경우의 확률?
P(암|양성) = P(암&양성) / P(양성) = P(암&양성) / P(암&양성) + P(~암&양성) = 0.12
→ 암 환자의 수가 적기 때문에 조건부확률이 매우 작아짐
Bayes' Theorem
A1, ...An이 서로 disjoint이고 P(A1 ∪ ...∪ An) = 1 이면,
P(A1|B) = P(B|A1) * P(A1) / ∑P(B|Ai) * P(Ai)
※∑P(B|Ai) * P(Ai) = P(B)
연습문제: SIR model
신종플루 유행 중 60%의 인구가 susceptible(걸릴 위험이 있음), 10%는 infected(걸림), 30%는 recovered(회복)라고 하자.
신종플루 검사의 정확성은 다음과 같다.
susceptible : 95% (음성 판정비율)
infected : 99% (양성 판정 비율)
recovered : 65% (음성 판정 비율)
신종플루 검사의 결과가 양성일 때, 신종플루에 걸렸을 확률?
P(infected|양성) = P(infected&양성) / P(양성)
= P(infected&양성) / P(susceptible&양성) + P(infected&양성) + P(recovered&양성)
※ P(infected&양성) = 0.1 * 0.99
※ P(susceptible&양성) = 0.6 * 0.05
※ P(recovered&양성) = 0.4 * 0.35
The Birthday Problem
임의로 선정한 한 명의 학생 생일이 나의 생일과 같은 확률은?
121명 중 최소한 2명이 생일이 같은 확률은?
아무도 생일이 같지 않을 확률 = 1 * (1 - 1/365) * (1- 2/365) * ... * (1 - 120/365) = 거의 0
따라서 최소한 2명이 생일이 같을 확률은 1이다.
Sampling without Replacement
50명의 학생이 있는 수업에서 교수님이 질문하는데 한 번 질문을 한 학생은 더 이상 선정하지 않는다고 하자.
처음으로 A가 뽑힐 확률? 1/50
2번째로 B가 뽑힐 확률? 1/49
3번째로 C가 뽑힐 확률? 1/48
Sampling with Replacement
A가 뽑힌 후 또 다시 A가 뽑힐 확률? 1/50
5-2. 확률변수와 연속형 확률분포
확률변수 Random Variable
- 표본공간의 원소를 실수 공간에 할당하는 함수
- 주로 영문 대문자를 이용해 표시하고 확률변수가 취하는 값은 영문 소문자를 사용 (ex) P(X=x)
- 1) 이산형 확률변수 2) 연속형 확률변수
이산형 확률변수 : 정수 값만 가질 수 있는 경우 (ex) 일주일 동안 일어나는 교통사고의 횟수
연속형 확률변수 : 실수 값을 가지는 경우 (ex) 키, 몸무게
이산형 확률변수의 기대값 Expectation of Discrete Random Variable
이산형 확률변수 X가 x1, ... , xk의 값을 취할 때 X의 기대값은
μ = E(X) = ∑xi * P(X=xi)
이산형 확률변수의 분산 Variance of Discrete Random Variable
σ ^2 = Var(X) = ∑(xi - E(X))^2 * P(X=xi)
σ = SD() = √Var(X)
연습문제: 섭씨와 화씨 변환
섭씨를 화씨로 변환하는 공식 : 화씨온도 = 섭씨온도 * 9/5 + 32
서울의 3월 최고기온의 표준편차는 섭씨 4도이다. 화씨 기준으로 표준편차는 얼마?
| 4 * 9/5 | = 7.2
히스토그램에서 연속형 분포
히스토그램을 smooth curve로 바꿀 수 있다.
이러한 smooth curve를 probability density function(pdf, 확률밀도함수)라고 한다.
'stats' 카테고리의 다른 글
7. 다양한 이산분포 (0) | 2019.12.18 |
---|---|
6. 확률분포 (0) | 2019.11.16 |
4. 확률이란? (0) | 2019.10.31 |
자료 유형에 따른 시각화 방법 (0) | 2019.10.30 |
3. 자료의 유형과 사례연구 (0) | 2019.10.28 |