6. 확률분포

2019. 11. 16. 00:03stats

반응형

SNUON 통계학 

 

확률분포

1) 연속형 확률분포 - 정규분포

2) 이산형 확률분포 - 기하분포, 이항분포, 음이항분포, 포아송분포

6-1. 정규분포 Normal Distribution 

정규분포

- Unimodal, symmetric, bell-shaped

- 통계학에서 가장 많이 사용되는 분포

   ∵ 중심극한정리 : 표본평균은 정규분포를 따른다. 원래 데이터의 분포와 관계없이 데이터의 평균은 항상 정규분포를 따른다 

- 일반적으로 평균이 μ  이고 분산이 σ^2인 정규분포를 N( μ, σ^2) 로 표기한다. R에서는 N( μ, σ) 로 표기한다

 

(예제) 수능 수리영역 원점수는 평균이 50점이고 표준편차가 15인 정규분포를 따른다. 표준점수는 평균이 100이고 표준편차가 20인 정규분포를 따른다. A는 표준점수 120점, B는 원점수 60점을 받았다. 어느 학생이 더 우수한가?

 

표준화점수

- 점수체계가 다르므로 공정한 비교를 위해 각 점수의 분포를 표준정규분포 (평균이 0이고 표준편차가 1)로 변환한 후 표준정규분포에서의 위치로 비교한다

- 만약 확률변수 X가 N( μ, σ) 를 따른다면 Z = ( X - μ ) / σ 는 선형변환의 성질에 의해 평균이 0이고 표준편차가 1인 확률변수이다. 정규분포를 따르는 확률변수는 선형변환을 통해서도 여전히 정규분포를 따르므로 Z는 표준정규분포를 따른다.

 

A : (120 - 100) / 20 = 1

B : (60-50) / 15 = 0.67

 

따라서 학생 A가 더 우수한 성적을 받았다.

 

Percentile

- Percentile은 주어진 점 아래에 속하는 관측치의 비율이다

 

R 에서 percentile 계산하기 

> pnorm(1800, mean=1500, sd=300)

 

Quality Control과 6시그마

- 공정 이상 유무를 알아보기 위해 품질 관리(quality control)에서는 6시그마라는 개념을 사용한다

- 정규분포의 평균에서 6 표준편차 ( 6시그마) 이상으로 차이가 생겼다면 공정에 문제가 생겼음을 의미한다

 

(예제) X를 김치 제품 하나의 무게라고  하자. 평균은 10kg, 표준편차는 0.03

X ~ N( 10, 0.03^2)

표준화하면 Z = 9.95 - 10 / 0.03 = -1.67

> pnorm(9.95, mean=10, sd=0.03)

P(Z < -1.67) = 0.0475

 

Z = 10.05 - 10 / 0.03 = 1.67

P(Z > 1.67) = 0.0475

∴ P( 9.95 ≤ X ≤ 10.05 ) = 0.905

→ 무게가 9.95kg ~ 10.05kg 일 확률 90.5%

 

6시그마 = 0.03 * 6 = 0.18

따라서 10.18kg 이상 또는 9.82kg 이하인 경우 문제가 생겼음

 

Finding Cutoff Points

- 반대로 percentile을 주고 거기에 대응하는 자료 값을 찾는 경우

- 사람의 체온은 평균 36.8도이고 표준편차가 0.4도인 정규분포를 따른다. 체온의 하위 3%에 해당하는 값은?

- 표준정규분포에서 여기에 해당하는 값은 -1.88이다 ( 표준정규분포의 확률밀도함수에서 -1.88 이하 면적이 0.03)

- 역변환을 통해 계산하면 36.05도가 나온다 

- ( X - 36.8 ) / 0.4 = -1.88 → X = 36.048

> qnorm(p=0.03, mean=36.8, sd=0.4)

 

68-95-99.7 Rule

정규분포의 경우

- 약 68%의 자료가 평균으로부터 1 표준편차범위 안에 있다 ( μ - σ 에서 μ + σ 까지)

- 약 95%의 자료가 평균으로부터 2 표준편차범위 안에 있다 μ - 2σ 에서 μ + 2σ 까지)

- 약 99.7%의 자료가 평균으로부터 3 표준편차범위 안에 있다 μ - 3σ 에서 μ + 3σ 까지)

 

 

(예제) 수능 수리영역 원점수는 평균이 50점이고 표준편차가 15인 정규분포를 따른다

- 약 68%의 학생은 35점에서 65점 사이의 점수를 받는다

- 약 95%의 학생은 20점에서 80점 사이의 점수를 받는다

- 약 99.7%의 학생은 5점에서 95점 사이의 점수를 받는다

 

[ 연습문제 ]

1. Right skewed distribution에서 대부분의 Z score는 음수이다. 

- 중앙값이 평균보다 작은 경우 

- 평균보다 작은 값이 반 이상 

- Right skewed의 대표적인 예 : 소득 (압도적 고소득)

2. 정규분포에서 IQR은 2표준편차보다 작다.

- IQR = Q3 - Q1, 이 구간엔 50%의 데이터가 있음

- 2표준편차 구간인 μ - σ 에서 μ + σ 까지 68%의 데이터가 있음 

3. Z score를 이용하여 outlier를 탐지할 수 있다.

4. Left skewed distrivution에서 평균의 Z score는 0과 같다

 

Normal Probability Plot

- histogram과 normal probability plot ( R : qqplot ) 으로 정규분포를 따르는지 아닌지 확인할 수 있다

- Normal Probability Plot에서 y축은 data의 rank에 기초한 empirical percentile을 나타낸다. 즉 n개의 데이터에서 r번째 자료라면 r / (n+1) percentile을 의미한다

- x 축은 자료의 Z score를 바탕으로 계산한 정규분포 가정하에서의 percentile 값이다

- 만약 data가 정규분포를 따른다면 normal probability plot은 직선을 따른다 

 

Normal Probability Plot and Skewness

 

 

* Long tails = Right + Left skewed 

 

6-2. 기하분포 Geometric Distribution 

밀그램 실험 

- 권위에 대한 복종 실험 

- 학생이 과제 실패하면 볼트 올리면서 전기 충격 가하기

- 실험결과 65%의 피실험자가 최고 볼트까지 전압을 올림

 

베르누이 확률변수

- 밀그램 실험에서 개개인의 피실험자(T)는 시행(trial)로 간주할 수 있다

- 피실험자가 최고 볼트까지 전압을 올리지 않는 경우 성공(success), 올리는 경우 실패(failure)

- 이 경우 성공확률(probability of success)은 35%

- 이처럼 각각의 시행이 2가지 outcome을 가지는 경우 베르누이 확률변수 (Bernoulli Random Variable) 라 한다. 각각의 시행이 독립이고 동일한 성공확률을 가질 경우 (independent and identically distributed) 이러한 일련의 시행을 베르누이 독립시행이라 한다 (ex) 동전 던지기 

 

밀그램 실험의 재현. 피실험자 중 처음으로 볼트 전압을 최고로 올리는 걸 거부하는 사람이 나타나면 실험 중단.

1) 첫 번째 피실험자 이후 실험 중단할 확률? 0.35

2) 두 번째 피실험자 이후 실험 중단할 확률? 0.65 * 0.35 

 

기하분포

- 연속적으로 독립인 베르누이 독립시행에서 첫 번째 성공이 관측될 때까지 총 시행횟수를 나타내는 확률변수의 분포

- p를 성공확률이라 하고 x를 전체 시행횟수라고 하면 기하분포의 확률밀도함수는 

P(X=x) = p * (1-p)^(x-1)

(ex) x=5인 경우, 4번 연속 실패하고 5번째 성공 

- p를 성공확률이라 하고 y를 전체 실패횟수라고 하면 기하분포의 확률밀도함수는

P(Y=y) = p * (1-p)^y (단, y=0부터 가능)

 

기하분포의 평균과 분산

평균 E(X) = 1/ p

(ex) 성공확률 p=0.2인 경우 E(X)=5, 평균적으로 5번 정도 시행해야 성공한다!

분산 Var(X) = (1-p) / p^2

 

Shapes of Geometric Distributions

(예제) 밀그램 실험의 재현. 이 실험을 끝내려면 몇 명의 피실험자를 거쳐야 할까?

E(X) = 1 / 0.35 = 2.86 (명)

반응형

'stats' 카테고리의 다른 글

8. 통계적추론의 개요  (0) 2019.12.18
7. 다양한 이산분포  (0) 2019.12.18
5. 조건부 확률과 확률변수  (0) 2019.11.11
4. 확률이란?  (0) 2019.10.31
자료 유형에 따른 시각화 방법  (0) 2019.10.30