stats(32)
-
7. 다양한 이산분포
SNUON 통계학 7-1. 이항분포 밀그램 실험 4명의 피실험자 A,B,C,D 중 정확히 1명이 볼트를 최고전압으로 올리는 걸 거부할 확률은? A가 거부한 경우의 확률 + B가 거부한 경우의 확률 + C가 거부한 경우의 확률 + D가 거부한 경우의 확률 이항분포 - 이 경우 4가지 확률의 합이 질문의 답이다 - 이처럼 n개의 베르누이 시행에서 k개의 성공횟수를 나타내는 확률변수의 분포를 이항분포라고 한다 - 이항확률분포의 확률밀도함수는 * 이항계수 = nCk (조합) 이항분포의 평균 E(X) = np (시행횟수 * 확률) 이항분포의 분산 Var(X) = np(1-p) 예제 : 갤럽의 비만도 조사 국가주요지표 홈페이지에 의하면 2016년 한국인의 34.8%가 비만이다. 100명의 한국인을 임의로 뽑았을 때..
2019.12.18 -
6. 확률분포
SNUON 통계학 확률분포 1) 연속형 확률분포 - 정규분포 2) 이산형 확률분포 - 기하분포, 이항분포, 음이항분포, 포아송분포 6-1. 정규분포 Normal Distribution 정규분포 - Unimodal, symmetric, bell-shaped - 통계학에서 가장 많이 사용되는 분포 ∵ 중심극한정리 : 표본평균은 정규분포를 따른다. 원래 데이터의 분포와 관계없이 데이터의 평균은 항상 정규분포를 따른다 - 일반적으로 평균이 μ 이고 분산이 σ^2인 정규분포를 N( μ, σ^2) 로 표기한다. R에서는 N( μ, σ) 로 표기한다 (예제) 수능 수리영역 원점수는 평균이 50점이고 표준편차가 15인 정규분포를 따른다. 표준점수는 평균이 100이고 표준편차가 20인 정규분포를 따른다. A는 표준점수 ..
2019.11.16 -
5. 조건부 확률과 확률변수
SNUON 통계학 강의 5-1. 조건부확률 (베이즈 룰) 조건부 확률과 독립 P(A|B) = P(A)이면 사건 A와 B는 서로 독립이다. 서로 영향을 주지 않는다. 임신테스트 특정 임신테스트가 99% 정확하다. 이는 P(양성|임신)=0.99, P(음성|임신x)=0.99를 의미 임신 임신x 양성 99 99 음성 1 9801 하지만 내가 알고 싶은 것은 테스트기가 양성일 때 실제로 임신했을 확률, P(임신|양성)이다. P(임신|양성) = 99/198 = 0.5 유방암 검사 성인 여성의 1.7%가 유방암 환자 → P(암) = 0.017, P(~암) = 0.983 유방암 검사를 통해 유방암 환자 중 78%를 정확히 진단할 수 있다 → P(암&양성) = 0.017*0.78, P(암&음성) = 0.017*0.22 ..
2019.11.11 -
4. 확률이란?
SNUON 통계학 강의 4-1. 확률의 정의 1. 확률의 정의 Kolmogorov's Axioms "P(A) = 사건 A가 일어날 확률"이라고 하면 확률은 다음의 공리를 따른다 1) 확률은 0과 1 사이에 있다. 2) P(가능한 무엇인가는 일어난다) = 1 (*전체 집합이 1이라는 의미) 3) 만약 사건 A와 B가 동시에 관측될 수 없다면 P(A or B) = P(A) + P(B) 확률의 정의 1) Frequentist : P(A) = lim (n→∞) # times A happens / n - 동전 던지기와 같이 우리가 발생 가능한 사건(앞면/뒷면)을 모두 알고 있지만, 시행 후 어떤 사건이 발생할지 모르는 경우를 random process라고 한다. - 어떤 사건이 일어날 확률은 random proc..
2019.10.31 -
자료 유형에 따른 시각화 방법
학교 수업 내용 [시각화의 기본] - 가로축은 주어진 대상, 세로축은 분석하려는/예측하려는 대상 - 변수 하나당 하나의 차원 (변수 2개면 2차원) Univariate 1) 수치형(n) : stem, hist, boxplot ※ cluster의 유무 (cluster 있으면 더 이상 분석 불가) 2) 범주형(c) : bar plot(막대 그래프) Bivariate 1) n,n : scatter * scatter는 두 변수의 '관계'에 주목 2) n,c : boxplot, ANOVA 검정 3) c,n : logistic regression 4) c,c : bar plot, x^2 검정(독립성/동질성 검정) Multivariate 1) n,n,n,... : scatter plot matrix 2) c,c,c,..
2019.10.30 -
3. 자료의 유형과 사례연구
SNUON 통계학 강의 + 학교 수업내용 일부 3-1 수치형 자료 Numerical Data 1. Scatterplot(산점도) : 수치형 데이터 사이의 관계를 시각적으로 보여주는데 유용하다 2. Dot Plot : 하나의 수치형 데이터의 시각화에 효과적이다. 진한 색깔은 관측치가 보다 많은 부분을 나타낸다 3. Stacked Dot Plot : 색깔로 관측치의 개수를 표현하는 대신 관측치를 그 위치에 개수만큼 쌓아 놓는 방식으로 표현한다 4. Histogram : 자료의 밀도를 나타내는데 사용한다. binwidth에 따라 자료의 형태가 달라질수 있음에 유의 cf) Stacked Dot Plot과의 차이점 : 모든 데이터가 아니라, 구간을 정해서 그 구간의 데이터를 나타냄 5. Box Plot : Q1,..
2019.10.28