3. 자료의 유형과 사례연구

2019. 10. 28. 20:06stats

반응형

SNUON 통계학 강의 + 학교 수업내용 일부

 

3-1 수치형 자료 Numerical Data  

 

1. Scatterplot(산점도) : 수치형 데이터 사이의 관계를 시각적으로 보여주는데 유용하다 

 

2. Dot Plot :  하나의 수치형 데이터의 시각화에 효과적이다. 진한 색깔은 관측치가 보다 많은 부분을 나타낸다

 

3. Stacked Dot Plot : 색깔로 관측치의 개수를 표현하는 대신 관측치를 그 위치에 개수만큼 쌓아 놓는 방식으로 표현한다

 

4. Histogram : 자료의 밀도를 나타내는데 사용한다. binwidth에 따라 자료의 형태가 달라질수 있음에 유의 

cf) Stacked Dot Plot과의 차이점 : 모든 데이터가 아니라, 구간을 정해서 그 구간의 데이터를 나타냄

 

5. Box Plot : Q1, Q3, median 등의 정보를 효율적으로 표현 

- Whiskers : quartile로부터 1.5 * IQR 만큼 떨어진 곳 혹은 최대/최소값을 나타낸다 

- Max upper whisker reach = Q3 + 1.5 * IQR

- Max lower whisker reach = Q1 - 1.5 * IQR

- 일반적으로 Maximum whisker reach 밖에 있는 점들을 outlier라 한다 

*  중앙값 선이 상자의 가운데 있으면 대칭일 가능성이 높음 

 

[평균]

(1) Sample mean(표본평균) : 표본의 산술평균이다.

(2) Population mean(모평균) : 모집단 전체의 산술평균이다. 일반적으로  μ 로  표시 

 

[분포에 대한 설명]

(1) center

- 분포의 가운데가 어디냐 

- 주로 평균, 중앙값 사용 

 

* 중앙값 : 자료의 정중앙을 나타내는 값, 50% percentile (Q2)

 

(2) shape 

- 분포가 어떤 형태냐

- modality, skewness, outlier의 유무를 사용

 

(2-1) modality 

- 분포에서 peak가 몇 개 있느냐

- unimodal(peak가 1개), bimodal(peak가 2개), multimodal(peak가 여러 개), uniform(평평한 분포)

 

(2-2) skewness 

- right skewed(오른쪽으로 꼬리가 긴 분포), left skewed(왼쪽으로 꼬리가 긴 분포), symmetric(대칭적 분포)

 

(2-3) outlier의 유무

 

(3) spread

- 분포가 퍼져있는 정도

- 분산, IQR을 사용 

 

(3-1) 분산

- 평균에서 떨어진 거리의 제곱의 (거의) 평균 

- '거의'인 이유는 편차 제곱의 합을 n이 아니라, (n-1)로 나누기 때문 

 

* (n-1)로 나누는 이유?

- 평균 때문에 하나의 정보를 잃었다고 보기 때문 

- 하나의 데이터는 가운데를 나타내기 위해 쓰임. 그 가운데에서 각 데이터가 얼마나 떨어져있는지 계산. 그러면 사실상 (n-1)개의 데이터만 있는 셈 

 

* 제곱하는 이유?

- 음수 없애기 위해 제곱

- 절댓값 이용할 수 있지만, 절댓값은 미분 불가능해서 불편 

 

cf) 표준편차 = 분산의 제곱근 (원래의 측정 단위로 사용 가능해서 좋음) 

 

(3-2) IQR 

Q1 = 25%

Q2 = 50%, median

Q3 = 75%

IQR(Interquartile range) = Q3 - Q1 

 

[다섯수치 요약]

최소, Q1, 중앙값, Q3, 최대 + 평균

- 중앙값과 평균이 같으면 대칭일 가능성이 높음 
- 중앙값과 평균이 중앙값과 Q1/Q3보다 가까이 있으면 가깝다고 볼 수 있다   
- Q1과 Q3가 중앙값을 중심으로 비슷한 거리로 떨어져 있으면 대칭일 가능성이 높다
- 중앙값과 Q1의 거리보다 중앙값과 Q3의 거리가 멀면 오른쪽 꼬리가 긴 데이터이다  
※ 단, cluster가 하나여야 함 

 

[Robust Statistics]

- median과 IQR은 outlier와 skewness에 대해 보다 robust하다

- 따라서 outlier가 있거나 skewness가 심각한 경우 median과 IQR이 분포의 center와 spread를 나타내는 measure로 적합하다

- 그렇지 않은 경우 평균과 분산을 분포의 center와 spread를 나타내는 measure로 사용한다

 

- 평균과 분산(표준편차)는 매우 fragile한 수치, 하나의 데이터만 달라져도 크게 달라짐

- 중앙값과 IQR은 매우 robust한 수치, 이 수치를 바꾸려면 매우 많은 데이터를 바꿔야 함

 

 

[평균과 중앙값]

- 분포가 symmetric(대칭적)일 경우 평균과 중앙값은 거의 비슷하다

- 분포가 skewed된 경우

1) right skewed : mean > median

2) left skewed : mean < median 

 

[Extremely Skewed Data]

- 분포가 많이 편향되어 있는 경우 변환을 통해 자료를 분석하는 것이 유용한 경우가 종종 있다

- 흔히 사용하는 변환은 로그 변환이다.

 

[Transformation]

- 로그 변환 후 outlier들이 상대적으로 작아지기 때문에 분석이 쉬워진다는 장점이 있다

- 하지만 분석 결과는 로그스케일에 대한 결과이므로 해석에 주의해야 한다

 

 

3-2 범주형 자료  Categorical Data 

 

1. 분할표 (Contingency Table) : 두 범주형 변수의 관계를 정리하는 표 

 

2. Bar Plot : 하나의 범주형 자료를 표현 

cf) 횟수 대신 상대비율을 나타내면 relative frequency bar plot

 

3. Segmented Bar and Mosaic Plot

- Mosaic Plot : 넓이로 데이터 크기, 높이로 데이터 비율 

 

4. Side by Side Boxplot 

 

3-3 사례 연구

 

같은 문서, 다른 이름 (여성 이름 vs 남성 이름)

승진에 성차별이 있는가?

  승진 O 승진 X 합계
남성 21 3 24
여성 14 10 24
합계 35 13  

이 차이가 실제로 성차별인지, 단순히 실험참가자의 숫자가 작아서 우연히 높게 나타난 것인지 알아봐야 한다.

 

[2개의 상반된 주장]

1) 귀무가설 : 승진과 성별은 관련이 없다

2) 대립가설 : 승진에 성차별이 있었다 

 

우리가 증명하고자 하는 것은 대립가설 

귀무가설이 참이라는 가정하에 주어진 데이터를 관측할 확률이 얼마나 작은지 여부에 따라 대립가설을 증명했는지 여부를 판별한다.

하지만 주어진 데이터로 귀무가설을 증명하는 것은 아니다.

대립가설이 맞냐/아니냐에 대한 판단만 내릴 뿐, 귀무가설이 참이라는 결론은 내릴 수 없다.

 

[법정 VS 통계적 가설검정]

- 법정은 통계적 가설검정과 매우 흡사핟

- 무죄 추정의 원칙 (귀무가설)

- 검사는 여러 가지 증거를 통해서 피고가 무죄라면 이러한 증거를 확보하기 힘들 것이라는 점을 강조하며 피고가 유죄라는 판결을 도출하려 함.

- 법정에서는 무죄를 증명하지 않는다. 판결은 피고가 유죄(guilty)이거나 유죄라고 할 만큼 충분한 증거가 없다(not guilty)는 것이다. 판결이 'innocent'가 아닌 'not guilty'임에 주목하자

- 통계적 가설 검정에서는 귀무가설을 받아들이지 않는다. 대립가설이 참이거나 대립가설을 참이라고 할 만한 충분한 증거가 없다는 것이 결론이다.

 

이 사례에서 가능한 결론은 성차별이 있다 / 성차별이 있다는 충분한 증거가 없다

성차별이 없다는 결론은 내릴 수 없다

 

[Simulating the Experiment]

- 컴퓨터를 이용한 모의실험

- 만약 남녀별 승진 차이가 없고 단지 sample size가 작아서 이러한 자료가 관측되는 것이라면 randomization을 다시 여러 번 시행하여 이러한 일이 얼마나 자주 일어나는지 알아볼 수 있다.

반응형

'stats' 카테고리의 다른 글

5. 조건부 확률과 확률변수  (0) 2019.11.11
4. 확률이란?  (0) 2019.10.31
자료 유형에 따른 시각화 방법  (0) 2019.10.30
2. 자료 수집  (0) 2019.10.21
1. 통계학이란?  (0) 2019.10.20