2. 자료 수집

2019. 10. 21. 18:28stats

반응형

SNUON 통계학 강의 

 

2.1. 자료 수집 개요 


[모집단(Population)과 표본(Sample)] 
연구질문: 대서양에 서식하는 황새치 몸에 있는 평균 납 함유량은?
Target population: 대서양에 서식하는 모든 황새치
Sample: 연구를 위해 잡힌 황새치
만약 sample이 randm하게 뽑혔다면 sample에서 채취한 평균 납 함유량에 대한 결과를 전체 모집단으로 확대할 수 있다.

[일회성 증거(Anecdotal evidence)]

일회성 증거는 모집단을 대표한다고 얘기하기 힘들다

ex) 우리 삼촌은 하루 담배를 두 갑씩 피우지만 건강에 전혀 문제가 없다

 

[Census]
Census : 표본을 선택하는 대신 전체 모집단에 대해 조사하는 경우

 

* 센서스의 문제점
- 센서스에 잡히지 않는 사람이 있으며, 실제로 이런 사람들은 특정 집단에 속하는 경우가 많다
- 모집단을 계속 변하고 있기 때문에 센서스 기간을 고려할 때 완벽하게 모집단의 모든 사람을 조사하는 것을 불가능하다
- 센서스가 샘플링보다 복잡할 수 있다 

[Sampling Bias] 
- Non-response : random하게 뽑힌 사람 중 일부만 대답한다면 전체 모집단을 대표한다고 할 수 없다
- Voluntary response : 샘플이 원하는 사람만 답변을 한 경우 전체를 대표한다고 하기 힘들다 

[Explanatory and Response Variables]
한 쌍의 변수가 주어진 경우 한 변수가 다른 변수에 영향을 주는 경우, 전자를 설명변수, 후자를 반응변수라고 한다 
두 변수 사이의 연관성을 보이는 것이 반드시 인과성을 보이는 것은 아니다

[Types of Data Collection]
1) 관측 연구Observational study : 연구자가 자료를 관측하면서 수집하는 경우로 자료의 생성과정에 전혀 관여하지 않는다. 이 경우 설명변수와 반응변수의 연관성(association)을 밝히는 데 초점을 둔다
2) 실험 연구Experiment : 연구자가 실험참가자를 임의로 다양한 조건하에 배치하여 설명변수와 반응변수 사이의 인과성(causality)을 조사한다

 

 

2.2. 관측 연구  

 

한 시리얼 회사의 연구 결과 발표: 아침 먹는 사람들이 날씬하다! 

- 연구의 유형 :  여학생들의 아침식사 습관을 단지 관찰만 하였으므로 관찰연구 
- 연구의 결론: 아침식사를 하는 여학생과 날씬한 것과 연관성이 있다
- 연구를 지원한 당사자: 시리얼 회사 

[3가지 가능한 설명] 
- 아침식사를 했기 때문에 날씬해졌다
- 날씬한 사람이 아침에 허기가 심해서 아침식사를 한다 (날씬하기 때문에 아침식사를 한다)
- 두 가지에 영향을 미치는 제3의 변수가 있다. 이렇게 설명변수와 반응변수 모두에 영향을 미치는 변수를 cofounding variable이라고 한다.  ex) 운동을 하는 사람이 날씬하고, 운동을 하기 때문에 아침을 먹는다 

[Prospective vs Retrospective]
1. 전향적 연구Prospective study : 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻는다.

ex) 호흡기 질환 혹은 암에 관한 연구를 위해서 117,000명의 간호사를 대상으로 비만 정도를 기준으로 위험군과 일반군으로 나눈 후 두 그룹간의 질병 발병 정도를 비교한다
* 대상자를 모집하는 당시에는 사람들이 호흡기 질환/암에 걸려 있지 않음 


2. 후향적 연구Retrospective study : 이미 일어난 일에 대한 정보를 얻는 연구를 말한다.

ex) 폐암 환자들을 대상으로 과거 흡연 여부를 알아본다

→ 이러한 모든 연구에는 모집단의 대표성을 위한 Random Sampling이 가정된다

 

[Random Sampling의 유형]

1. Simple Random Sampling

2. Stratified Random Sampling 

3. Cluster Random Sampling

4. Multistage Random Sampling

 

1. Simple Random Sampling 임의 추출 
: 모집단에서 임의로 추출한다

2. Stratified Random Sampling 층화추출
: 비슷한 관측치로 이루어진 strata를 만들고 각 strata에서 임의로 sample을 추출한다
ex) 프로야구선수의 연봉을 구단별로 선수를 임의로 조사하는 경우, 각 구단 마다 대표 선수를 뽑아 조사
 
3. Cluster Random Sampling 군집표본
: cluster는 strata와 달리 비슷한 관측치로 구성된 것은 아니다. cluster를 simple random sample로 뽑고 cluster안의 모든 관측치를 sample로 뽑는다 

4. Multistage Random Sampling
: cluster sample과 비슷하지만 차이점은 cluster 안에서 다시 관측치를 simple random sample을 이용해서 뽑는다.

ex) 미 갤럽에서 전화번호 지역번호(cluster)을 임의로 선정하고 그 지역번호를 가진 사람을 다시 임의로 선출한다 

 

2.3. 실험 연구

 

[효율적인 실험을 위한 원칙] 
1) Controlling : 관심이 있는 treatment를 받은 그룹(treatment group)과 control group과 비교한다. 의학 실험에서 control group은 placebo를 받는다
2) Randomization : control group과 treatment group에 참가자를 임의로 할당한다
3) Replication : 충분히 큰 표본을 사용할 경우 설명변수가 반응변수에 미치는 영향에 대한 추정결과를 반복적으로 관찰할 수 있다
4) Double-blind : 참가자와 연구자 모두 참가자가 속한 group이 어느 group인지 연구가 끝날 때까지 알려주지 않는다
5) Blocking : 만약 반응변수에 영향을 미치는 다른 변수가 있을 경우 참가자를 그 변수 값에 따라 block을 나눈 후 block별로 참가자를 임의로 treatment group에 할당한다

ex)  남여 사이에 약의 반응이 다른 경우, 남자 그룹/여자 그룹으로 나눈다. 남자 그룹 안에서 랜덤하게 control/treatment group을 배정하고, 여자 그룹 안에서도 랜덤하게 control/treatment group을 배정한다. 그러면 control group과 treatment group에 남성과 여성이 공평하게 할당된다. 따라서 성별에 따른 차이가 결론에 영향을 미치지 않게 된다.
* block 안의 참가자는 homogenus, 그 안에서 control/treatment group을 나눈다


Random Assignment vs Random Sampling 
* Random Assignment 무작위 할당 : 랜덤하게 treatment group과 control group을 나눔 

 

반응형

'stats' 카테고리의 다른 글

5. 조건부 확률과 확률변수  (0) 2019.11.11
4. 확률이란?  (0) 2019.10.31
자료 유형에 따른 시각화 방법  (0) 2019.10.30
3. 자료의 유형과 사례연구  (0) 2019.10.28
1. 통계학이란?  (0) 2019.10.20