2. 자료 수집

2. 자료 수집

2019. 10. 21. 18:28ㆍstats

SNUON 통계학 강의

2.1. 자료 수집 개요

[모집단(Population)과 표본(Sample)]
연구질문: 대서양에 서식하는 황새치 몸에 있는 평균 납 함유량은?
Target population: 대서양에 서식하는 모든 황새치
Sample: 연구를 위해 잡힌 황새치
→ 만약 sample이 randm하게 뽑혔다면 sample에서 채취한 평균 납 함유량에 대한 결과를 전체 모집단으로 확대할 수 있다.

[일회성 증거(Anecdotal evidence)]

일회성 증거는 모집단을 대표한다고 얘기하기 힘들다

ex) 우리 삼촌은 하루 담배를 두 갑씩 피우지만 건강에 전혀 문제가 없다

[Census]
Census : 표본을 선택하는 대신 전체 모집단에 대해 조사하는 경우

* 센서스의 문제점
- 센서스에 잡히지 않는 사람이 있으며, 실제로 이런 사람들은 특정 집단에 속하는 경우가 많다
- 모집단을 계속 변하고 있기 때문에 센서스 기간을 고려할 때 완벽하게 모집단의 모든 사람을 조사하는 것을 불가능하다
- 센서스가 샘플링보다 복잡할 수 있다

[Sampling Bias]
- Non-response : random하게 뽑힌 사람 중 일부만 대답한다면 전체 모집단을 대표한다고 할 수 없다
- Voluntary response : 샘플이 원하는 사람만 답변을 한 경우 전체를 대표한다고 하기 힘들다

[Explanatory and Response Variables]
한 쌍의 변수가 주어진 경우 한 변수가 다른 변수에 영향을 주는 경우, 전자를 설명변수, 후자를 반응변수라고 한다
두 변수 사이의 연관성을 보이는 것이 반드시 인과성을 보이는 것은 아니다

[Types of Data Collection]
1) 관측 연구Observational study : 연구자가 자료를 관측하면서 수집하는 경우로 자료의 생성과정에 전혀 관여하지 않는다. 이 경우 설명변수와 반응변수의 연관성(association)을 밝히는 데 초점을 둔다
2) 실험 연구Experiment : 연구자가 실험참가자를 임의로 다양한 조건하에 배치하여 설명변수와 반응변수 사이의 인과성(causality)을 조사한다

2.2. 관측 연구

한 시리얼 회사의 연구 결과 발표: 아침 먹는 사람들이 날씬하다!

- 연구의 유형 : 여학생들의 아침식사 습관을 단지 관찰만 하였으므로 관찰연구
- 연구의 결론: 아침식사를 하는 여학생과 날씬한 것과 연관성이 있다
- 연구를 지원한 당사자: 시리얼 회사

[3가지 가능한 설명]
- 아침식사를 했기 때문에 날씬해졌다
- 날씬한 사람이 아침에 허기가 심해서 아침식사를 한다 (날씬하기 때문에 아침식사를 한다)
- 두 가지에 영향을 미치는 제3의 변수가 있다. 이렇게 설명변수와 반응변수 모두에 영향을 미치는 변수를 cofounding variable이라고 한다. ex) 운동을 하는 사람이 날씬하고, 운동을 하기 때문에 아침을 먹는다

[Prospective vs Retrospective]
1. 전향적 연구Prospective study : 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻는다.

ex) 호흡기 질환 혹은 암에 관한 연구를 위해서 117,000명의 간호사를 대상으로 비만 정도를 기준으로 위험군과 일반군으로 나눈 후 두 그룹간의 질병 발병 정도를 비교한다
* 대상자를 모집하는 당시에는 사람들이 호흡기 질환/암에 걸려 있지 않음

2. 후향적 연구Retrospective study : 이미 일어난 일에 대한 정보를 얻는 연구를 말한다.

ex) 폐암 환자들을 대상으로 과거 흡연 여부를 알아본다

→ 이러한 모든 연구에는 모집단의 대표성을 위한 Random Sampling이 가정된다

[Random Sampling의 유형]

1. Simple Random Sampling

2. Stratified Random Sampling

3. Cluster Random Sampling

4. Multistage Random Sampling

1. Simple Random Sampling 임의 추출
: 모집단에서 임의로 추출한다

2. Stratified Random Sampling 층화추출
: 비슷한 관측치로 이루어진 strata를 만들고 각 strata에서 임의로 sample을 추출한다
ex) 프로야구선수의 연봉을 구단별로 선수를 임의로 조사하는 경우, 각 구단 마다 대표 선수를 뽑아 조사

3. Cluster Random Sampling 군집표본
: cluster는 strata와 달리 비슷한 관측치로 구성된 것은 아니다. cluster를 simple random sample로 뽑고 cluster안의 모든 관측치를 sample로 뽑는다

4. Multistage Random Sampling
: cluster sample과 비슷하지만 차이점은 cluster 안에서 다시 관측치를 simple random sample을 이용해서 뽑는다.

ex) 미 갤럽에서 전화번호 지역번호(cluster)을 임의로 선정하고 그 지역번호를 가진 사람을 다시 임의로 선출한다

2.3. 실험 연구

[효율적인 실험을 위한 원칙]
1) Controlling : 관심이 있는 treatment를 받은 그룹(treatment group)과 control group과 비교한다. 의학 실험에서 control group은 placebo를 받는다
2) Randomization : control group과 treatment group에 참가자를 임의로 할당한다
3) Replication : 충분히 큰 표본을 사용할 경우 설명변수가 반응변수에 미치는 영향에 대한 추정결과를 반복적으로 관찰할 수 있다
4) Double-blind : 참가자와 연구자 모두 참가자가 속한 group이 어느 group인지 연구가 끝날 때까지 알려주지 않는다
5) Blocking : 만약 반응변수에 영향을 미치는 다른 변수가 있을 경우 참가자를 그 변수 값에 따라 block을 나눈 후 block별로 참가자를 임의로 treatment group에 할당한다

ex) 남여 사이에 약의 반응이 다른 경우, 남자 그룹/여자 그룹으로 나눈다. 남자 그룹 안에서 랜덤하게 control/treatment group을 배정하고, 여자 그룹 안에서도 랜덤하게 control/treatment group을 배정한다. 그러면 control group과 treatment group에 남성과 여성이 공평하게 할당된다. 따라서 성별에 따른 차이가 결론에 영향을 미치지 않게 된다.
* block 안의 참가자는 homogenus, 그 안에서 control/treatment group을 나눈다

Random Assignment vs Random Sampling
* Random Assignment 무작위 할당 : 랜덤하게 treatment group과 control group을 나눔

저작자표시 비영리 변경금지 (새창열림)

'stats' 카테고리의 다른 글

5. 조건부 확률과 확률변수 (0)	2019.11.11
4. 확률이란? (0)	2019.10.31
자료 유형에 따른 시각화 방법 (0)	2019.10.30
3. 자료의 유형과 사례연구 (0)	2019.10.28
1. 통계학이란? (0)	2019.10.20

codlingual

codlingual

태그

최근글

댓글

공지사항

아카이브

2.1. 자료 수집 개요

2.2. 관측 연구

2.3. 실험 연구

'stats' 카테고리의 다른 글

관련글

티스토리툴바