표준화(2)
-
6. 확률분포
SNUON 통계학 확률분포 1) 연속형 확률분포 - 정규분포 2) 이산형 확률분포 - 기하분포, 이항분포, 음이항분포, 포아송분포 6-1. 정규분포 Normal Distribution 정규분포 - Unimodal, symmetric, bell-shaped - 통계학에서 가장 많이 사용되는 분포 ∵ 중심극한정리 : 표본평균은 정규분포를 따른다. 원래 데이터의 분포와 관계없이 데이터의 평균은 항상 정규분포를 따른다 - 일반적으로 평균이 μ 이고 분산이 σ^2인 정규분포를 N( μ, σ^2) 로 표기한다. R에서는 N( μ, σ) 로 표기한다 (예제) 수능 수리영역 원점수는 평균이 50점이고 표준편차가 15인 정규분포를 따른다. 표준점수는 평균이 100이고 표준편차가 20인 정규분포를 따른다. A는 표준점수 ..
2019.11.16 -
넷플릭스/네이버 시놉시스 품사 분석하기
넷플릭스와 네이버에서 203개 드라마, 932개 영화에 대한 시놉시스를 크롤링했다. 이제 각 시놉시스에 특정 품사가 얼마나 많이 쓰였는지 알아보려고 한다. PCA 분석도 하려면 다음과 같은 형식의 데이터를 만들어야 한다. 미디어 명사 동사 ... 영화 제목1 네이버 XXX ZZZ ... 영화 제목2 넷플릭스 YYY III ... 우선 크롤링한 데이터에서 시놉시스에 해당되는 칼럼만 불러온다. 모든 시놉시스의 품사를 분석하기 전에 하나의 시놉시스만 분석해본다. from konlpy.tag import Kkma kkma = Kkma() kkma.pos(df['desc'][0]) [('전도', 'NNG'), ('유망', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('의과', 'NNG'), ..
2019.11.04