넷플릭스/네이버 시놉시스 품사 분석하기
넷플릭스와 네이버에서 203개 드라마, 932개 영화에 대한 시놉시스를 크롤링했다. 이제 각 시놉시스에 특정 품사가 얼마나 많이 쓰였는지 알아보려고 한다. PCA 분석도 하려면 다음과 같은 형식의 데이터를 만들어야 한다. 미디어 명사 동사 ... 영화 제목1 네이버 XXX ZZZ ... 영화 제목2 넷플릭스 YYY III ... 우선 크롤링한 데이터에서 시놉시스에 해당되는 칼럼만 불러온다. 모든 시놉시스의 품사를 분석하기 전에 하나의 시놉시스만 분석해본다. from konlpy.tag import Kkma kkma = Kkma() kkma.pos(df['desc'][0]) [('전도', 'NNG'), ('유망', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('의과', 'NNG'), ..
2019.11.04