nlp(62)
-
넷플릭스/네이버 시놉시스 어휘 단계 분석하기
같은 영화/드라마에 대한 넷플릭스와 네이버의 시놉시스를 크롤링해 이들의 문체 차이를 분석하려 한다. 이번엔 사용한 어휘의 단계를 비교해볼 것이다. 어휘 단계는 국립국어원이 제공한 '한국어 학습용 어휘 목록' 파일을 참조했다. https://www.korean.go.kr/front/etcData/etcDataView.do?mn_id=46&etc_seq=71 국립국어원 축소 확대 기타 자료 상세보기 한국어 학습용 어휘 목록(엑셀 파일) 담당부서 한국어진흥과 등록일 2003. 6. 4. 조회수 52218 한국어 학습용 어휘 목록 국립국어연구원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록입니다. 1단계 982개, 2단계 2,111개, 3단계 2,872개, 총 5,965개 단어가 포함되어 있습니다. 전체..
2019.11.11 -
넷플릭스/네이버 시놉시스 품사 분석하기
넷플릭스와 네이버에서 203개 드라마, 932개 영화에 대한 시놉시스를 크롤링했다. 이제 각 시놉시스에 특정 품사가 얼마나 많이 쓰였는지 알아보려고 한다. PCA 분석도 하려면 다음과 같은 형식의 데이터를 만들어야 한다. 미디어 명사 동사 ... 영화 제목1 네이버 XXX ZZZ ... 영화 제목2 넷플릭스 YYY III ... 우선 크롤링한 데이터에서 시놉시스에 해당되는 칼럼만 불러온다. 모든 시놉시스의 품사를 분석하기 전에 하나의 시놉시스만 분석해본다. from konlpy.tag import Kkma kkma = Kkma() kkma.pos(df['desc'][0]) [('전도', 'NNG'), ('유망', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('의과', 'NNG'), ..
2019.11.04 -
네이버 영화/드라마 시놉시스 크롤링
4416개 넷플릭스 시놉시스를 크롤링했다. 이제 이 영화/드라마의 네이버에서의 시놉시스를 크롤링하면 된다. 네이버 영화 API가 있어서 이걸로 수집하면 된다는데 모르겠다.. 그래서 그냥 하던대로 했다. 우선 네이버에 드라마/영화 제목을 검색하면 (당연히) 시놉시스가 다른 태그에 들어있어서 둘을 나눠서 수집해야 한다. 드라마는 검색한 페이지에 바로 전체 시놉시스가 뜬다. 검색 페이지에선 ... 가 있어서 전체 시놉시스가 안 보이는 듯하지만, 페이지 소스에는 전체 시놉시스가 들어있다! 전체 시놉시스가 들어있는 태그의 id는 "layer_sy" 근데 영화는 아님. 영화는 페이지 소스를 열어봐도 ... 밖에 없다. 전체 시놉시스는 더보기에 연결된 링크로 가야 확인할 수 있다. 더보기 링크가 있는 태그의 clas..
2019.10.08 -
'맴찢'의 품사는 무엇일까?
'맴찢' = '마음이 찢어진다' '답정너' = '답은 정해져 있고 너는 대답만 하면 돼.' '존맛' = '존나 맛있다' 왼쪽의 신조어는 오른쪽 설명의 줄임말이다. 대부분의 줄임말은 줄이기 전의 말고 품사가 똑같다. 그래서 대체 가능하다. "오늘 파바 갔다 왔어!" 를 "오늘 파리바게트 갔다 왔어!"라고 말해도 된다. 근데 '맴찢', '답정너', '존맛' 같은 신조어는 대체가능하지 않은 경우가 꽤 있다. "완전 맴찢이다.."는 "완전 마음이 찢어진다이다.."로 말할 수 없고 "내가 좀 답정너인가?"는 "내가 좀 답은 정해져 있고 너는 대답만 하면 돼.인가?"로 말할 수 없고 "이거 존맛이다!"는 "이거 존나 맛있다이다!"라고 말할 수 없다. 이렇게 줄이기 전의 말이 명사가 아닌 경우는 줄임말이 되면 명사로..
2019.10.05 -
하이킥 대본 후다닥 분석
맨스플레인(mansplain)은 남자(man)와 설명하다(explain)를 결합한 단어로, 대체로 남자가 여자에게 의기양양하게 설명하는 것을 말한다 (from Wiki ^^) 내가 지금까지 겪어본 맨스플레인들은 1) 뭐냐면 2) - 거든 을 엄청나게! 많이 사용했다. '뭐냐면~' 하면서 자신이 아는 걸 설명하고, '-거든'이라는 어미로 그 내용을 자신만 알고 있음을 전제한다. 사전을 찾아보면 -'거든'은 연결어미 또는 종결어미로 쓰인다. 종결어미로 쓰일 때 2가지 의미가 있다. 1) 해할 자리에 쓰여, 청자가 모르고 있을 내용을 가르쳐 줌을 나타내는 종결 어미. 자랑이나 감탄의 느낌을 띨 때가 있다. 2) 해할 자리에 쓰여, 앞으로 할 어떤 이야기의 전제로 베풀어 놓음을 나타내는 종결 어미. (출처: h..
2019.10.04 -
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (3)
인간의 뇌파 중 N400이라는 뇌파는 언어 자극이 의미적으로 예상에서 벗어났을 때 크게 검출된다. 그래서 ‘타이어’ 다음에 ‘설탕’이라는 자극이 주어졌을 때, ‘달콤하다’ 다음에 ‘설탕’이라는 자극이 주어졌을 때보다 N400이 크게 검출된다. 이 N400을 이용해 피험자가 특정 자극을 얼마나 잘 기억하고 있는지 확인할 수 있다. 잘 기억하고 있는 자극의 경우 N400이 작게, 잘 기억하고 있지 못하는 자극의 경우 N400이 크게 검출된다. 실험은 PsychoPy3로 설계했다. 같은 광고여도 명사구로 쓰느냐, 동사구로 쓰느냐에 따라 기억 효과가 달라지는지 알아보기 위해 실험을 두 개의 세트로 나누어 진행했다. A세트에선 명사구로 제시된 광고가 B세트에선 동사구로, A세트에서 동사구로 제시된 광고가 B세트에..
2019.10.02