nlp(62)
-
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (2)
성공/실패한 텀블벅 프로젝트 이름을 모두 수집했다. 이제 문장구조/사용한 문장부호의 종류를 분석해보려 한다. 우선 수집한 프로젝트 이름이 있는 텍스트 파일을 불러오고 with open('fail.txt', 'r', encoding='UTF8') as f: fail_line = f.read().splitlines() 중복된 이름을 제거한다. fail_line = set(fail_line) len(fail_line) # 중복 제거 그리고 Komoran으로 품사 태깅을 해준다. from konlpy.tag import Komoran tagger = Komoran() tagged_f = [tagger.pos(fl) for fl in fail_line] 만만한 문장부호 먼저 분석해주면 f_punct = [] fo..
2019.09.30 -
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (1)
자연어처리 연구는 대부분 언어 데이터의 의미를 파악하고자 한다. 긴 글을 자동으로 요약하거나, 엄청난 크기의 댓글 데이터의 경향성을 파악하거나 등등. 근데 난 같은 내용을 어떻게 다르게 표현했느냐가 더 궁금하다. 같은 내용이라도 더 성공적인 문구는 어떻게 표현했길래 성공적일까? 카피라이터와 일반인 글의 차이점은 무엇일까?를 알고 싶다. 그래서 텀블벅 프로젝트 이름의 문장구조를 분석하기로 했다. 언젠가는 광고 카피도 분석해보고 싶지만, 텀블벅을 선택한 이유는! 1) 펀딩 성공/실패라는 명확한 결과가 있다 2) 광고에서 언어가 차지하는 비중이 비교적 크다 이제 텀블벅 사이트에 가서 크롤링을 해야 한다. 본격적으로 코드를 짜기 전에 구글링을 해봤다. "tumblbug crawling" 그래야 이미 누군가 짜놓..
2019.09.30