네이버(5)
-
파이썬으로 네이버 블로그 이웃 글 자동 공감 클릭하기
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import pyperclip import time driver = webdriver.Chrome(executable_path='본인 chromedriver path') driver.get("https://www.naver.com") # 로그인 페이지로 이동 driver.find_element(By.CLASS_NAME,'link_login').click() # 로그인 user = {'id':'본인 아이디','pw':'본인 비밀번호'} pyperclip.copy(user['id']) # 복..
2022.03.17 -
넷플릭스/네이버 시놉시스 word2vec 시각화하기
같은 영화라도 넷플릭스와 네이버의 줄거리 소개는 다르다. 이 둘이 어떻게 다른지 알아보고자 word2vec 결과를 시각화하려 한다. 203개 드라마, 932개 영화에 대한 넷플릭스, 네이버 각각의 시놉시스를 크롤링했고, 이제 이를 분석하면 된다~! 크롤링 방법은 여기서 확인하면 된다. 1) 넷플릭스 시놉시스 크롤링 : https://codlingual.tistory.com/10 넷플릭스 영화/드라마 시놉시스 크롤링 넷플릭스는 데이터에 미친 것으로 유명하다. 근데 넷플릭스의 빅데이터 활용 사례 중 언어를 분석한 사례는 잘 못 봤다. 다 영화 포스터 얘기, 추천 시스템 얘기. 그냥 넷플릭스 시놉시스에 관심 갖는 사람이 많이.. codlingual.tistory.com 2) 네이버 시놉시스 크롤링 : http..
2020.02.22 -
넷플릭스/네이버 시놉시스 어휘 단계 분석하기
같은 영화/드라마에 대한 넷플릭스와 네이버의 시놉시스를 크롤링해 이들의 문체 차이를 분석하려 한다. 이번엔 사용한 어휘의 단계를 비교해볼 것이다. 어휘 단계는 국립국어원이 제공한 '한국어 학습용 어휘 목록' 파일을 참조했다. https://www.korean.go.kr/front/etcData/etcDataView.do?mn_id=46&etc_seq=71 국립국어원 축소 확대 기타 자료 상세보기 한국어 학습용 어휘 목록(엑셀 파일) 담당부서 한국어진흥과 등록일 2003. 6. 4. 조회수 52218 한국어 학습용 어휘 목록 국립국어연구원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록입니다. 1단계 982개, 2단계 2,111개, 3단계 2,872개, 총 5,965개 단어가 포함되어 있습니다. 전체..
2019.11.11 -
넷플릭스/네이버 시놉시스 품사 분석하기
넷플릭스와 네이버에서 203개 드라마, 932개 영화에 대한 시놉시스를 크롤링했다. 이제 각 시놉시스에 특정 품사가 얼마나 많이 쓰였는지 알아보려고 한다. PCA 분석도 하려면 다음과 같은 형식의 데이터를 만들어야 한다. 미디어 명사 동사 ... 영화 제목1 네이버 XXX ZZZ ... 영화 제목2 넷플릭스 YYY III ... 우선 크롤링한 데이터에서 시놉시스에 해당되는 칼럼만 불러온다. 모든 시놉시스의 품사를 분석하기 전에 하나의 시놉시스만 분석해본다. from konlpy.tag import Kkma kkma = Kkma() kkma.pos(df['desc'][0]) [('전도', 'NNG'), ('유망', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('의과', 'NNG'), ..
2019.11.04 -
네이버 영화/드라마 시놉시스 크롤링
4416개 넷플릭스 시놉시스를 크롤링했다. 이제 이 영화/드라마의 네이버에서의 시놉시스를 크롤링하면 된다. 네이버 영화 API가 있어서 이걸로 수집하면 된다는데 모르겠다.. 그래서 그냥 하던대로 했다. 우선 네이버에 드라마/영화 제목을 검색하면 (당연히) 시놉시스가 다른 태그에 들어있어서 둘을 나눠서 수집해야 한다. 드라마는 검색한 페이지에 바로 전체 시놉시스가 뜬다. 검색 페이지에선 ... 가 있어서 전체 시놉시스가 안 보이는 듯하지만, 페이지 소스에는 전체 시놉시스가 들어있다! 전체 시놉시스가 들어있는 태그의 id는 "layer_sy" 근데 영화는 아님. 영화는 페이지 소스를 열어봐도 ... 밖에 없다. 전체 시놉시스는 더보기에 연결된 링크로 가야 확인할 수 있다. 더보기 링크가 있는 태그의 clas..
2019.10.08