크롤링(5)
-
티스토리 api 막혔다........
3개월 넘게 잘 돌아가던 코드가 갑자기 안 돌아가기 시작했다. 썸네일 지정에서 오류 나는 것 같아서 그 코드를 뺐는데도 403 ERROR 티스토리가 그냥 차단한 것 같다.. 구글링해도 잘 안 나오고 이 글밖에 참고할 게 없다 https://nemowork.com/1478 티스토리 API에 관한 마지막 포스팅 nemowork.com/1431 티스토리 API가 막혔다... 이제는 정말 티스토리 API를 놔줘야할때가 온 것 같다. 슬그머니 인증방식 하나를 뺄 때에도 어떻게든 이대신 잇몸으로 대응한다고 셀레니움까지 동원해 nemowork.com 그냥 어찌할 수 없는 듯?? 글 쓰려니까 '로봇이 아닙니다.'를 체크해야하는 걸로 보아 내 블로그가 찍혔나 ㅋ 이럴거면 왜 api 만들어줬는데에!!!!!!!!! 실시간 ..
2022.04.07 -
파이썬으로 네이버 블로그 이웃 글 자동 공감 클릭하기
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import pyperclip import time driver = webdriver.Chrome(executable_path='본인 chromedriver path') driver.get("https://www.naver.com") # 로그인 페이지로 이동 driver.find_element(By.CLASS_NAME,'link_login').click() # 로그인 user = {'id':'본인 아이디','pw':'본인 비밀번호'} pyperclip.copy(user['id']) # 복..
2022.03.17 -
Selenium을 이용한 자동 크롤링
우선 여기서 ChromeDriver를 설치한다. 각자 크롬 버전에 따라 맞는 걸 선택해야 하는데, 크롬 설정 > Chrome 정보에 들어가서 각자 크롬 버전을 확인할 수 있다. https://chromedriver.chromium.org/downloads ChromeDriver - WebDriver for Chrome - Downloads Current Releases If you are using Chrome version 94, please download ChromeDriver 94.0.4606.41 If you are using Chrome version 93, please download ChromeDriver 93.0.4577.63 If you are using Chrome version 92..
2021.09.10 -
네이버 영화/드라마 시놉시스 크롤링
4416개 넷플릭스 시놉시스를 크롤링했다. 이제 이 영화/드라마의 네이버에서의 시놉시스를 크롤링하면 된다. 네이버 영화 API가 있어서 이걸로 수집하면 된다는데 모르겠다.. 그래서 그냥 하던대로 했다. 우선 네이버에 드라마/영화 제목을 검색하면 (당연히) 시놉시스가 다른 태그에 들어있어서 둘을 나눠서 수집해야 한다. 드라마는 검색한 페이지에 바로 전체 시놉시스가 뜬다. 검색 페이지에선 ... 가 있어서 전체 시놉시스가 안 보이는 듯하지만, 페이지 소스에는 전체 시놉시스가 들어있다! 전체 시놉시스가 들어있는 태그의 id는 "layer_sy" 근데 영화는 아님. 영화는 페이지 소스를 열어봐도 ... 밖에 없다. 전체 시놉시스는 더보기에 연결된 링크로 가야 확인할 수 있다. 더보기 링크가 있는 태그의 clas..
2019.10.08 -
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (1)
자연어처리 연구는 대부분 언어 데이터의 의미를 파악하고자 한다. 긴 글을 자동으로 요약하거나, 엄청난 크기의 댓글 데이터의 경향성을 파악하거나 등등. 근데 난 같은 내용을 어떻게 다르게 표현했느냐가 더 궁금하다. 같은 내용이라도 더 성공적인 문구는 어떻게 표현했길래 성공적일까? 카피라이터와 일반인 글의 차이점은 무엇일까?를 알고 싶다. 그래서 텀블벅 프로젝트 이름의 문장구조를 분석하기로 했다. 언젠가는 광고 카피도 분석해보고 싶지만, 텀블벅을 선택한 이유는! 1) 펀딩 성공/실패라는 명확한 결과가 있다 2) 광고에서 언어가 차지하는 비중이 비교적 크다 이제 텀블벅 사이트에 가서 크롤링을 해야 한다. 본격적으로 코드를 짜기 전에 구글링을 해봤다. "tumblbug crawling" 그래야 이미 누군가 짜놓..
2019.09.30