데이터(2)
-
데이터 읽기의 기술
점점 성별과 나이의 구분이 무색해지고 있다. 그래서 오히려 개인의 성향에 맞춘 추천, 혹은 행동 속성에 따른 군집화가 적합하다. 특정 기준을 가지고 고객을 집단화하는 것이다. 과거엔 모두에게 광고를 뿌리고spray 그것이 원하는 고객에게 전달되기만을 바라는pray 방식이었다. 이제는 개인이 볼 수 있는 웹이나 앱 플랫폼에서 그들에게 적합한 정보를 제공한다. 광고 비용의 효율화뿐만 아니라, 구매 가능성을 높인다는 데 방점이 찍히는 것이다. 맞춤형 추천 알고리즘 1) 사람 간의 유사성 계산 - A가 구매한 목록과 B가 구매한 목록이 비슷하다면, A는 샀지만 B가 아직 사지 않은 것을 B에게 추천하기 2) 상품 간의 유사성 계산 (사람보다 상품 수가 적으니 더 빨리 계산 가능) - A 상품을 산 사람과 B 상..
2019.12.20 -
넷플릭스/네이버 시놉시스 어휘 단계 분석하기
같은 영화/드라마에 대한 넷플릭스와 네이버의 시놉시스를 크롤링해 이들의 문체 차이를 분석하려 한다. 이번엔 사용한 어휘의 단계를 비교해볼 것이다. 어휘 단계는 국립국어원이 제공한 '한국어 학습용 어휘 목록' 파일을 참조했다. https://www.korean.go.kr/front/etcData/etcDataView.do?mn_id=46&etc_seq=71 국립국어원 축소 확대 기타 자료 상세보기 한국어 학습용 어휘 목록(엑셀 파일) 담당부서 한국어진흥과 등록일 2003. 6. 4. 조회수 52218 한국어 학습용 어휘 목록 국립국어연구원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록입니다. 1단계 982개, 2단계 2,111개, 3단계 2,872개, 총 5,965개 단어가 포함되어 있습니다. 전체..
2019.11.11