all(408)
-
1. 통계학이란?
SNUON 통계학 강의 [연구 설계] 파인만은 추운 날씨가 고무밴드의 탄력서을 잃게 했음을 보여주기 위해 얼음물에 고무밴드를 넣었다 문제점: 얼음물이 차가워서 탄력성을 잃었는지, 그냥 물에 들어가서 탄력서을 잃었는지 알 수 없다 파인만의 실험에서 추가로 필요했던 것은 얼음을 넣지 않은 컵에서 고무밴드가 탄력성을 유지하는지 여부에 대한 확인이다 일반적으로 연구설계에서 실험대상은 실험군혹은 대조군중 하나에 속하게 된다 실험군(Treatment group) : 고무밴드를 얼음물에 집어넣는다 대조군(Control group) : 고무밴드를 실온온도의 물에 집어넣는다 반응변수(Responsive variable) : 고무밴드의 탄력성 [Summary Statistics] Summary Statistics는 데이터..
2019.10.20 -
단어의 사생활
한국어 제목은 이지만, 원제는 이다. 모든 '단어'가 아니라 '대명사'를 주로 분석하는 책. 큰 언어 데이터를 분석할 때 대부분 'stopwords'를 제거하고 분석한다. 'stopwords'는 대명사, 조사 등 특별한 내용을 전달하지 않는 기능어다. 그런데 이 작가는 기능어를 분석해 화자의 심리를 알아본다. 탐정이 된 기분이라 재밌었다. ‘그 반지’가 아니라 ‘반지’라고 말하는 것은 말하는 사람과 듣는 사람이 특정 반지에 대해 공통적으로 아는 바가 없음을 알 수 있다. ‘우리’라는 단어의 다섯 가지 의미 너와 나 : 하나의 정체성 공유 너 빼고 내 친구들 : 청자는 포함되지 않음. 배타적 의미 너희들 : (ex) 선생님이 시끄러운 교실에 들어오며 "우리 조용히 좀 할까?" 나 : 책임을 분산하고 존재하..
2019.10.14 -
브랜드; 짓다
언어학 수업은 재밌었지만, 음성학 분야는 정말 재미없다고 생각했다. 근데 이 책은 음성학 이론을 브랜딩에 적용해서 설명해줘서 완전 재밌었다. 커피 네이밍 :강한 첫맛, 부드러운 끝 맛, 아련하게 남는 뒷맛. 이것을 음성학적으로 치환하면 ‘강한 첫음절, 부드러운 둘째 음절, 여운이 남는 끝음절’이 된다. 강한 음은 격음(거센소리, ㅋㅌㅍㅊ)과 경음(된소리, ㄲㄸㅃㅆㅉ)으로 구현된다. 부드러운 음은 성대가 떨려 소리를 내는 유성음(모음, ㄴㄹㅁㅇ)으로 구현된다. 이름이 불린 후 여운을 남기기 위해서는 마지막 음절이 받침 없는 모음이나 유성음 받침으로 끝맺어 공기 중에 진동을 남겨야 한다. 티오피 T.O.P. 커피의 강한 첫 맛은 ‘티’, 부드러운 맛은 ‘오’, 여운이 남는 향은 ‘피’ 커피콩이 처음 발견된 ..
2019.10.13 -
네이버 영화/드라마 시놉시스 크롤링
4416개 넷플릭스 시놉시스를 크롤링했다. 이제 이 영화/드라마의 네이버에서의 시놉시스를 크롤링하면 된다. 네이버 영화 API가 있어서 이걸로 수집하면 된다는데 모르겠다.. 그래서 그냥 하던대로 했다. 우선 네이버에 드라마/영화 제목을 검색하면 (당연히) 시놉시스가 다른 태그에 들어있어서 둘을 나눠서 수집해야 한다. 드라마는 검색한 페이지에 바로 전체 시놉시스가 뜬다. 검색 페이지에선 ... 가 있어서 전체 시놉시스가 안 보이는 듯하지만, 페이지 소스에는 전체 시놉시스가 들어있다! 전체 시놉시스가 들어있는 태그의 id는 "layer_sy" 근데 영화는 아님. 영화는 페이지 소스를 열어봐도 ... 밖에 없다. 전체 시놉시스는 더보기에 연결된 링크로 가야 확인할 수 있다. 더보기 링크가 있는 태그의 clas..
2019.10.08 -
The Language the Gets People to Give: Phrases that Predict Success on Kickstarter
이 논문은 pdf로 공개되어 있다. http://comp.social.gatech.edu/papers/cscw14.crowdfunding.mitra.pdf 미국의 크라우드펀딩 사이트인 킥스타터(Kickstarter). 이곳에서 45,810개의 크라우드 펀딩 프로젝트를 수집했다. 펀딩 성공 프로젝트는 23,604개(51.53%), 실패 프로젝트는 22,206개(48.47%). 9M개의 구문 + 59개의 언어 외 변수를 분석하여 어떤 변수가 펀딩의 성공 여부를 잘 예측하는지 알아본 논문이다. * 구문은 프로젝트 설명 글의 unigram, bigram, trigram을 이용했다. * 일반화를 위해 특정 카테고리에만 많이 등장하는 구문은 뺐다. 13개의 카테고리 모두에 나타나는 구문만 분석했다. * 킥스타터에만..
2019.10.06 -
'맴찢'의 품사는 무엇일까?
'맴찢' = '마음이 찢어진다' '답정너' = '답은 정해져 있고 너는 대답만 하면 돼.' '존맛' = '존나 맛있다' 왼쪽의 신조어는 오른쪽 설명의 줄임말이다. 대부분의 줄임말은 줄이기 전의 말고 품사가 똑같다. 그래서 대체 가능하다. "오늘 파바 갔다 왔어!" 를 "오늘 파리바게트 갔다 왔어!"라고 말해도 된다. 근데 '맴찢', '답정너', '존맛' 같은 신조어는 대체가능하지 않은 경우가 꽤 있다. "완전 맴찢이다.."는 "완전 마음이 찢어진다이다.."로 말할 수 없고 "내가 좀 답정너인가?"는 "내가 좀 답은 정해져 있고 너는 대답만 하면 돼.인가?"로 말할 수 없고 "이거 존맛이다!"는 "이거 존나 맛있다이다!"라고 말할 수 없다. 이렇게 줄이기 전의 말이 명사가 아닌 경우는 줄임말이 되면 명사로..
2019.10.05