NLP(76)
-
그림으로 보는 Transformer 번역 및 정리
https://jalammar.github.io/illustrated-transformer/ The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Chinese (Simplified), Korean Watch: MIT’s Deep Learning State of the Art lecture referencing this post In the previous post, we looked at Atten jalammar.github.io 1) Encoder - 첫번째(맨 아래) Encoder만 word embed..
2020.02.10 -
CNN for NLP 번역 및 정리
http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ Understanding Convolutional Neural Networks for NLP When we hear about Convolutional Neural Network (CNNs), we typically think of Computer Vision. CNNs were responsible for major breakthroughs in Image Classification and are the core of most Compute… www.wildml.com NLP에서 사용되는 CNN - 입력 데이터는 word embedding, 각 행은 한 단..
2020.02.06 -
Maximum Entropy Model
Maximum Entropy Model ( = Maxent Model ) * c = class, d = document 1. Joint, Generative Model : P(c,d) 이 class에 해당하면 어떤 document를 생성하는가? (ex) N-gram, Naive Bayes 2. Conditional, Discriminative Model : P( c | d ) 이 document면 어떤 class에 속할까? (ex) Logistic Regression, Maximum Entropy Model Feature의 예시 첫 번째 feature = class가 LOCATION이고 target 직전 단어가 in이며 target 단어가 대문자로 쓰이면 1, 아니면 0 (binary) feature가 ..
2019.12.04 -
Entropy
목차 1. 정보량 수량화하기 2. Entropy (엔트로피) 3. Cross Entropy (교차 엔트로피) 4. Cross Entropy와 Perplexity(혼잡도) 1. 정보량 수량화하기 1) 중요성 : 일어날 확률 낮을수록 정보량이 많다 2) 가법성 : 두 사건이 독립이라면 두 사건이 함께 일어날 때의 정보량은 각 사건의 정보량을 합한 것과 같다 이 두가지 조건을 만족시키려면 정보량은 다음과 같이 정의되어야 한다. 이는 놀라움의 정도로 해석할 수 있다. 2. Entropy (엔트로피) 엔트로피는 표본공간에 나타나는 모든 사건의 정보량의 평균적인 기댓값 이러한 엔트로피는 확률이 모두 같을 때 (uniform distribution) 가장 높다. (ex) fair coin이라 앞면 뒷면 나올 확률 같..
2019.12.04 -
Vector Semantics
1) word sense : 단어의 의미 2) synonym (ex) couch와 sofa * principle of contrast : 형태 다르면 의미도 다르다 3) word similarity (ex) dog와 cat 3) relatedness (또는 association) (ex) cup과 coffee 4) lexical fields (어휘장) (ex) 의사와 매쓰 단어의 의미란? 단어의 사용(use), 즉 문맥에 따라 달라진다. (ex) Labov : 컵이란 무엇인가? ∴ 단어의 의미는 neighboring word를 통해 알 수 있다. "한 단어 = 그 단어의 이웃 단어를 벡터로 나타낸 것" [ Vector Semantics ] 1. Long, sparse vector : count로 벡터 만..
2019.12.04 -
Naive Bayes and Text Classification
Text Classification 1. 명시적 코딩 2. 감독학습 2.1. Generative / Joint Model (ex) Naive Bayes, Language Model 2.2. Discriminative / Conditional Mdoel (ex) Logistic Regression, Maximum Entropy Model Naive Bayes(=NB)의 2가지 가정 1) Bag of Words(=BoW) : 단어의 순서는 중요하지 않다 2) 각 feature는 모두 독립적이다 [ NB 수식 ] * d = document(글), c = class(종류) , f = feature(특징적 요소) [ NB 계산하기 ] 1) 단순 count 2) Add-one Smoothing 특정 class에 나..
2019.12.04