codlingual

TF-IDF(1)

임베딩Embedding 정리
임베딩이란 자연어처리 분야에서 의미를 표현하는 표준적인 방식이다. ‘비슷한 맥락에 등장하는 단어들은 유사한 의미를 지닌다’는 distributional hypothesis에 따라, 임베딩에서 의미는 어떤 단어가 사용되는 문맥에 따라 정의된다. 단어의 의미를 벡터로 표현한 임베딩을 사용하면, 벡터 연산을 통해 유사도 계산 등 다양한 과제를 할 수 있다. 초기의 임베딩은 단순히 주변 단어의 빈도를 나타내는 것이었으나, 최근에는 transformer model을 활용한 임베딩으로까지 발전했다. 1. Static Word Embedding 1.1. Sparse Vector - TF-IDF, PMI 등이 있다 - 특정 단어의 빈도를 기반으로 한 임베딩이다 - 일반화 어렵다 - 0이 많아서 벡터 크기가 크다 * t..
2021.02.25

1

티스토리툴바