드디어 이해한 Transformer Positional Encoding/Embedding
이해하려고 노력할 때마다 항상 sin, cos의 폭격에 정신 못 차렸다. 하지만 귀여운 커피 캐릭터와 함께 드디어 이해가 좀 간다...... https://www.youtube.com/watch?v=1biZfFLPRSY&feature=youtu.be 일단 트랜스포머에 positional encoding이 필요한 이유! 트랜스포머는 RNN, LSTM과 달리 recurrent하지 않음. input의 모든 토큰이 parallel하게 처리됨. 따라서 어순 정보가 추가적으로 필요함. 이 어순 정보를 positional encoding에 담아 전달할 건데, 이 positional encoding은 각 토큰의 word embedding과 더해짐. 더해져서 똑같은 단어라도 첫 번째 위치에 왔을 때랑, 다섯 번째 위치에..
2021.10.07