BERT 파헤치기 Part 1-2 번역 및 정리
출처 1) Dissecting BERT Part 1: Understanding the Transformer 2) Dissecting BERT Part2: BERT Specifics Part 1 1. Encoder Level 1 : Problem - Transformer의 과제는 번역하기 - Encoder : 입력 문장(출발어) 안의 단어끼리 관계 포착하기 - Decoder : [입력 문장의 정보] + [번역된 단어, 출력문장(도착어)] Level 2 : Flow of Information 1) 각 토큰을 embedding 벡터로 바꾼다. 따라서 전체 input 문장은 (input_length) * (embedding_dim) 크기의 행렬이 된다 2) 이 embedding에 단어의 위치 정보(positio..
2020.02.11