2020. 10. 7. 19:22ㆍreading
StructBERT: incorporated language structures into pre-training
(사실상 language structure라기 보단 어순)
1) word-level ordering
2) sentence-level ordering
1) word-level ordering
: 기존 BERT처럼 일부 토큰 masking 후, masked되지 않은 토큰 3개(trigram) 골라 순서 섞기
* 4개로 했을 때 성능 차이가 크지 않았고, robustness 고려하여 3개로 선택
→ masked된 토큰의 final hidden state → softmax classifier → 본래 토큰 예측
→ shuffled된 토큰들의 final hidden state → softmax classifier → 본래 어순 예측
2) sentence-level ordering
- Previous Sentence: 문장 A가 문장 B의 이전 문장
- Next Sentence: 문장 A가 문장 B의 다음 문장
- Random Sentence: 문장 A, B는 서로 다른 글에서 나온 문장
→ 두 문장을 [SEP] 기준으로 concat한 input → pooled output from [CLS] → softmax classifier → 3-class prediction
Ablation Study
(* ablation study: a procedure where certain parts of the network are removed, in order to gain a better understanding of the network’s behaviour)
- MNLI, SNLI, QQP, SQuAD: 문장 어순 맞추기 task의 유무에 따른 성능 차이 큼
- CoLA, SST-2: 단어 어순 맞추기 task의 유무에 따른 성능 차이 큼
* 특히 어순과 문법성의 밀접한 연관성 때문에 CoLA 데이터에서 성능 차이가 가장 컸음
Review
- [ BERT + 기존의 BERT pre-training(masking, NSP) + 단어/문장의 어순 ] 가 아니라,
[ BERT + 단어/문장의 어순 ] 의 성능을 봐야 한다
- BERT가 통사 정보를 학습하게 된다는 선행 연구가 있는데 굳이 이래야 하나?
Assessing BERT's Syntactic Abilities
- mask the focus verb
(ex) the game that the guard hates is/are bad.
→ [CLS] the game that the guard hates [MASK] bad .
→ compare the scores predicted for is and are
참고
'reading' 카테고리의 다른 글
GPT 정리 (0) | 2020.10.07 |
---|---|
BLEU and BLEURT: evaluation for text generation 정리 (0) | 2020.10.07 |
데이터 읽기의 기술 (0) | 2019.12.20 |
단어의 사생활 (0) | 2019.10.14 |
브랜드; 짓다 (0) | 2019.10.13 |