StructBERT: Incorporating Language Structures into Pretraining for Deep Language Understandin 논문 정리

2020. 10. 7. 19:22reading

반응형

 

StructBERT: incorporated language structures into pre-training

(사실상 language structure라기 보단 어순)

1) word-level ordering

2) sentence-level ordering

 

1) word-level ordering

: 기존 BERT처럼 일부 토큰 masking 후, masked되지 않은 토큰 3개(trigram) 골라 순서 섞기

* 4개로 했을 때 성능 차이가 크지 않았고, robustness 고려하여 3개로 선택

→ masked된 토큰의 final hidden state → softmax classifier → 본래 토큰 예측

→ shuffled된 토큰들의 final hidden state → softmax classifier → 본래 어순 예측

 

 

  2) sentence-level ordering

 

- Previous Sentence: 문장 A가 문장 B의 이전 문장

- Next Sentence: 문장 A가 문장 B의 다음 문장

- Random Sentence: 문장 A, B는 서로 다른 글에서 나온 문장

→ 두 문장을 [SEP] 기준으로 concat한 input → pooled output from [CLS] → softmax classifier → 3-class prediction

 

 

 

  Ablation Study

(* ablation study: a procedure where certain parts of the network are removed, in order to gain a better understanding of the network’s behaviour)

- MNLI, SNLI, QQP, SQuAD: 문장 어순 맞추기 task의 유무에 따른 성능 차이 큼

- CoLA, SST-2: 단어 어순 맞추기 task의 유무에 따른 성능 차이 큼

* 특히 어순과 문법성의 밀접한 연관성 때문에 CoLA 데이터에서 성능 차이가 가장 컸음

 

Review

- [ BERT + 기존의 BERT pre-training(masking, NSP) + 단어/문장의 어순 ] 가 아니라,

[ BERT + 단어/문장의 어순 ] 의 성능을 봐야 한다

- BERT가 통사 정보를 학습하게 된다는 선행 연구가 있는데 굳이 이래야 하나?

 

Assessing BERT's Syntactic Abilities

- mask the focus verb

(ex) the game that the guard hates is/are bad.

→ [CLS] the game that the guard hates [MASK] bad .

→ compare the scores predicted for is and are

 

 

참고

arxiv.org/abs/1908.04577

 

StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding

Recently, the pre-trained language model, BERT (and its robustly optimized version RoBERTa), has attracted a lot of attention in natural language understanding (NLU), and achieved state-of-the-art accuracy in various NLU tasks, such as sentiment classifica

arxiv.org

arxiv.org/abs/1901.05287

 

Assessing BERT's Syntactic Abilities

I assess the extent to which the recently introduced BERT model captures English syntactic phenomena, using (1) naturally-occurring subject-verb agreement stimuli; (2) "coloreless green ideas" subject-verb agreement stimuli, in which content words in natur

arxiv.org

 

반응형

'reading' 카테고리의 다른 글

GPT 정리  (0) 2020.10.07
BLEU and BLEURT: evaluation for text generation 정리  (0) 2020.10.07
데이터 읽기의 기술  (0) 2019.12.20
단어의 사생활  (0) 2019.10.14
브랜드; 짓다  (0) 2019.10.13