[2021-12-24] 오늘의 자연어처리

2021. 12. 24. 09:13paper-of-the-day

반응형

How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness?

 

The fine-tuning of pre-trained language models has a great success in many NLP fields. Yet, it is strikingly vulnerable to adversarial examples, e.g., word substitution attacks using only synonyms can easily fool a BERT-based sentiment analysis model. In this paper, we demonstrate that adversarial training, the prevalent defense technique, does not directly fit a conventional fine-tuning scenario, because it suffers severely from catastrophic forgetting: failing to retain the generic and robust linguistic features that have already been captured by the pre-trained model. In this light, we propose Robust Informative Fine-Tuning (RIFT), a novel adversarial fine-tuning method from an information-theoretical perspective. In particular, RIFT encourages an objective model to retain the features learned from the pre-trained model throughout the entire fine-tuning process, whereas a conventional one only uses the pre-trained weights for initialization. Experimental results show that RIFT consistently outperforms the state-of-the-arts on two popular NLP tasks: sentiment analysis and natural language inference, under different attacks across various pre-trained language models.

 

사전 훈련된 언어 모델의 미세 조정은 많은 부분에서 큰 성공을 거두고 있다. NLP 필드. 그러나, 그것은 적대적인 예에 현저하게 취약하다. 동의어만을 사용한 단어 대체 공격은 BERT 기반 공격을 쉽게 속일 수 있다. 감정 분석 모형. 이 논문에서, 우리는 적대적인 것을 입증한다. 일반적인 방어 기술인 훈련은 관습에 직접적으로 맞지 않는다 심각한 망각으로 인해 심각한 문제를 겪기 때문에 시나리오 미세 조정: 이미 가지고 있는 일반적이고 강력한 언어적 특징을 유지하는 데 실패함 사전 훈련된 모델에 의해 포착되었습니다. 이러한 관점에서, 우리는 강력함을 제안한다. 정보 미세 조정(RIFT), 새로운 적대적 미세 조정 방법: 정보 이론적 관점. 특히, 리프트는 다음과 같은 이점을 제공합니다. 사전 교육된 모델에서 학습한 기능을 유지하는 목표 모델 기존의 미세 조정 프로세스에서는 데이터 처리만 사용하는 반면, 전체 미세 조정 프로세스에서는 초기화를 위해 사전 훈련된 가중치 실험 결과에 따르면 리프트는 두 가지 인기 있는 NLP 작업에서 일관되게 최첨단 성능을 능가한다. 감정 분석 및 자연어 추론, 다른 공격 하에서 사전 훈련된 다양한 언어 모델에 걸쳐. 

 

 

Mixed Precision DNN Qunatization for Overlapped Speech Separation and Recognition

 

Recognition of overlapped speech has been a highly challenging task to date. State-of-the-art multi-channel speech separation system are becoming increasingly complex and expensive for practical applications. To this end, low-bit neural network quantization provides a powerful solution to dramatically reduce their model size. However, current quantization methods are based on uniform precision and fail to account for the varying performance sensitivity at different model components to quantization errors. In this paper, novel mixed precision DNN quantization methods are proposed by applying locally variable bit-widths to individual TCN components of a TF masking based multi-channel speech separation system. The optimal local precision settings are automatically learned using three techniques. The first two approaches utilize quantization sensitivity metrics based on either the mean square error (MSE) loss function curvature, or the KL-divergence measured between full precision and quantized separation models. The third approach is based on mixed precision neural architecture search. Experiments conducted on the LRS3-TED corpus simulated overlapped speech data suggest that the proposed mixed precision quantization techniques consistently outperform the uniform precision baseline speech separation systems of comparable bit-widths in terms of SI-SNR and PESQ scores as well as word error rate (WER) reductions up to 2.88% absolute (8% relative).

 

중복된 음성의 인식은 지금까지 매우 어려운 과제였다. 최첨단 다채널 음성 분리 시스템이 되고 있다. 점점 더 복잡해지고 실제 적용에 비용이 많이 듭니다. 이를 위해. 저비트 신경망 양자화는 강력한 솔루션을 제공한다. 모델 크기를 크게 줄일 수 있습니다. 그러나 현재의 정량화 방법은 다음과 같다. 균일한 정밀도에 기반하여 다양한 성능을 고려하지 못함 다양한 모델 구성 요소에서 정량화 오류에 대한 민감도. 이 점에서. 종이, 새로운 혼합 정밀도 DNN 정량화 방법은 적용에 의해 제안된다. TF 마스킹 기반의 개별 TCN 구성요소에 대한 로컬 가변 비트 폭 다중 채널 음성 분리 시스템. 최적의 로컬 정밀도 설정 는 세 가지 기술을 사용하여 자동으로 학습됩니다. 처음 두 가지 접근법은 평균 제곱 오차에 기초한 정량화 민감도 메트릭 활용 (MSE) 손실함수 곡률 또는 최대값 사이의 KL-분산 정밀도 및 정량화 분리 모델. 세 번째 접근법은 혼합에 기초한다. 정밀 신경 구조 탐색. LRS3-TED에 대한 실험 말뭉치 시뮬레이션 중첩 음성 데이터는 제안된 혼합을 암시한다. 정밀도 정량화 기법은 균일 정밀도를 지속적으로 능가한다. SI-SNR 측면에서 유사한 비트폭의 기준 음성 분리 시스템 PESQ 점수 및 단어 오류율(WER) 최대 2.88% 감소 절대(상대 8%)입니다. 

 

 

Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models

 

Deep encoders have been proven to be effective in improving neural machine translation (NMT) systems, but it reaches the upper bound of translation quality when the number of encoder layers exceeds 18. Worse still, deeper networks consume a lot of memory, making it impossible to train efficiently. In this paper, we present Symbiosis Networks, which include a full network as the Symbiosis Main Network (M-Net) and another shared sub-network with the same structure but less layers as the Symbiotic Sub Network (S-Net). We adopt Symbiosis Networks on Transformer-deep (m-n) architecture and define a particular regularization loss $\mathcal{L}_{\tau}$ between the M-Net and S-Net in NMT. We apply joint-training on the Symbiosis Networks and aim to improve the M-Net performance. Our proposed training strategy improves Transformer-deep (12-6) by 0.61, 0.49 and 0.69 BLEU over the baselines under classic training on WMT'14 EN->DE, DE->EN and EN->FR tasks. Furthermore, our Transformer-deep (12-6) even outperforms classic Transformer-deep (18-6).

 

심층 인코더는 신경 기계 개선에 효과적인 것으로 입증되었다. 번역(NMT) 시스템이지만 번역 상한에 도달합니다. 품질에 영향을 미칠 수 있습니다. 더 나쁜 건, 더 깊어 네트워크는 많은 메모리를 소비하여 효율적인 훈련이 불가능하다. 안으로 이 논문에서, 우리는 Symbiosis Networks를 제시합니다, 그것은 완전한 네트워크를 포함합니다. 공생 기본 네트워크(M-Net) 및 동일한 공유 서브 네트워크 S-Net(Symbiotic Sub Network)으로 구조화되었지만 계층 수는 적습니다. 우리는 채택한다 변압기 심층(m-n) 아키텍처의 공생 네트워크 및 정의 특정 정규화 손실 \mathcal{M-Net과 S-Net 사이의 L}_{\tau}$ NMT에 있습니다. 우리는 공생 네트워크에 대한 공동 훈련을 적용하고 M-Net의 성능. 제안된 교육 전략은 트랜스포머 심층도를 개선합니다. (12-6) 0.61, 0.49 및 0.69 BLEU에 의해 기준선에 대한 고전적인 훈련에서 WMT'14 EN->DE, DE->EN 및 EN->FR 태스크. 또한, 우리의 트랜스포머 깊이 (12-6)은 기존의 트랜스포머 깊이(18-6)를 능가합니다. 

 

 

반응형

'paper-of-the-day' 카테고리의 다른 글

[2021-12-29] 오늘의 자연어처리  (0) 2021.12.29
[2021-12-28] 오늘의 자연어처리  (0) 2021.12.28
[2021-12-27] 오늘의 자연어처리  (0) 2021.12.27
[2021-12-23] 오늘의 자연어처리  (0) 2021.12.23
Paper of the Day  (0) 2021.12.23