[2022-01-24] 오늘의 자연어처리

2022. 1. 24. 10:30paper-of-the-day

반응형

 

JASS: Japanese-specific Sequence to Sequence Pre-training for Neural Machine Translation

 

Neural machine translation (NMT) needs large parallel corpora for state-of-the-art translation quality. Low-resource NMT is typically addressed by transfer learning which leverages large monolingual or parallel corpora for pre-training. Monolingual pre-training approaches such as MASS (MAsked Sequence to Sequence) are extremely effective in boosting NMT quality for languages with small parallel corpora. However, they do not account for linguistic information obtained using syntactic analyzers which is known to be invaluable for several Natural Language Processing (NLP) tasks. To this end, we propose JASS, Japanese-specific Sequence to Sequence, as a novel pre-training alternative to MASS for NMT involving Japanese as the source or target language. JASS is joint BMASS (Bunsetsu MASS) and BRSS (Bunsetsu Reordering Sequence to Sequence) pre-training which focuses on Japanese linguistic units called bunsetsus. In our experiments on ASPEC Japanese--English and News Commentary Japanese--Russian translation we show that JASS can give results that are competitive with if not better than those given by MASS. Furthermore, we show for the first time that joint MASS and JASS pre-training gives results that significantly surpass the individual methods indicating their complementary nature. We will release our code, pre-trained models and bunsetsu annotated data as resources for researchers to use in their own NLP tasks.

 

신경 기계 번역(NMT)은 다음을 위해 큰 병렬 말뭉치를 필요로 한다. 최첨단 번역 품질 일반적으로 저자원 NMT가 처리된다. 큰 단일 언어 또는 병렬 말뭉치를 활용하는 전이 학습에 의해 사전 훈련 MASS(MASSked Sequence)와 같은 단일 언어 사전 교육 접근법 To Sequence)는 NMT 품질을 향상시키는 데 매우 효과적이다. 작은 평행 말뭉치 그러나 그들은 언어 정보를 설명하지 않는다. 몇몇에게 매우 귀중한 것으로 알려진 통사 분석기를 사용하여 얻었다. NLP(Natural Language Processing) 작업입니다. 이를 위해 JASS를 제안합니다. 새로운 사전 훈련 대안으로서, 일본 고유의 시퀀스 투 시퀀스 MASS for NMT는 일본어를 소스 또는 대상 언어로 사용합니다. JASS는 합동입니다. BMASS(Bunsetsu MASS) 및 BRSS(Bunsetsu Sequence to Sequence) 분셋수스라고 불리는 일본어 단위에 초점을 맞춘 사전 훈련. 안으로 ASPEC 일본어 영어 및 뉴스 해설에 대한 우리의 실험 일본어-러시아어 번역 우리는 JASS가 다음과 같은 결과를 줄 수 있다는 것을 보여준다. MASS에 의해 주어진 것보다 더 낫지는 않더라도 경쟁할 수 있다. 더 나아가, 우리는 보여준다. 처음으로 합동 MASS와 JASS 사전 훈련이 다음과 같은 결과를 준다. 상호보완을 나타내는 개별 방법을 현저히 능가하다. 우리는 우리의 코드, 사전 훈련된 모델, 그리고 주석이 달린 분셋수를 공개할 것이다. 연구원들이 자신의 NLP 작업에 사용할 수 있는 자원으로서의 데이터. 

 

 

JASS: Japanese-specific Sequence to Sequence Pre-training for Neural Machine Translation

 

Neural machine translation (NMT) needs large parallel corpora for state-of-the-art translation quality. Low-resource NMT is typically addressed by transfer learning which leverages large monolingual or parallel corpora for pre-training. Monolingual pre-training approaches such as MASS (MAsked Sequence to Sequence) are extremely effective in boosting NMT quality for languages with small parallel corpora. However, they do not account for linguistic information obtained using syntactic analyzers which is known to be invaluable for several Natural Language Processing (NLP) tasks. To this end, we propose JASS, Japanese-specific Sequence to Sequence, as a novel pre-training alternative to MASS for NMT involving Japanese as the source or target language. JASS is joint BMASS (Bunsetsu MASS) and BRSS (Bunsetsu Reordering Sequence to Sequence) pre-training which focuses on Japanese linguistic units called bunsetsus. In our experiments on ASPEC Japanese--English and News Commentary Japanese--Russian translation we show that JASS can give results that are competitive with if not better than those given by MASS. Furthermore, we show for the first time that joint MASS and JASS pre-training gives results that significantly surpass the individual methods indicating their complementary nature. We will release our code, pre-trained models and bunsetsu annotated data as resources for researchers to use in their own NLP tasks.

 

신경 기계 번역(NMT)은 다음을 위해 큰 병렬 말뭉치를 필요로 한다. 최첨단 번역 품질 일반적으로 저자원 NMT가 처리된다. 큰 단일 언어 또는 병렬 말뭉치를 활용하는 전이 학습에 의해 사전 훈련 MASS(MASSked Sequence)와 같은 단일 언어 사전 교육 접근법 To Sequence)는 NMT 품질을 향상시키는 데 매우 효과적이다. 작은 평행 말뭉치 그러나 그들은 언어 정보를 설명하지 않는다. 몇몇에게 매우 귀중한 것으로 알려진 통사 분석기를 사용하여 얻었다. NLP(Natural Language Processing) 작업입니다. 이를 위해 JASS를 제안합니다. 새로운 사전 훈련 대안으로서, 일본 고유의 시퀀스 투 시퀀스 MASS for NMT는 일본어를 소스 또는 대상 언어로 사용합니다. JASS는 합동입니다. BMASS(Bunsetsu MASS) 및 BRSS(Bunsetsu Sequence to Sequence) 분셋수스라고 불리는 일본어 단위에 초점을 맞춘 사전 훈련. 안으로 ASPEC 일본어 영어 및 뉴스 해설에 대한 우리의 실험 일본어-러시아어 번역 우리는 JASS가 다음과 같은 결과를 줄 수 있다는 것을 보여준다. MASS에 의해 주어진 것보다 더 낫지는 않더라도 경쟁할 수 있다. 더 나아가, 우리는 보여준다. 처음으로 합동 MASS와 JASS 사전 훈련이 다음과 같은 결과를 준다. 상호보완을 나타내는 개별 방법을 현저히 능가하다. 우리는 우리의 코드, 사전 훈련된 모델, 그리고 주석이 달린 분셋수를 공개할 것이다. 연구원들이 자신의 NLP 작업에 사용할 수 있는 자원으로서의 데이터. 

 

 

Uncovering More Shallow Heuristics: Probing the Natural Language Inference Capacities of Transformer-Based Pre-Trained Language Models Using Syllogistic Patterns

 

In this article, we explore the shallow heuristics used by transformer-based pre-trained language models (PLMs) that are fine-tuned for natural language inference (NLI). To do so, we construct or own dataset based on syllogistic, and we evaluate a number of models' performance on our dataset. We find evidence that the models rely heavily on certain shallow heuristics, picking up on symmetries and asymmetries between premise and hypothesis. We suggest that the lack of generalization observable in our study, which is becoming a topic of lively debate in the field, means that the PLMs are currently not learning NLI, but rather spurious heuristics.

 

이 기사에서는 변압기 기반에서 사용되는 얕은 휴리스틱스에 대해 살펴봅니다. 자연어에 맞게 미세 조정된 사전 훈련된 언어 모델(PLM) 추론(NLI). 이를 위해, 우리는 삼단논리를 기반으로 데이터 세트를 구성하거나 소유한다. 또한 데이터셋에서 여러 모델의 성능을 평가합니다. 우리는 찾는다 모델들이 특정한 얕은 휴리스틱에 크게 의존하고 있다는 증거, 즉 전제와 가설 사이의 대칭과 비대칭에 대해요 할 것을 제안합니다. 우리의 연구에서 관찰할 수 있는 일반화 부족, 그것은 주제가 되고 있다. 현장에서 활발한 토론의 의미, PLMs는 현재 배우고 있지 않다. NLI는 있지만, 오히려 가짜 휴리스틱이죠 

 

 

반응형