[2022-01-21] 오늘의 자연어처리

2022. 1. 21. 10:30paper-of-the-day

반응형

 

Improving Neural Machine Translation by Bidirectional Training

 

We present a simple and effective pretraining strategy -- bidirectional training (BiT) for neural machine translation. Specifically, we bidirectionally update the model parameters at the early stage and then tune the model normally. To achieve bidirectional updating, we simply reconstruct the training samples from "src$\rightarrow$tgt" to "src+tgt$\rightarrow$tgt+src" without any complicated model modifications. Notably, our approach does not increase any parameters or training steps, requiring the parallel data merely. Experimental results show that BiT pushes the SOTA neural machine translation performance across 15 translation tasks on 8 language pairs (data sizes range from 160K to 38M) significantly higher. Encouragingly, our proposed model can complement existing data manipulation strategies, i.e. back translation, data distillation, and data diversification. Extensive analyses show that our approach functions as a novel bilingual code-switcher, obtaining better bilingual alignment.

 

간단하고 효과적인 사전 교육 전략을 제시한다. 양방향 신경 기계 번역을 위한 훈련(BiT). 구체적으로, 우리는 양방향으로 초기 단계에서 모형 모수를 업데이트한 다음 모형을 조정합니다. 보통. 양방향 업데이트를 달성하기 위해, 우리는 교육을 재구성하기만 하면 된다. "srcarrightarrow$tgt"에서 "src+tgtrightarrow$tgt+src"까지의 샘플(예: 없음) 복잡한 모델 수정. 특히, 우리의 접근 방식은 어떠한 것도 증가시키지 않는다. 매개 변수 또는 교육 단계, 병렬 데이터만 필요합니다. 실험 결과는 BiT가 SOTA 신경 기계 번역 성능을 밀어낸다는 것을 보여준다. 8개 언어 쌍에서 15개의 번역 작업(데이터 크기는 160K에서 160K까지)에 걸쳐 있습니다. 38M) 상당히 높다. 고무적이게도, 우리의 제안된 모델은 다음을 보완할 수 있다. 기존 데이터 조작 전략(예: 역번역, 데이터) 증류, 데이터 다양화. 광범위한 분석에 따르면 접근 방식은 새로운 이중 언어 코드 분석자 기능으로서 더 나은 것을 얻는다. 이중 언어 맞춤 

 

 

Learning grammar with a divide-and-concur neural network

 

We implement a divide-and-concur iterative projection approach to context-free grammar inference. Unlike most state-of-the-art models of natural language processing, our method requires a relatively small number of discrete parameters, making the inferred grammar directly interpretable -- one can read off from a solution how to construct grammatically valid sentences. Another advantage of our approach is the ability to infer meaningful grammatical rules from just a few sentences, compared to the hundreds of gigabytes of training data many other models employ. We demonstrate several ways of applying our approach: classifying words and inferring a grammar from scratch, taking an existing grammar and refining its categories and rules, and taking an existing grammar and expanding its lexicon as it encounters new words in new data.

 

우리는 분할 및 concur 반복 투영 접근법을 구현한다. 문맥 없는 문법 추론 대부분의 최신 자연 모델과는 달리 언어 처리, 우리의 방법은 상대적으로 적은 수의 이산적인 것을 요구한다. 매개 변수, 유추된 문법을 직접 해석할 수 있게 함 - 읽을 수 있음 문법적으로 유효한 문장을 구성하는 방법을 해결 방법에서 벗어납니다. 다른 우리의 접근법의 장점은 의미있는 문법 규칙을 추론하는 능력이다. 수백 기가바이트의 훈련과 비교해 볼 때, 몇 문장으로만 봤을 때 다른 많은 모델들이 사용하는 데이터. 우리는 다음을 적용하는 몇 가지 방법을 시연한다. 접근: 단어를 분류하고 처음부터 문법을 유추하다, 선택하다 기존의 문법과 그것의 범주와 규칙을 다듬고, 기존의 것을 취한다. 문법과 어휘 확장, 새로운 데이터에서 새로운 단어를 접하게 된다. 

 

 

Datasheet for the Pile

 

This datasheet describes the Pile, a 825 GiB dataset of human-authored text compiled by EleutherAI for use in large-scale language modeling. The Pile is comprised of 22 different text sources, ranging from original scrapes done for this project, to text data made available by the data owners, to third-party scrapes available online.

 

이 데이터시트에서는 인간이 작성한 텍스트의 825 GiB 데이터 세트인 Pile에 대해 설명합니다. 엘르우더 편찬대규모 언어 모델링에 사용하기 위한 AI입니다. 더 파일(The Pile)은 22개의 다른 텍스트 소스로 구성되며, 다음을 위해 수행된 원본 스크래프로부터 다양하다. 데이터 소유자가 사용할 수 있는 데이터를 서드파티로 텍스트로 전송하는 프로젝트 스크랩을 온라인으로 사용할 수 있습니다. 

 

 

반응형