[2022-03-29] 오늘의 자연어처리

2022. 3. 29. 10:30paper-of-the-day

반응형

 

Linking Emergent and Natural Languages via Corpus Transfer

 

The study of language emergence aims to understand how human languages are shaped by perceptual grounding and communicative intent. Computational approaches to emergent communication (EC) predominantly consider referential games in limited domains and analyze the learned protocol within the game framework. As a result, it remains unclear how the emergent languages from these settings connect to natural languages or provide benefits in real-world language processing tasks, where statistical models trained on large text corpora dominate. In this work, we propose a novel way to establish such a link by corpus transfer, i.e. pretraining on a corpus of emergent language for downstream natural language tasks, which is in contrast to prior work that directly transfers speaker and listener parameters. Our approach showcases non-trivial transfer benefits for two different tasks -- language modeling and image captioning. For example, in a low-resource setup (modeling 2 million natural language tokens), pre-training on an emergent language corpus with just 2 million tokens reduces model perplexity by $24.6\%$ on average across ten natural languages. We also introduce a novel metric to predict the transferability of an emergent language by translating emergent messages to natural language captions grounded on the same images. We find that our translation-based metric highly correlates with the downstream performance on modeling natural languages (for instance $\rho=0.83$ on Hebrew), while topographic similarity, a popular metric in previous work, shows surprisingly low correlation ($\rho=0.003$), hinting that simple properties like attribute disentanglement from synthetic domains might not capture the full complexities of natural language. Our findings also indicate potential benefits of moving language emergence forward with natural language resources and models.

 

언어의 출현에 대한 연구는 인간의 언어가 어떻게 되는지를 이해하는 것을 목표로 한다. 지각적 근거와 커뮤니케이션 의도에 의해 형성됩니다. 계산 긴급통신(EC)에 대한 접근방식은 주로 참조를 고려한다. 제한된 영역에서 게임을 하고 게임 내에서 학습된 프로토콜을 분석합니다. 를 참조할 수 있습니다. 그 결과, 어떻게 새로운 언어들이 유래했는지는 불분명하다. 이러한 설정은 자연어와 연결되거나 실제 환경에서 이점을 제공합니다. 언어 처리 태스크: 통계 모델이 큰 텍스트에 대해 훈련되는 경우 코퍼스가 지배하고 있다. 이 작품에서, 우리는 그러한 연결을 확립하기 위한 참신한 방법을 제안한다. 말뭉치 이동, 즉 비상언어의 말뭉치에 대한 사전 훈련에 의해 다운스트림 자연어 태스크는 이전 작업과는 대조적입니다. 는 스피커 파라미터와 리스너 파라미터를 직접 전송합니다. 델의 접근방식은 언어 모델링과 두 가지 다른 태스크에 대한 비표준 전송 이점 이미지 캡션 예를 들어 리소스가 적은 셋업(모델링 200만)의 경우 자연어 토큰)과 함께 신생 언어 말뭉치에 대한 사전 훈련 200만 개의 토큰으로 모델의 번거로움을 평균 24.6\%$ 절감 자연어 우리는 또한 예측하기 위해 새로운 측정 기준을 도입한다. 긴급 메시지를 번역함으로써 긴급 언어의 전달 가능성 동일한 이미지를 기반으로 한 자연어 캡션입니다. 우리는 그것이 트랜슬레이션 베이스의 메트릭은, 에서의 다운스트림의 퍼포먼스와 높은 관련성을 가지고 있습니다. 자연어 모델링(예: 히브리어에서는 \rho=0.83$) 지형적 유사성은 이전 연구에서 인기 있는 지표로 놀랍게도 보여준다. 낮은 상관 관계($\rho=0.003$)를 통해 속성과 같은 단순한 속성이 있음을 알 수 있습니다. 가상 도메인과의 분리가 전체 복잡성을 캡처하지 못할 수 있음 자연어의 또한 델의 조사결과는 이사가 가져올 수 있는 잠재적인 이점을 나타내고 있습니다. 자연 언어 자원과 모델을 통해 앞으로 나아가는 언어의 출현. 

 

 

Speech-enhanced and Noise-aware Networks for Robust Speech Recognition

 

Compensation for channel mismatch and noise interference is essential for robust automatic speech recognition. Enhanced speech has been introduced into the multi-condition training of acoustic models to improve their generalization ability. In this paper, a noise-aware training framework based on two cascaded neural structures is proposed to jointly optimize speech enhancement and speech recognition. The feature enhancement module is composed of a multi-task autoencoder, where noisy speech is decomposed into clean speech and noise. By concatenating its enhanced, noise-aware, and noisy features for each frame, the acoustic-modeling module maps each feature-augmented frame into a triphone state by optimizing the lattice-free maximum mutual information and cross entropy between the predicted and actual state sequences. On top of the factorized time delay neural network (TDNN-F) and its convolutional variant (CNN-TDNNF), both with SpecAug, the two proposed systems achieve word error rate (WER) of 3.90% and 3.55%, respectively, on the Aurora-4 task. Compared with the best existing systems that use bigram and trigram language models for decoding, the proposed CNN-TDNNF-based system achieves a relative WER reduction of 15.20% and 33.53%, respectively. In addition, the proposed CNN-TDNNF-based system also outperforms the baseline CNN-TDNNF system on the AMI task.

 

채널 불일치 및 노이즈 간섭에 대한 보상은 다음과 같은 경우에 필수적입니다. 강력한 자동 음성 인식. 향상된 스피치가 에 도입되었습니다. 일반화를 개선하기 위한 음향 모델의 다조건 훈련 능력. 이 문서에서는 2개의 캐스케이드에 기반한 노이즈 인식 훈련 프레임워크 신경 구조는 음성 향상과 음성을 공동으로 최적화하기 위해 제안된다. 인식. 기능 확장 모듈은 멀티태스킹으로 구성됩니다. 노이즈가 있는 음성이 깨끗한 음성과 노이즈로 분해되는 자동 인코더. 타고 각 프레임의 확장, 노이즈 인식 및 노이즈가 많은 기능을 접속하여 음향 주파수 모듈은 각 기능 주파수 프레임을 트라이폰에 매핑합니다. 격자가 없는 최대 상호 정보 및 교차를 최적화하여 상태 표시 예측된 상태와 실제 상태 시퀀스 사이의 엔트로피. 그 위에 인수분해 시간 지연 뉴럴 네트워크(TDNN-F) 및 그 컨볼루션 바리안트 (CNN-TDNNF) 모두 SpecAug를 사용하여 제안된 두 시스템이 워드 오류를 달성합니다. Aurora-4 과제에서 각각 3.90%와 3.55%의 비율(Aurora-4 과제). 와 비교하여 빅램과 트라이그램 언어 모델을 사용하는 현존하는 최고의 시스템으로 디코딩, 제안된 CNN-TDNNF 기반 시스템은 상대적 WER 감소를 달성한다. 각각 15.20%와 33.53%입니다. 또한, 제안된 CNN-TDNNF 기반은 시스템은 AMI 태스크에서도 기준 CNN-TDNNF 시스템을 능가합니다. 

 

 

Single Model Ensemble for Subword Regularized Models in Low-Resource Machine Translation

 

Subword regularizations use multiple subword segmentations during training to improve the robustness of neural machine translation models. In previous subword regularizations, we use multiple segmentations in the training process but use only one segmentation in the inference. In this study, we propose an inference strategy to address this discrepancy. The proposed strategy approximates the marginalized likelihood by using multiple segmentations including the most plausible segmentation and several sampled segmentations. Because the proposed strategy aggregates predictions from several segmentations, we can regard it as a single model ensemble that does not require any additional cost for training. Experimental results show that the proposed strategy improves the performance of models trained with subword regularization in low-resource machine translation tasks.

 

서브워드 정규화에서는 트레이닝 중에 여러 서브워드 세그먼테이션을 사용하여 신경 기계 번역 모델의 견고성을 개선합니다. 이전에 서브워드 정규화, 트레이닝 프로세스에서 복수의 세그먼트화를 사용합니다. 단, 추론에 하나의 분할만 사용합니다. 이 연구에서, 우리는 다음을 제안한다. 이 차이를 해결하기 위한 추론 전략. 제안된 전략 여러 분할을 사용하여 소외된 우도에 근접한다. 가장 그럴듯한 분할과 여러 표본 분할을 포함합니다. 제안된 전략은 몇 가지 예측 결과를 집계하기 때문이다. 분할, 우리는 그것을 단일 모델 앙상블이라고 간주할 수 있다. 트레이닝에 추가 비용이 필요합니다. 실험 결과에 따르면 제안된 전략은 하위 단어로 교육된 모델의 성능을 향상시킵니다. 리소스 부족 시스템 변환 태스크에서 정규화. 

 

 

반응형