[2022-02-08] 오늘의 자연어처리

2022. 2. 8. 10:30paper-of-the-day

반응형

 

mSLAM: Massively multilingual joint pre-training for speech and text

 

We present mSLAM, a multilingual Speech and LAnguage Model that learns cross-lingual cross-modal representations of speech and text by pre-training jointly on large amounts of unlabeled speech and text in multiple languages. mSLAM combines w2v-BERT pre-training on speech with SpanBERT pre-training on character-level text, along with Connectionist Temporal Classification (CTC) losses on paired speech and transcript data, to learn a single model capable of learning from and representing both speech and text signals in a shared representation space. We evaluate mSLAM on several downstream speech understanding tasks and find that joint pre-training with text improves quality on speech translation, speech intent classification and speech language-ID while being competitive on multilingual ASR, when compared against speech-only pre-training. Our speech translation model demonstrates zero-shot text translation without seeing any text translation data, providing evidence for cross-modal alignment of representations. mSLAM also benefits from multi-modal fine-tuning, further improving the quality of speech translation by directly leveraging text translation data during the fine-tuning process. Our empirical analysis highlights several opportunities and challenges arising from large-scale multimodal pre-training, suggesting directions for future research.

 

우리는 학습하는 다국어 음성 및 LANguage 모델인 mSLAM을 제시한다. 사전 훈련에 의한 언어 교차 음성 및 텍스트 표현 여러 언어로 된 라벨이 부착되지 않은 대량의 음성 및 텍스트에 대한 공동 작업. mSLAM은 w2v-BERT 음성 사전 훈련과 SpanBERT에 대한 사전 훈련을 결합한다. 문자 수준 텍스트, 연결주의 시간 분류(CTC) 쌍체 음성 및 스크립트 데이터의 손실, 다음을 수행할 수 있는 단일 모델 학습 공유된 음성 및 텍스트 신호로부터 학습 및 표시 표현 공간. 우리는 여러 다운스트림 음성에서 mSLAM을 평가한다. 과제를 이해하고 텍스트와의 공동 사전 교육이 품질을 향상시킨다는 것을 발견한다. 음성 번역, 음성 의도 분류 및 음성 언어-ID에 대한 다국어 ASR에서 경쟁력을 갖췄지만, 음성 전용과 비교했을 때 사전 훈련 우리의 음성 번역 모델은 제로샷 텍스트를 보여준다. 텍스트 번역 데이터를 보지 않고 번역, 에 대한 증거를 제공 표현의 교차 모달 정렬. mSLAM은 또한 다중 모달로부터 이익을 얻는다. 미세 조정, 직접 음성 번역의 품질을 더욱 향상시킨다. 미세 조정 프로세스 중에 텍스트 변환 데이터를 활용합니다. 우리의 경험적 분석은 다음과 같은 여러 기회와 과제를 강조한다. 향후 연구 방향을 제시하는 대규모 멀티모달 사전 교육. 

 

 

Zero-Shot Aspect-Based Sentiment Analysis

 

Aspect-based sentiment analysis (ABSA) typically requires in-domain annotated data for supervised training/fine-tuning. It is a big challenge to scale ABSA to a large number of new domains. This paper aims to train a unified model that can perform zero-shot ABSA without using any annotated data for a new domain. We propose a method called contrastive post-training on review Natural Language Inference (CORN). Later ABSA tasks can be cast into NLI for zero-shot transfer. We evaluate CORN on ABSA tasks, ranging from aspect extraction (AE), aspect sentiment classification (ASC), to end-to-end aspect-based sentiment analysis (E2E ABSA), which show ABSA can be conducted without any human annotated ABSA data.

 

ABSA(Aspect-based emotionalysis)는 일반적으로 도메인 내 주석이 필요하다. 지도 교육/미세 조정을 위한 데이터. AB를 확장하는 것은 큰 과제이다.SA 많은 수의 새 도메인으로 이동합니다. 본 논문은 다음과 같은 통합 모델을 교육하는 것을 목표로 한다. 는 새 도메인에 주석이 달린 데이터를 사용하지 않고 제로샷 ABSA를 수행할 수 있습니다. 우리는 자연어 검토에 대한 대조적인 사후 훈련이라고 불리는 방법을 제안한다. 추론(CORN). 이후 ABSA 작업은 제로샷 전송을 위해 NLI로 캐스팅될 수 있다. 우리는 측면 추출(AE), 측면의 범위에서 ABSA 작업에 대한 CON을 평가한다. 감정 분류(ASC), 종단 간 측면 기반 감정 분석 사람이 주석을 달지 않아도 ABSA가 수행될 수 있음을 보여주는 (E2E ABSA)SA 데이터. 

 

 

mSLAM: Massively multilingual joint pre-training for speech and text

 

We present mSLAM, a multilingual Speech and LAnguage Model that learns cross-lingual cross-modal representations of speech and text by pre-training jointly on large amounts of unlabeled speech and text in multiple languages. mSLAM combines w2v-BERT pre-training on speech with SpanBERT pre-training on character-level text, along with Connectionist Temporal Classification (CTC) losses on paired speech and transcript data, to learn a single model capable of learning from and representing both speech and text signals in a shared representation space. We evaluate mSLAM on several downstream speech understanding tasks and find that joint pre-training with text improves quality on speech translation, speech intent classification and speech language-ID while being competitive on multilingual ASR, when compared against speech-only pre-training. Our speech translation model demonstrates zero-shot text translation without seeing any text translation data, providing evidence for cross-modal alignment of representations. mSLAM also benefits from multi-modal fine-tuning, further improving the quality of speech translation by directly leveraging text translation data during the fine-tuning process. Our empirical analysis highlights several opportunities and challenges arising from large-scale multimodal pre-training, suggesting directions for future research.

 

우리는 학습하는 다국어 음성 및 LANguage 모델인 mSLAM을 제시한다. 사전 훈련에 의한 언어 교차 음성 및 텍스트 표현 여러 언어로 된 라벨이 부착되지 않은 대량의 음성 및 텍스트에 대한 공동 작업. mSLAM은 w2v-BERT 음성 사전 훈련과 SpanBERT에 대한 사전 훈련을 결합한다. 문자 수준 텍스트, 연결주의 시간 분류(CTC) 쌍체 음성 및 스크립트 데이터의 손실, 다음을 수행할 수 있는 단일 모델 학습 공유된 음성 및 텍스트 신호로부터 학습 및 표시 표현 공간. 우리는 여러 다운스트림 음성에서 mSLAM을 평가한다. 과제를 이해하고 텍스트와의 공동 사전 교육이 품질을 향상시킨다는 것을 발견한다. 음성 번역, 음성 의도 분류 및 음성 언어-ID에 대한 다국어 ASR에서 경쟁력을 갖췄지만, 음성 전용과 비교했을 때 사전 훈련 우리의 음성 번역 모델은 제로샷 텍스트를 보여준다. 텍스트 번역 데이터를 보지 않고 번역, 에 대한 증거를 제공 표현의 교차 모달 정렬. mSLAM은 또한 다중 모달로부터 이익을 얻는다. 미세 조정, 직접 음성 번역의 품질을 더욱 향상시킨다. 미세 조정 프로세스 중에 텍스트 변환 데이터를 활용합니다. 우리의 경험적 분석은 다음과 같은 여러 기회와 과제를 강조한다. 향후 연구 방향을 제시하는 대규모 멀티모달 사전 교육. 

 

 

반응형