2022. 3. 28. 10:30ㆍpaper-of-the-day
EmoCaps: Emotion Capsule based Model for Conversational Emotion Recognition
Emotion recognition in conversation (ERC) aims to analyze the speaker's state and identify their emotion in the conversation. Recent works in ERC focus on context modeling but ignore the representation of contextual emotional tendency. In order to extract multi-modal information and the emotional tendency of the utterance effectively, we propose a new structure named Emoformer to extract multi-modal emotion vectors from different modalities and fuse them with sentence vector to be an emotion capsule. Furthermore, we design an end-to-end ERC model called EmoCaps, which extracts emotion vectors through the Emoformer structure and obtain the emotion classification results from a context analysis model. Through the experiments with two benchmark datasets, our model shows better performance than the existing state-of-the-art models.
대화 중 감정인식(ERC)은 화자의 상태를 분석하는 것을 목표로 한다. 대화에서 그들의 감정을 확인하세요. ERC의 최근 연구는 다음과 같습니다. 문맥 모델링이지만 문맥 감정의 표현은 무시합니다. 경향 멀티모달 정보 및 감정 추출을 위해 효과적으로 발언의 경향, 우리는 새로운 구조를 제안합니다. 이모포머는 다양한 양식에서 다중 모달 감정 벡터를 추출하고 감정의 캡슐이 되도록 문장의 벡터와 결합하는 거죠 게다가 델은 EmoCaps라고 하는 감정 벡터를 추출하는 엔드 투 엔드 ERC 모델 이모포머 구조와 감정 분류 결과를 얻습니다. 콘텍스트 분석 모델 2개의 벤치마크 데이터 세트를 사용한 실험을 통해 기존 최첨단 모델보다 뛰어난 성능을 발휘합니다.
Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation
End-to-end speech-to-speech translation (S2ST) without relying on intermediate text representations is a rapidly emerging frontier of research. Recent works have demonstrated that the performance of such direct S2ST systems is approaching that of conventional cascade S2ST when trained on comparable datasets. However, in practice, the performance of direct S2ST is bounded by the availability of paired S2ST training data. In this work, we explore multiple approaches for leveraging much more widely available unsupervised and weakly-supervised speech and text data to improve the performance of direct S2ST based on Translatotron 2. With our most effective approaches, the average translation quality of direct S2ST on 21 language pairs on the CVSS-C corpus is improved by +13.6 BLEU (or +113% relatively), as compared to the previous state-of-the-art trained without additional data. The improvements on low-resource language are even more significant (+398% relatively on average). Our comparative studies suggest future research directions for S2ST and speech representation learning.
엔드 투 엔드 스피치 변환(S2ST)에 의존하지 않고 중간 텍스트 표현은 빠르게 떠오르는 연구의 최전방이다. 최근 연구는 그러한 직접 S2의 성능이ST 시스템 비교 가능한 것에 대해 훈련받았을 때 기존의 캐스케이드 S2ST에 근접하고 있다. 데이터 세트 그러나 실제로 직접 S2ST의 성능은 다음과 같이 제한된다. 쌍으로 구성된 S2ST 교육 데이터의 가용성. 이 작업에서는 다음과 같은 사항을 조사합니다. 훨씬 더 광범위하게 이용 가능한 비감독 및 직접의 성능을 향상시키기 위해 약하게 감독되는 음성 및 텍스트 데이터 S2ST는 Translatotron 2를 기반으로 합니다. 델의 가장 효과적인 접근방식을 통해 평균적인 CVSS-C 말뭉치에 있는 21개 언어 쌍에 대한 직접 SS2ST의 번역 품질은 이전 대비 +13.6 BLEU(또는 상대적으로 +113%) 향상 추가 데이터 없이 최첨단의 훈련을 받았습니다. 의 개선점 저자원 언어는 훨씬 더 중요합니다(+398%의 상대적입니다. 우리의 비교 연구는 S2ST와 스피치에 대한 미래 연구 방향을 제시한다. 표현 학습
Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation
End-to-end speech-to-speech translation (S2ST) without relying on intermediate text representations is a rapidly emerging frontier of research. Recent works have demonstrated that the performance of such direct S2ST systems is approaching that of conventional cascade S2ST when trained on comparable datasets. However, in practice, the performance of direct S2ST is bounded by the availability of paired S2ST training data. In this work, we explore multiple approaches for leveraging much more widely available unsupervised and weakly-supervised speech and text data to improve the performance of direct S2ST based on Translatotron 2. With our most effective approaches, the average translation quality of direct S2ST on 21 language pairs on the CVSS-C corpus is improved by +13.6 BLEU (or +113% relatively), as compared to the previous state-of-the-art trained without additional data. The improvements on low-resource language are even more significant (+398% relatively on average). Our comparative studies suggest future research directions for S2ST and speech representation learning.
엔드 투 엔드 스피치 변환(S2ST)에 의존하지 않고 중간 텍스트 표현은 빠르게 떠오르는 연구의 최전방이다. 최근 연구는 그러한 직접 S2의 성능이ST 시스템 비교 가능한 것에 대해 훈련받았을 때 기존의 캐스케이드 S2ST에 근접하고 있다. 데이터 세트 그러나 실제로 직접 S2ST의 성능은 다음과 같이 제한된다. 쌍으로 구성된 S2ST 교육 데이터의 가용성. 이 작업에서는 다음과 같은 사항을 조사합니다. 훨씬 더 광범위하게 이용 가능한 비감독 및 직접의 성능을 향상시키기 위해 약하게 감독되는 음성 및 텍스트 데이터 S2ST는 Translatotron 2를 기반으로 합니다. 델의 가장 효과적인 접근방식을 통해 평균적인 CVSS-C 말뭉치에 있는 21개 언어 쌍에 대한 직접 SS2ST의 번역 품질은 이전 대비 +13.6 BLEU(또는 상대적으로 +113%) 향상 추가 데이터 없이 최첨단의 훈련을 받았습니다. 의 개선점 저자원 언어는 훨씬 더 중요합니다(+398%의 상대적입니다. 우리의 비교 연구는 S2ST와 스피치에 대한 미래 연구 방향을 제시한다. 표현 학습
'paper-of-the-day' 카테고리의 다른 글
[2022-03-30] 오늘의 자연어처리 (0) | 2022.03.30 |
---|---|
[2022-03-29] 오늘의 자연어처리 (0) | 2022.03.29 |
[2022-03-25] 오늘의 자연어처리 (0) | 2022.03.25 |
[2022-03-24] 오늘의 자연어처리 (0) | 2022.03.24 |
[2022-03-23] 오늘의 자연어처리 (0) | 2022.03.23 |