2022. 3. 7. 10:30ㆍpaper-of-the-day
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models
The state-of-the-art Mixture-of-Experts (short as MoE) architecture has achieved several remarkable successes in terms of increasing model capacity. However, MoE has been hindered widespread adoption due to complexity, communication costs, and training instability. Here we present a novel MoE architecture based on matrix product operators (MPO) from quantum many-body physics. It can decompose an original matrix into central tensors (containing the core information) and auxiliary tensors (with only a small proportion of parameters). With the decomposed MPO structure, we can reduce the parameters of the original MoE architecture by sharing a global central tensor across experts and keeping expert-specific auxiliary tensors. We also design the gradient mask strategy for the tensor structure of MPO to alleviate the overfitting problem. Experiments on the three well-known downstream natural language datasets based on GPT2 show improved performance and efficiency in increasing model capacity (7.26x fewer parameters with the same amount of experts). We additionally demonstrate an improvement in the positive transfer effects of our approach for multi-task learning.
MoE처럼 짧은 최신 전문가 혼합 아키텍처는 모델 용량 증가 측면에서 몇 가지 놀라운 성공을 거두었습니다. 그러나 MoE는 복잡성으로 인해 광범위한 채택을 방해해 왔다. 통신 비용 및 교육 불안정성. 여기서 우리는 소설 MoE를 발표한다. 양자 다체의 MPO(Matrix Product Operator) 기반 아키텍처 물리학. 이것은 원래의 행렬을 중심 텐서로 분해할 수 있다. (핵심 정보) 및 보조 텐서(약간의 비율만 포함) 매개 변수). 분해된 MPO 구조로, 우리는 의 매개 변수를 줄일 수 있다. 전문가 간에 글로벌 중앙 텐서를 공유함으로써 독창적인 MoE 아키텍처 전문가 전용 보조 텐서를 보관하고 있습니다. 우리는 그라데이션 마스크도 디자인합니다. 과적합 문제를 완화하기 위한 MPO의 텐서 구조에 대한 전략. 잘 알려진 세 가지 다운스트림 자연어 데이터 세트에 대한 실험 기반 GPT2에서 모델 용량 증가에 있어 향상된 성능과 효율성을 보여줍니다. (동일한 수의 전문가와 함께 매개 변수 7.26배 감소). 우리는 추가적으로 에 대한 우리의 접근법의 긍정적인 전달 효과의 개선을 입증한다. 멀티태스킹
TSAM: A Two-Stream Attention Model for Causal Emotion Entailment
Causal Emotion Entailment (CEE) aims to discover the potential causes behind an emotion in a conversational utterance. Previous works formalize CEE as independent utterance pair classification problems, with emotion and speaker information neglected. From a new perspective, this paper considers CEE in a joint framework. We classify multiple utterances synchronously to capture the correlations between utterances in a global view and propose a Two-Stream Attention Model (TSAM) to effectively model the speaker's emotional influences in the conversational history. Specifically, the TSAM comprises three modules: Emotion Attention Network (EAN), Speaker Attention Network (SAN), and interaction module. The EAN and SAN incorporate emotion and speaker information in parallel, and the subsequent interaction module effectively interchanges relevant information between the EAN and SAN via a mutual BiAffine transformation. Experimental results on a benchmark dataset demonstrate that our model achieves new State-Of-The-Art (SOTA) performance and outperforms baselines remarkably.
인과적 감정 수반(CEE)은 뒤에 숨겨진 잠재적 원인을 발견하는 것을 목표로 한다. 대화 속의 감정 이전 연구에서는 CEE를 다음과 같이 공식화하였다. 감정과 화자의 독립적인 발화 쌍 분류 문제 무시된 정보 새로운 관점에서, 이 논문은 CEE를 고려한다. 공동 틀 우리는 여러 발언들을 동기적으로 분류하여 다음을 포착한다. 글로벌 관점에서의 발언과 2-스트림 제안 사이의 상관관계 화자의 정서적 영향을 효과적으로 모델링하기 위한 주의 모델(TSAM) 대화 역사에 있어 특히, TSAM은 다음과 같은 세 가지 모듈로 구성됩니다. 감정 주의 네트워크(EAN), 스피커 주의 네트워크(SAN), 상호 작용 모듈. EAN 및 SAN은 감정 및 화자 정보를 통합합니다. 병렬로, 그리고 후속 상호작용 모듈은 효과적으로 교환한다. 상호 BiAffine을 통해 EAN과 SAN 간의 관련 정보 변신. 벤치마크 데이터 세트에 대한 실험 결과는 다음을 입증한다. 우리의 모델은 새로운 최첨단(SOTA) 성능을 달성하고 성능을 능가합니다. 기준선이 현저하게 나타납니다.
QaNER: Prompting Question Answering Models for Few-shot Named Entity Recognition
Recently, prompt-based learning for pre-trained language models has succeeded in few-shot Named Entity Recognition (NER) by exploiting prompts as task guidance to increase label efficiency. However, previous prompt-based methods for few-shot NER have limitations such as a higher computational complexity, poor zero-shot ability, requiring manual prompt engineering, or lack of prompt robustness. In this work, we address these shortcomings by proposing a new prompt-based learning NER method with Question Answering (QA), called QaNER. Our approach includes 1) a refined strategy for converting NER problems into the QA formulation; 2) NER prompt generation for QA models; 3) prompt-based tuning with QA models on a few annotated NER examples; 4) zero-shot NER by prompting the QA model. Comparing the proposed approach with previous methods, QaNER is faster at inference, insensitive to the prompt quality, and robust to hyper-parameters, as well as demonstrating significantly better low-resource performance and zero-shot capability.
최근에는 사전 훈련된 언어 모델에 대한 프롬프트 기반 학습이 성공하고 있다. 프롬프트를 작업으로 공격하여 퓨샷 명명된 엔티티 인식(NER) 가이드라인을 참조하십시오. 그러나 이전 프롬프트 기반 메서드 퓨샷 NER의 경우 더 높은 계산 복잡성과 같은 한계가 있다. 제로샷 능력이 떨어짐, 수동 프롬프트 엔지니어링 필요 또는 프롬프트 부족 강건함 이 작업에서, 우리는 새로운 제안을 함으로써 이러한 단점을 해결한다. QaNER라고 하는 QA(Question Answering)를 통한 프롬프트 기반 학습 NER 방법. 우리의 접근법은 1) NER 문제를 다음으로 변환하기 위한 정제된 전략을 포함한다. QA 공식화, 2) QA 모델에 대한 NER 프롬프트 생성, 3) 프롬프트 기반 몇 가지 주석이 달린 NER 예제에 대한 QA 모델과의 튜닝; 4) 제로샷 NER by QA 모델을 묻습니다. 제안된 접근방식을 이전 방법과 비교하여 QaNER는 추론이 더 빠르고, 즉각적인 품질에 민감하지 않으며, 보다 강력하다. 훨씬 더 나은 저리소스를 입증하는 것은 물론 성능 및 제로샷 기능을 제공합니다.
'paper-of-the-day' 카테고리의 다른 글
[2022-03-15] 오늘의 자연어처리 (0) | 2022.03.15 |
---|---|
[2022-03-14] 오늘의 자연어처리 (0) | 2022.03.14 |
[2022-03-04] 오늘의 자연어처리 (0) | 2022.03.04 |
[2022-03-03] 오늘의 자연어처리 (0) | 2022.03.03 |
[2022-02-28] 오늘의 자연어처리 (0) | 2022.02.28 |