[2022-02-14] 오늘의 자연어처리

2022. 2. 14. 10:30paper-of-the-day

반응형

 

TamilEmo: Finegrained Emotion Detection Dataset for Tamil

 

Emotional Analysis from textual input has been considered both a challenging and interesting task in Natural Language Processing. However, due to the lack of datasets in low-resource languages (i.e. Tamil), it is difficult to conduct research of high standard in this area. Therefore we introduce this labelled dataset (a largest manually annotated dataset of more than 42k Tamil YouTube comments, labelled for 31 emotions including neutral) for emotion recognition. The goal of this dataset is to improve emotion detection in multiple downstream tasks in Tamil. We have also created three different groupings of our emotions (3-class, 7-class and 31-class) and evaluated the model's performance on each category of the grouping. Our MURIL-base model has achieved a 0.60 macro average F1-score across our 3-class group dataset. With 7-class and 31-class groups, the Random Forest model performed well with a macro average F1-scores of 0.42 and 0.29 respectively.

 

텍스트 입력으로부터의 감정 분석은 둘 다 어려운 것으로 간주되어 왔다. 그리고 자연어 처리에서 흥미로운 작업을 수행했습니다. 하지만, 부족하기 때문에. 저자원 언어(예: 타밀어)의 데이터 세트 수행이 어렵다. 이 분야에서 높은 수준의 연구 따라서 라벨이 붙은 것을 소개합니다. 데이터 세트(42k Tamil YouTube가 넘는 수동 주석 데이터 세트) 논평, 감정 인식을 위해 중립을 포함한 31개 감정에 대한 라벨. 이 데이터 세트의 목표는 여러 다운스트림에서 감정 감지를 개선하는 것이다. 타밀어로 된 태스크 우리는 또한 우리의 감정의 세 가지 다른 그룹을 만들었다. (3등급, 7등급, 31등급) 및 각각에 대해 모델의 성능을 평가했습니다. 범주입니다. MURIL 기반 모델은 0.60 매크로를 달성했다. 3등급 그룹 데이터셋의 평균 F1 점수. 7급 및 31급 지원 그룹, 랜덤 포레스트 모형은 매크로 평균 F1-점수를 사용하여 잘 수행되었습니다. 각각 0.42와 0.29입니다. 

 

 

Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

 

Pretrained language models (PLMs) have demonstrated remarkable performance in various natural language processing tasks: Unidirectional PLMs (e.g., GPT) are well known for their superior text generation capabilities; bidirectional PLMs (e.g., BERT) have been the prominent choice for natural language understanding (NLU) tasks. While both types of models have achieved promising few-shot learning performance, their potential for zero-shot learning has been underexplored. In this paper, we present a simple approach that uses both types of PLMs for fully zero-shot learning of NLU tasks without requiring any task-specific data: A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as the training data for fine-tuning a bidirectional PLM. With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class.

 

사전 훈련된 언어 모델(PLM)은 다음과 같은 분야에서 놀라운 성능을 입증했다. 다양한 자연어 처리 작업: 단방향 PLM(예: GPT)은 다음과 같다. 뛰어난 텍스트 생성 기능으로 잘 알려진 양방향 PLM (예: BERT)는 자연어 이해를 위한 두드러진 선택이었다. (NLU) 작업. 두 유형의 모델 모두 유망한 퓨샷을 달성했지만 학습 성과, 제로샷 학습의 잠재력은 다음과 같다. 미발견의 본 논문에서, 우리는 두 가지 유형을 모두 사용하는 간단한 접근법을 제시한다. 아무런 요구 없이 NLU 작업의 완전한 제로샷 학습을 위한 PLM의 작업별 데이터: 단방향 PLM은 클래스 조건 텍스트를 생성합니다. 프롬프트에 의해 안내되며, 이것은 미세 조정에 대한 교육 데이터로 사용됩니다. 양방향 PLM 품질교육데이터는 발생량에 따라 선정 확률 및 정규화 기법(레이블 평활 및 시간적) 더 나은 일반화를 위해 미세 조정 단계에 적용된 앙상블) 및 안정성, 우리의 접근 방식은 7가지에 걸쳐 강력한 성능을 입증한다. GLUE 벤치마크의 분류 작업(예: MNLI-m/mm에 72.3/73.8 및 SST-2에서 92.8), 제로샷 프롬프트 방법 및 32를 사용하여 강력한 퓨샷 접근법과 동등한 결과를 달성한다. 클래스당 교육 샘플. 

 

 

Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models

 

Pre-trained language models (LMs) are shown to easily generate toxic language. In this work, we systematically explore domain-adaptive training to reduce the toxicity of language models. We conduct this study on three dimensions: training corpus, model size, and parameter efficiency. For the training corpus, we propose to leverage the generative power of LMs and generate nontoxic datasets for domain-adaptive training, which mitigates the exposure bias and is shown to be more data-efficient than using a curated pre-training corpus. We demonstrate that the self-generation method consistently outperforms the existing baselines across various model sizes on both automatic and human evaluations, even when it uses a 1/3 smaller training corpus. We then comprehensively study detoxifying LMs with parameter sizes ranging from 126M up to 530B (3x larger than GPT-3), a scale that has never been studied before. We find that i) large LMs have similar toxicity levels as smaller ones given the same pre-training corpus, and ii) large LMs require more endeavor to detoxify. We also explore parameter-efficient training methods for detoxification. We demonstrate that adding and training adapter-only layers in LMs not only saves a lot of parameters but also achieves a better trade-off between toxicity and perplexity than whole model adaptation for the large-scale models.

 

사전 훈련된 언어 모델(LM)은 쉽게 독성을 생성하는 것으로 나타났다. 언어 이 연구에서, 우리는 체계적으로 도메인 적응 훈련을 탐구한다. 언어 모델의 독성을 감소시킵니다. 우리는 세 가지에 대해 이 연구를 수행한다. 차원: 교육 말뭉치, 모델 크기 및 매개 변수 효율성. 를 위해 훈련 말뭉치, 우리는 LM의 생성력을 활용할 것을 제안한다. 도메인 확장 교육을 위한 무독성 데이터 세트를 생성하고, 이를 완화합니다. 노출 편향 및 큐레이션된 데이터보다 더 효율적인 것으로 나타났다. 사전 훈련 말뭉치 우리는 자가 생성 방법이 다양한 모델 크기에 걸쳐 지속적으로 기존 기준선을 능가합니다. 1/3 소규모 교육을 사용하는 경우에도 자동 및 인간 평가 모두 말뭉치. 그리고 나서 우리는 매개 변수 크기를 가진 해독 LM을 포괄적으로 연구한다. 126M에서 530B(GPT-3보다 3배 더 큰 규모)까지 다양하며, 지금까지 한 번도 이 척도를 사용한 적이 없다. 전에 연구된 적이 있다. 우리는 i) 큰 LM이 다음과 유사한 독성 수준을 가지고 있음을 발견했다. 동일한 사전 훈련 말뭉치가 주어진 작은 것, 그리고 ii) 큰 LM은 더 많은 것을 필요로 한다. 해독에 힘쓰다 우리는 또한 다음에 대한 매개 변수 효율적인 교육 방법을 탐구한다. 해독 우리는 어댑터 전용 계층을 추가하고 교육하는 것을 보여준다. LM은 많은 매개 변수를 저장할 뿐만 아니라 더 나은 트레이드오프를 달성한다. 전체 모델 적응보다 더 많은 독성과 복잡도 사이 모델들. 

 

 

반응형