[2022-02-11] 오늘의 자연어처리

2022. 2. 11. 10:30paper-of-the-day

반응형

 

Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

 

Pretrained language models (PLMs) have demonstrated remarkable performance in various natural language processing tasks: Unidirectional PLMs (e.g., GPT) are well known for their superior text generation capabilities; bidirectional PLMs (e.g., BERT) have been the prominent choice for natural language understanding (NLU) tasks. While both types of models have achieved promising few-shot learning performance, their potential for zero-shot learning has been underexplored. In this paper, we present a simple approach that uses both types of PLMs for fully zero-shot learning of NLU tasks without requiring any task-specific data: A unidirectional PLM generates class-conditioned texts guided by prompts, which are used as the training data for fine-tuning a bidirectional PLM. With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class.

 

사전 훈련된 언어 모델(PLM)은 다음과 같은 분야에서 놀라운 성능을 입증했다. 다양한 자연어 처리 작업: 단방향 PLM(예: GPT)은 다음과 같다. 뛰어난 텍스트 생성 기능으로 잘 알려진 양방향 PLM (예: BERT)는 자연어 이해를 위한 두드러진 선택이었다. (NLU) 작업. 두 유형의 모델 모두 유망한 퓨샷을 달성했지만 학습 성과, 제로샷 학습의 잠재력은 다음과 같다. 미발견의 본 논문에서, 우리는 두 가지 유형을 모두 사용하는 간단한 접근법을 제시한다. 아무런 요구 없이 NLU 작업의 완전한 제로샷 학습을 위한 PLM의 작업별 데이터: 단방향 PLM은 클래스 조건 텍스트를 생성합니다. 프롬프트에 의해 안내되며, 이것은 미세 조정에 대한 교육 데이터로 사용됩니다. 양방향 PLM 품질교육데이터는 발생량에 따라 선정 확률 및 정규화 기법(레이블 평활 및 시간적) 더 나은 일반화를 위해 미세 조정 단계에 적용된 앙상블) 및 안정성, 우리의 접근 방식은 7가지에 걸쳐 강력한 성능을 입증한다. GLUE 벤치마크의 분류 작업(예: MNLI-m/mm에 72.3/73.8 및 SST-2에서 92.8), 제로샷 프롬프트 방법 및 32를 사용하여 강력한 퓨샷 접근법과 동등한 결과를 달성한다. 클래스당 교육 샘플. 

 

 

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

 

Generating images from textual descriptions has gained a lot of attention. Recently, DALL-E, a multimodal transformer language model, and its variants have shown high-quality text-to-image generation capabilities with a simple architecture and training objective, powered by large-scale training data and computation. However, despite the interesting image generation results, there has not been a detailed analysis on how to evaluate such models. In this work, we investigate the reasoning capabilities and social biases of such text-to-image generative transformers in detail. First, we measure four visual reasoning skills: object recognition, object counting, color recognition, and spatial relation understanding. For this, we propose PaintSkills, a diagnostic dataset and evaluation toolkit that measures these four visual reasoning skills. Second, we measure the text alignment and quality of the generated images based on pretrained image captioning, image-text retrieval, and image classification models. Third, we assess social biases in the models. For this, we suggest evaluation of gender and racial biases of text-to-image generation models based on a pretrained image-text retrieval model and human evaluation. In our experiments, we show that recent text-to-image models perform better in recognizing and counting objects than recognizing colors and understanding spatial relations, while there exists a large gap between model performances and oracle accuracy on all skills. Next, we demonstrate that recent text-to-image models learn specific gender/racial biases from web image-text pairs. We also show that our automatic evaluations of visual reasoning skills and gender bias are highly correlated with human judgments. We hope our work will help guide future progress in improving text-to-image models on visual reasoning skills and social biases. Code and data at: this https URL

 

텍스트 설명에서 이미지를 생성하는 것이 많은 관심을 받고 있다. 최근에는 다중 모달 변압기 언어 모델인 DAL-E와 그 변형 간단한 텍스트-이미지 생성 기능을 보여주었습니다. 대규모 교육 데이터를 기반으로 하는 아키텍처 및 교육 목표 계산. 그러나, 흥미로운 이미지 생성 결과에도 불구하고, 거기에는 이러한 모델을 평가하는 방법에 대한 자세한 분석이 이루어지지 않았다. 이 작품에서는, 우리는 그러한 추리 능력과 사회적 편견을 조사한다. 텍스트-이미지 생성 변압기를 자세히 볼 수 있습니다. 먼저, 우리는 네 개의 시각적인 것을 측정한다. 추론 기술: 객체 인식, 객체 계수, 색상 인식 및 공간 관계 이해 이를 위해 진단 프로그램인 PaintSkills를 제안한다. 이러한 네 가지 시각적 추론을 측정하는 데이터 세트 및 평가 툴킷 둘째, 우리는 생성된 텍스트의 정렬과 품질을 측정합니다. 사전 훈련된 이미지 캡션, 이미지 텍스트 검색 및 이미지 기반 이미지 분류 모델. 셋째, 우리는 모델에서 사회적 편견을 평가한다. 이거를 위해서. 우리는 텍스트-이미지 생성의 성별 및 인종 편견의 평가를 제안한다. 사전 훈련된 이미지 텍스트 검색 모델과 인간 평가에 기반한 모델. 우리의 실험에서, 우리는 최근의 텍스트-이미지 모델이 다음에서 더 잘 수행된다는 것을 보여준다. 색을 인식하고 이해하는 것보다 물체를 인식하고 세는 것 모델 성능 사이에 큰 차이가 존재하는 동안 공간 관계 모든 스킬에 대한 오라클의 정확성을 제공합니다. 다음으로, 우리는 최근의 텍스트-이미지 모델은 웹 이미지-텍스트로부터 특정 성별/성별 편향을 학습한다. 우리는 또한 시각적 추론 기술의 자동 평가가 그리고 성별 편견은 인간의 판단과 밀접한 관련이 있다. 우리는 우리의 일을 희망한다. 시각에서 텍스트-이미지 모델을 개선하는 데 있어 향후 진행 상황을 안내하는 데 도움이 될 것이다. 추리 능력과 사회적 편견. 코드 및 데이터 위치: 이 https URL 

 

 

TimeLMs: Diachronic Language Models from Twitter

 

Despite its importance, the time variable has been largely neglected in the NLP and language model literature. In this paper, we present TimeLMs, a set of language models specialized on diachronic Twitter data. We show that a continual learning strategy contributes to enhancing Twitter-based language models' capacity to deal with future and out-of-distribution tweets, while making them competitive with standardized and more monolithic benchmarks. We also perform a number of qualitative analyses showing how they cope with trends and peaks in activity involving specific named entities or concept drift.

 

그것의 중요성에도 불구하고, 시간 변수는 대체로 무시되어 왔다. NLP 및 언어 모델 문헌. 이 논문에서, 우리는 시간을 제시한다.LMs, 일련의 전자 트위터 데이터에 특화된 언어 모델 우리는 그것을 보여준다 지속적인 학습 전략은 트위터 기반 언어 향상에 기여한다. 향후 및 배포되지 않은 트윗을 처리할 수 있는 모델의 역량 표준화된 획일적인 벤치마크를 통해 경쟁력을 확보할 수 있습니다. 우리가 또한 추세에 대처하는 방법을 보여주는 다수의 정성적 분석을 수행한다. 그리고 특정 명명된 엔티티 또는 개념 드리프트와 관련된 활동의 피크. 

 

 

반응형