[2022-02-17] 오늘의 자연어처리

2022. 2. 17. 10:30paper-of-the-day

반응형

 

Impact of Pretraining Term Frequencies on Few-Shot Reasoning

 

Pretrained Language Models (LMs) have demonstrated ability to perform numerical reasoning by extrapolating from a few examples in few-shot settings. However, the extent to which this extrapolation relies on robust reasoning is unclear. In this paper, we investigate how well these models reason with terms that are less frequent in the pretraining data. In particular, we examine the correlations between the model performance on test instances and the frequency of terms from those instances in the pretraining data. We measure the strength of this correlation for a number of GPT-based language models (pretrained on the Pile dataset) on various numerical deduction tasks (e.g., arithmetic and unit conversion). Our results consistently demonstrate that models are more accurate on instances whose terms are more prevalent, in some cases above $70\%$ (absolute) more accurate on the top 10\% frequent terms in comparison to the bottom 10\%. Overall, although LMs exhibit strong performance at few-shot numerical reasoning tasks, our results raise the question of how much models actually generalize beyond pretraining data, and we encourage researchers to take the pretraining data into account when interpreting evaluation results.

 

사전 훈련된 언어 모델(LM)은 수행할 수 있는 능력을 입증했습니다. 퓨샷 설정의 몇 가지 예로부터 추론하여 수치 추론을 한다. 그러나, 이 외삽이 강력한 추론에 의존하는 범위는 다음과 같다. 불분명한 본 논문에서는 이러한 모델이 항을 얼마나 잘 추론하는지 조사한다. 사전 교육 데이터에서는 빈도가 낮습니다. 특히, 우리는 다음을 조사한다. 검정 인스턴스의 모형 성능과 빈도 간의 상관 관계 사전 훈련 데이터의 해당 인스턴스에서 나온 용어. 우리는 강도를 측정합니다. 수많은 GPT 기반 언어 모델에 대한 이 상관 관계(예: 다양한 수치 차감 작업(예: 산술 및)에 대한 파일 데이터 세트) 단위 변환). 우리의 결과는 모델들이 더 많다는 것을 일관되게 보여준다. 상기의 경우에 따라서 더 널리 사용되는 경우에 정확하다. $70\%$ (대략적으로) 보다 상위 10\% 빈번한 용어에서 더 정확하다. 하위 10% 전반적으로 LM은 퓨샷에서 강력한 성능을 발휘합니다. 수치 추론 과제, 우리의 결과는 얼마나 많은 모델들에 대한 질문을 제기한다 실제로 데이터를 사전 교육하는 것 이상으로 일반화하며, 우리는 연구자들이 하도록 권장한다. 평가 결과를 해석할 때 사전 교육 데이터를 고려합니다. 

 

 

Quantifying Memorization Across Neural Language Models

 

Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others). We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model. Surprisingly, we find the situation becomes complicated when generalizing these results across model families. On the whole, we find that memorization in LMs is more prevalent than previously believed and will likely get worse as models continues to scale, at least without active mitigations.

 

대형 언어 모델(LM)은 그들의 일부를 암기하는 것으로 나타났다. 교육 데이터, 그리고 적절한 메시지가 표시되면, 그들은 기억된 데이터를 내보낼 것이다. 교육 데이터 문자 그대로입니다. 암기가 위반되기 때문에 이것은 바람직하지 않다. 개인 정보 보호(사용자 데이터 삭제), 유틸리티 저하(검색하기 쉬운 텍스트 삭제) 종종 낮은 품질이다), 그리고 공정성을 해친다(일부 텍스트는 반복해서 외운다). 기타). 우리는 그 정도를 정량화하는 세 가지 로그-선형 관계를 설명한다. LM은 기억된 훈련 데이터를 내보냅니다. 암기는 우리가 할수록 크게 성장한다. (1) 모형의 용량 증가 (2) 예제가 갖는 횟수 중복되었으며 (3) 프롬프트에 사용되는 컨텍스트 토큰의 수 모델. 놀랍게도, 우리는 이 상황이 복잡해진다는 것을 발견한다. 모델 제품군 전체에 걸쳐 이러한 결과를 일반화합니다. 대체로, 우리는 그것을 발견한다. LMs에서의 암기는 이전에 믿었던 것보다 더 널리 퍼지고 있을 것 같다 최소한 적극적인 완화 없이 모델이 계속 확장될수록 더욱 악화됩니다. 

 

 

One Configuration to Rule Them All? Towards Hyperparameter Transfer in Topic Models using Multi-Objective Bayesian Optimization

 

Topic models are statistical methods that extract underlying topics from document collections. When performing topic modeling, a user usually desires topics that are coherent, diverse between each other, and that constitute good document representations for downstream tasks (e.g. document classification). In this paper, we conduct a multi-objective hyperparameter optimization of three well-known topic models. The obtained results reveal the conflicting nature of different objectives and that the training corpus characteristics are crucial for the hyperparameter selection, suggesting that it is possible to transfer the optimal hyperparameter configurations between datasets.

 

주제 모델은 기초적인 주제를 추출하는 통계적 방법이다. 문서 모음 주제 모델링을 수행할 때 사용자는 보통 일관성이 있고, 서로 다양하며, 좋은 주제들을 구성하는 것 다운스트림 작업에 대한 문서 표현(예: 문서 분류). 본 논문에서, 우리는 다음의 다목적 하이퍼 파라미터 최적화를 수행한다. 잘 알려진 세 가지 주제 모델 얻어진 결과는 상충하는 것을 보여준다. 다른 목표의 성격과 훈련 말뭉치 특성은 다음과 같다. 초 매개 변수 선택에 매우 중요하며, 다음을 수행할 수 있음을 시사한다. 데이터 세트 간에 최적의 하이퍼 파라미터 구성을 전송합니다. 

 

 

반응형