[2022-01-14] 오늘의 자연어처리

2022. 1. 14. 10:30paper-of-the-day

반응형

 

How Does Data Corruption Affect Natural Language Understanding Models? A Study on GLUE datasets

 

A central question in natural language understanding (NLU) research is whether high performance demonstrates the models' strong reasoning capabilities. We present an extensive series of controlled experiments where pre-trained language models are exposed to data that have undergone specific corruption transformations. The transformations involve removing instances of specific word classes and often lead to non-sensical sentences. Our results show that performance remains high for most GLUE tasks when the models are fine-tuned or tested on corrupted data, suggesting that the models leverage other cues for prediction even in non-sensical contexts. Our proposed data transformations can be used as a diagnostic tool for assessing the extent to which a specific dataset constitutes a proper testbed for evaluating models' language understanding capabilities.

 

자연어 이해(NLU) 연구의 중심 질문은 다음과 같다. 고성능이 모델의 강력한 추론을 입증하는지 여부 능력. 우리는 다음과 같은 광범위한 일련의 통제된 실험을 제시한다. 사전 훈련된 언어 모델은 특정한 과정을 거친 데이터에 노출된다. 부패 변형. 변환에는 다음과 같은 인스턴스 제거가 포함됩니다. 특정 단어 클래스와 종종 감각적이지 않은 문장으로 이어진다. 우리의 결과 모델이 다음과 같은 경우 대부분의 GLUE 작업에서 성능이 높은 것을 보여준다. 손상된 데이터에 대해 미세 조정하거나 테스트한 결과, 모델이 다음과 같은 기능을 활용할 수 있음을 알 수 있습니다. 비 감각적 맥락에서도 예측을 위한 다른 단서들. 우리가 제안한 데이터 변환은 다음을 평가하는 진단 도구로 사용될 수 있다. 어떤 특정 데이터 세트가 모델 평가를 위한 적절한 테스트베드를 구성하는가? 언어 이해 능력. 

 

 

Computational analyses of the topics, sentiments, literariness, creativity and beauty of texts in a large Corpus of English Literature

 

The Gutenberg Literary English Corpus (GLEC, Jacobs, 2018a) provides a rich source of textual data for research in digital humanities, computational linguistics or neurocognitive poetics. In this study we address differences among the different literature categories in GLEC, as well as differences between authors. We report the results of three studies providing i) topic and sentiment analyses for six text categories of GLEC (i.e., children and youth, essays, novels, plays, poems, stories) and its >100 authors, ii) novel measures of semantic complexity as indices of the literariness, creativity and book beauty of the works in GLEC (e.g., Jane Austen's six novels), and iii) two experiments on text classification and authorship recognition using novel features of semantic complexity. The data on two novel measures estimating a text's literariness, intratextual variance and stepwise distance (van Cranenburgh et al., 2019) revealed that plays are the most literary texts in GLEC, followed by poems and novels. Computation of a novel index of text creativity (Gray et al., 2016) revealed poems and plays as the most creative categories with the most creative authors all being poets (Milton, Pope, Keats, Byron, or Wordsworth). We also computed a novel index of perceived beauty of verbal art (Kintsch, 2012) for the works in GLEC and predict that Emma is the theoretically most beautiful of Austen's novels. Finally, we demonstrate that these novel measures of semantic complexity are important features for text classification and authorship recognition with overall predictive accuracies in the range of .75 to .97. Our data pave the way for future computational and empirical studies of literature or experiments in reading psychology and offer multiple baselines and benchmarks for analysing and validating other book corpora.

 

구텐베르크 문학 영어 말뭉치 (GLEC, Jacobs, 2018a)는 풍부한 것을 제공한다. 디지털 인문학의 연구를 위한 텍스트 데이터의 출처, 계산 언어학 또는 신경인지 시학 이 연구에서 우리는 차이점을 다룬다. GLEC의 다른 문학 범주들 뿐만 아니라 차이점들 사이에서 작가들 사이에 i) 주제를 제공하는 세 가지 연구의 결과를 보고한다. GLEC의 6가지 텍스트 범주에 대한 정서 분석(즉, 어린이와 청소년), 에세이, 소설, 희곡, 시, 이야기) 및 100명 이상의 작가, ii) 참신한 조치 문학성, 창의성 및 책의 지표로서 의미론적 복잡성의 GLEC(예: 제인 오스틴의 소설 6편)와 3편 작품의 아름다움 2편 소설을 이용한 텍스트 분류 및 저자 인식에 대한 실험 의미론적 복잡성의 특징. 두 가지 새로운 측도에 대한 데이터 텍스트의 문자성, 비율 내 분산 및 단계적 거리(밴) Cranenburg et al., 2019)는 연극이 다음 중 가장 문학적인 텍스트라고 밝혔다. GLEC, 시와 소설이 그 뒤를 이었다. 새로운 텍스트 색인 계산 창의성(Gray 등, 2016)은 시와 연극을 가장 창의적이라고 밝혔다. 가장 창의적인 작가가 모두 시인(밀튼, 교황, 키츠, 바이런, 혹은 워즈워스). 우리는 또한 인식된 아름다움의 새로운 지수를 계산했다. GLC에서 작품들을 위한 언어 예술 (Kintsch, 2012) 그리고 엠마가 더 낫다는 것을 예측합니다 이론적으로는 오스틴의 소설 중 가장 아름다운 작품이죠 마지막으로, 우리는 다음을 입증한다. 의미 복잡성의 이러한 새로운 측정은 텍스트에 대한 중요한 특징들이다. 분류 및 저자 인정에서 전체적인 예측 정확도 75에서 97까지의 범위. 우리의 데이터는 미래의 계산과 문학이나 심리학 및 제공에 대한 실험의 경험적 연구 다른 책을 분석하고 검증하기 위한 다중 기준선 및 벤치마크 말뭉치의 

 

 

Language-Agnostic Website Embedding and Classification

 

Currently, publicly available models for website classification do not offer an embedding method and have limited support for languages beyond English. We release a dataset with more than 1M websites in 92 languages with relative labels collected from Curlie, the largest multilingual crowdsourced Web directory. The dataset contains 14 website categories aligned across languages. Alongside it, we introduce Homepage2Vec, a machine-learned pre-trained model for classifying and embedding websites based on their homepage in a language-agnostic way. Homepage2Vec, thanks to its feature set (textual content, metadata tags, and visual attributes) and recent progress in natural language representation, is language-independent by design and can generate embeddings representation. We show that Homepage2Vec correctly classifies websites with a macro-averaged F1-score of 0.90, with stable performance across low- as well as high-resource languages. Feature analysis shows that a small subset of efficiently computable features suffices to achieve high performance even with limited computational resources. We make publicly available the curated Curlie dataset aligned across languages, the pre-trained Homepage2Vec model, and libraries.

 

현재, 웹사이트 분류를 위해 공개적으로 이용 가능한 모델은 다음을 제공하지 않는다. 임베딩 방식이며 영어를 넘어서는 언어에 대한 지원이 제한적이다. 우리가 1백만 개 이상의 웹 사이트로 구성된 데이터 집합을 92개 언어로 공개합니다. 최대 다국어 크라우드소싱 웹인 Curlie에서 수집한 레이블 디렉토리. 데이터 세트에는 여러 언어에 걸쳐 정렬된 14개의 웹 사이트 범주가 포함되어 있습니다. 이와 함께 기계학습 사전교육 모델인 홈페이지2Vec을 소개합니다. 홈페이지를 기반으로 웹 사이트를 분류하고 내장하기 위해 언어에 구애받지 않는 방법 홈페이지2Vec(텍스트) 기능 세트 덕분에 컨텐츠, 메타데이터 태그 및 시각적 속성)과 자연 현상(자연 현상)의 최근 진전 언어 표현, 설계에 의해 언어 정합성이 있고 생성할 수 있다. 임베딩 표현. 우리는 홈페이지2를 보여준다.Vec가 올바르게 분류함 매크로 평균 F1 점수가 0.90이고 전체 성능이 안정적인 웹 사이트 저자원 언어 및 고자원 언어. 특성 분석 결과 작은 값 효율적으로 계산 가능한 기능의 하위 집합으로 고성능을 달성하기에 충분 제한된 계산 리소스를 사용하더라도. 우리는 공개적으로 언어 간 정렬된 Curli 데이터 세트, 사전 교육된 홈페이지2벡 모델 및 라이브러리. 

 

 

반응형