[2022-02-03] 오늘의 자연어처리

2022. 2. 3. 10:30paper-of-the-day

반응형

 

Towards a Theoretical Understanding of Word and Relation Representation

 

Representing words by vectors, or embeddings, enables computational reasoning and is foundational to automating natural language tasks. For example, if word embeddings of similar words contain similar values, word similarity can be readily assessed, whereas judging that from their spelling is often impossible (e.g. cat /feline) and to predetermine and store similarities between all words is prohibitively time-consuming, memory intensive and subjective. We focus on word embeddings learned from text corpora and knowledge graphs. Several well-known algorithms learn word embeddings from text on an unsupervised basis by learning to predict those words that occur around each word, e.g. word2vec and GloVe. Parameters of such word embeddings are known to reflect word co-occurrence statistics, but how they capture semantic meaning has been unclear. Knowledge graph representation models learn representations both of entities (words, people, places, etc.) and relations between them, typically by training a model to predict known facts in a supervised manner. Despite steady improvements in fact prediction accuracy, little is understood of the latent structure that enables this. The limited understanding of how latent semantic structure is encoded in the geometry of word embeddings and knowledge graph representations makes a principled means of improving their performance, reliability or interpretability unclear. To address this: 1. we theoretically justify the empirical observation that particular geometric relationships between word embeddings learned by algorithms such as word2vec and GloVe correspond to semantic relations between words; and 2. we extend this correspondence between semantics and geometry to the entities and relations of knowledge graphs, providing a model for the latent structure of knowledge graph representation linked to that of word embeddings.

 

단어를 벡터 또는 임베딩으로 표현하는 것은 계산 추론을 가능하게 한다. 그리고 자연어 작업을 자동화하는데 기초가 된다. 예를 들어, 단어인 경우 유사한 단어의 임베딩은 유사한 값을 포함할 수 있다, 단어 유사성은 될 수 있다 쉽게 평가되는 반면, 그들의 철자로 판단하기란 종종 불가능하다. (예: cat/feline) 및 모든 단어 간의 유사성을 미리 결정하고 저장합니다. 시간이 많이 걸리고 기억력이 풍부하고 주관적이에요 우리는 에 초점을 맞춘다. 텍스트 말뭉치와 지식 그래프에서 학습한 단어 임베딩. 여러명 잘 알려진 알고리즘은 감독되지 않은 기준으로 텍스트로부터 단어 임베딩을 학습한다. 단어2vec와 같이 각 단어 주위에 발생하는 단어들을 예측하는 것을 배움으로써 그리고 GloVe. 이러한 단어 임베딩의 매개 변수는 단어를 반영하는 것으로 알려져 있다. 동시 발생 통계, 그러나 그들이 의미적 의미를 포착하는 방법은 다음과 같다. 불분명한 지식 그래프 표현 모델은 다음 두 가지 표현을 모두 학습한다. 엔티티(단어, 사람, 장소 등)와 그들 사이의 관계, 일반적으로 알려진 사실을 감독하는 방식으로 예측하기 위해 모델을 교육합니다. 꾸준함에도 불구하고 사실 예측 정확도의 향상, 잠재된 것에 대해 거의 이해되지 않는다 이를 가능하게 하는 구조입니다. 잠재된 의미 구조가 어떻게 암호화되는지에 대한 제한된 이해 단어 임베딩의 기하학 그리고 지식 그래프 표현들을 만든다 그들의 성능, 신뢰성 또는 신뢰성을 개선하기 위한 원칙적인 수단 해석 가능성이 불분명합니다. 이 문제를 해결하려면: 1. 우리는 이론적으로 특정한 경험적 관찰을 정당화한다. 다음과 같은 알고리즘에 의해 학습된 단어 임베딩 사이의 기하학적 관계 word2vec 및 GloVe는 단어 간의 의미 관계에 해당한다. 2. 우리는 의미론과 기하학 사이의 이 서신을 확장한다. 지식 그래프의 엔티티 및 관계, 잠재 그래프에 대한 모델 제공 단어 임베딩에 연결된 지식 그래프 표현의 구조 

 

 

Examining Scaling and Transfer of Language Model Architectures for Machine Translation

 

Natural language understanding and generation models follow one of the two dominant architectural paradigms: language models (LMs) that process concatenated sequences in a single stack of layers, and encoder-decoder models (EncDec) that utilize separate layer stacks for input and output processing. In machine translation, EncDec has long been the favoured approach, but with few studies investigating the performance of LMs. In this work, we thoroughly examine the role of several architectural design choices on the performance of LMs on bilingual, (massively) multilingual and zero-shot translation tasks, under systematic variations of data conditions and model sizes. Our results show that: (i) Different LMs have different scaling properties, where architectural differences often have a significant impact on model performance at small scales, but the performance gap narrows as the number of parameters increases, (ii) Several design choices, including causal masking and language-modeling objectives for the source sequence, have detrimental effects on translation quality, and (iii) When paired with full-visible masking for source sequences, LMs could perform on par with EncDec on supervised bilingual and multilingual translation tasks, and improve greatly on zero-shot directions by facilitating the reduction of off-target translations.

 

자연어 이해와 생성 모델은 둘 중 하나를 따른다. 지배적인 아키텍처 패러다임: 처리하는 언어 모델(LM) 단일 계층 스택의 연결된 시퀀스 및 인코더 변환 모델 (EncDec) 입력 및 출력 처리를 위해 별도의 레이어 스택을 사용합니다. 안으로 기계 번역, EncDec는 오랫동안 선호되는 접근법이었지만, 거의 없었다. LM의 성능을 조사하는 연구. 이 작업에서, 우리는 철저히 의 성능에 대한 몇 가지 아키텍처 설계 선택의 역할을 검토한다 이중언어, 다국어 및 제로샷 번역 작업에 대한 LM, 체계적인 데이터 조건 및 모델 크기 변화 하에서. 우리의 결과 다음을 보여줍니다. (i) 서로 다른 LM은 서로 다른 스케일링 속성을 가집니다. 아키텍처 차이가 모델 성능에 상당한 영향을 미치는 경우가 많습니다. 작은 규모에서, 그러나 매개 변수의 수에 따라 성능 격차가 좁혀집니다. 증가, (ii) 인과적 마스킹 및 소스 시퀀스에 대한 언어 변형 목표, 해로운 영향을 미친다. 번역 품질 및 (iii) 다음에 대한 전체 가시 마스킹과 쌍을 이루는 경우 소스 시퀀스, LMs는 감독된 이중 언어에서 EncDec과 동등하게 수행될 수 있다. 다국어 번역 작업을 수행하고 제로샷 방향에서 크게 개선됩니다. 표적을 벗어난 번역의 감소를 용이하게 함으로써. 

 

 

An Assessment of the Impact of OCR Noise on Language Models

 

Neural language models are the backbone of modern-day natural language processing applications. Their use on textual heritage collections which have undergone Optical Character Recognition (OCR) is therefore also increasing. Nevertheless, our understanding of the impact OCR noise could have on language models is still limited. We perform an assessment of the impact OCR noise has on a variety of language models, using data in Dutch, English, French and German. We find that OCR noise poses a significant obstacle to language modelling, with language models increasingly diverging from their noiseless targets as OCR quality lowers. In the presence of small corpora, simpler models including PPMI and Word2Vec consistently outperform transformer-based models in this respect.

 

신경 언어 모델은 현대 자연 언어의 중추이다. 응용 프로그램 처리. 다음과 같은 텍스트 유산 컬렉션에 대한 그들의 사용 따라서 광학 문자 인식(OCR)도 증가하고 있다. 그럼에도 불구하고 OCR 소음이 언어에 미칠 수 있는 영향 모델은 여전히 제한적입니다. OCR 소음이 미치는 영향에 대한 평가를 수행한다. 다양한 언어 모델에서 네덜란드어, 영어, 프랑스어 및 독일어. 우리는 OCR 소음이 언어에 심각한 장애물이 된다는 것을 발견했다. 모델링, 언어 모델은 소음이 없는 모델로부터 점점 더 멀어지고 있다. OCR 품질이 저하될 때 목표물을 선택합니다. 작은 말뭉치가 있는 경우, 더 간단한 모델 PPMI 및 Word2Vec를 포함하여 지속적으로 변압기 기반 모델을 능가합니다. 이 존경심. 

 

 

반응형