[2022-02-22] 오늘의 자연어처리

2022. 2. 22. 10:30paper-of-the-day

반응형

 

Modelling the semantics of text in complex document layouts using graph transformer networks

 

Representing structured text from complex documents typically calls for different machine learning techniques, such as language models for paragraphs and convolutional neural networks (CNNs) for table extraction, which prohibits drawing links between text spans from different content types. In this article we propose a model that approximates the human reading pattern of a document and outputs a unique semantic representation for every text span irrespective of the content type they are found in. We base our architecture on a graph representation of the structured text, and we demonstrate that not only can we retrieve semantically similar information across documents but also that the embedding space we generate captures useful semantic information, similar to language models that work only on text sequences.

 

복잡한 문서에서 구조화된 텍스트를 나타내는 것은 일반적으로 다음을 요구합니다. 문단에 대한 언어 모델과 같은 다른 기계 학습 기술 그리고 테이블 추출을 위한 컨볼루션 신경망(CNN)은 다음을 금지한다. 서로 다른 컨텐츠 유형의 텍스트 범위 간 도면 링크. 이 글에서 우리는 문서의 인간 독서 패턴에 근접한 모델을 제안한다. 그리고 모든 텍스트 범위에 대한 고유한 의미 표현을 출력한다. 내용 유형에서 찾을 수 있습니다. 우리는 그래프에 기반을 둔다. 구조화된 텍스트의 표현, 그리고 우리는 우리가 할 수 있을 뿐만 아니라 할 수 있다는 것을 보여준다. 의미론적으로 유사한 정보를 문서 전체에서 검색하지만 또한 임베딩 공간은 우리가 생성하는 유용한 의미 정보를 캡처한다. 텍스트 시퀀스에서만 작동하는 언어 모델. 

 

 

Grammar-Based Grounded Lexicon Learning

 

We present Grammar-Based Grounded Lexicon Learning (G2L2), a lexicalist approach toward learning a compositional and grounded meaning representation of language from grounded data, such as paired images and texts. At the core of G2L2 is a collection of lexicon entries, which map each word to a tuple of a syntactic type and a neuro-symbolic semantic program. For example, the word shiny has a syntactic type of adjective; its neuro-symbolic semantic program has the symbolic form {\lambda}x. filter(x, SHINY), where the concept SHINY is associated with a neural network embedding, which will be used to classify shiny objects. Given an input sentence, G2L2 first looks up the lexicon entries associated with each token. It then derives the meaning of the sentence as an executable neuro-symbolic program by composing lexical meanings based on syntax. The recovered meaning programs can be executed on grounded inputs. To facilitate learning in an exponentially-growing compositional space, we introduce a joint parsing and expected execution algorithm, which does local marginalization over derivations to reduce the training time. We evaluate G2L2 on two domains: visual reasoning and language-driven navigation. Results show that G2L2 can generalize from small amounts of data to novel compositions of words.

 

어휘학자 문법 기반 사전 학습(G2L2)을 제시한다. 의 작문적이고 기초적인 의미 표현을 배우는 것에 접근하다. 쌍으로 구성된 이미지 및 텍스트와 같은 접지된 데이터의 언어. 의 핵심 G2L2는 어휘집합의 모음으로, 각 단어를 a의 튜플에 매핑한다. 통사적 유형과 신경-감소적 의미 프로그램. 예를 들어, 단어 shiny는 통사적인 유형의 형용사를 가지고 있다; 그것의 신경-의미적 의미 프로그램 상징적 형태인 {lambda}x 필터(x, CHINY)를 가지고 있으며 여기서 CHINY라는 개념은 신경망 임베딩과 연관되며, 분류에 사용될 것이다. 반짝이는 물건 입력 문장이 주어지면, G2L2는 먼저 어휘 항목을 찾는다. 각 토큰과 연관된. 그리고 그것은 문장의 의미를 파생한다. 어휘적 의미를 구성함으로써 실행 가능한 신경 분석 프로그램 구문. 복구된 의미 프로그램은 접지된 입력에서 실행될 수 있습니다. 로. 기하급수적으로 성장하는 작문 공간에서 학습을 용이하게 한다, 우리는 로컬을 수행하는 공동 구문 분석 및 예상 실행 알고리즘을 도입합니다. 훈련 시간을 줄이기 위해 파생에 대한 주변화. 우리는 G2L2를 평가한다. 시각적 추론과 언어 중심 탐색의 두 가지 영역에서. 결과는 다음과 같다. G2L2는 적은 양의 데이터에서 새로운 구성까지 일반화할 수 있다. 단어 

 

 

Designing Effective Sparse Expert Models

 

Scale has opened new frontiers in natural language processing -- but at a high cost. In response, Mixture-of-Experts (MoE) and Switch Transformers have been proposed as an energy efficient path to even larger and more capable language models. But advancing the state-of-the-art across a broad set of natural language tasks has been hindered by training instabilities and uncertain quality during fine-tuning. Our work focuses on these issues and acts as a design guide. We conclude by scaling a sparse model to 269B parameters, with a computational cost comparable to a 32B dense encoder-decoder Transformer (Stable and Transferable Mixture-of-Experts or ST-MoE-32B). For the first time, a sparse model achieves state-of-the-art performance in transfer learning, across a diverse set of tasks including reasoning (SuperGLUE, ARC Easy, ARC Challenge), summarization (XSum, CNN-DM), closed book question answering (WebQA, Natural Questions), and adversarially constructed tasks (Winogrande, ANLI R3).

 

스케일은 자연어 처리의 새로운 영역을 열었습니다. 고비용 이에 반응하여 전문가 혼합물(MoE) 및 스위치 변압기는 다음과 같은 값을 갖습니다. 훨씬 더 크고 더 유능한 에너지 효율 경로로 제안되었다. 언어 모델. 하지만 광범위한 영역에서 최첨단 기술을 발전시키는 것은 자연어 작업은 훈련 불안정성에 의해 방해되어 왔다. 미세 조정 시 불확실한 품질. 우리의 작업은 이러한 이슈와 행동에 초점을 맞춘다. 디자인 가이드로서. 희소 모델을 269B 매개 변수로 확장하여 결론을 내린다. 32B 고밀도 인코더-디코더 트랜스포머에 필적하는 계산 비용으로 (안정적이고 전달 가능한 전문가 혼합물 또는 ST-MoE-32B). 처음으로. 희소 모델은 전이 학습에서 최첨단 성능을 달성한다. 추론(SuperGLUE, ARC Easy, ARC)을 포함한 다양한 작업에 걸쳐 과제), 요약(XSUM, CNN-DM), 비공개 책 질문 답변 (WebQA, 자연 질문) 및 적대적으로 구성된 태스크(Winogrande, ANLI R3). 

 

 

반응형