[2022-03-14] 오늘의 자연어처리

2022. 3. 14. 10:30paper-of-the-day

반응형

 

Integrating Dependency Tree Into Self-attention for Sentence Representation

 

Recent progress on parse tree encoder for sentence representation learning is notable. However, these works mainly encode tree structures recursively, which is not conducive to parallelization. On the other hand, these works rarely take into account the labels of arcs in dependency trees. To address both issues, we propose Dependency-Transformer, which applies a relation-attention mechanism that works in concert with the self-attention mechanism. This mechanism aims to encode the dependency and the spatial positional relations between nodes in the dependency tree of sentences. By a score-based method, we successfully inject the syntax information without affecting Transformer's parallelizability. Our model outperforms or is comparable to the state-of-the-art methods on four tasks for sentence representation and has obvious advantages in computational efficiency.

 

문장 표현 학습을 위한 구문 분석 트리 인코더에 대한 최근 진행은 다음과 같다. 주목할 만한 그러나, 이러한 작업들은 주로 트리 구조를 재귀적으로 인코딩한다. 병렬화에 도움이 되지 않습니다. 반면에, 이 작품들은 거의 시간이 걸리지 않는다. 종속성 트리의 호 레이블을 고려합니다. 두 가지 문제를 모두 해결하기 위해 관계-주의 메커니즘을 적용한 의존성-변환기 제안 자기 주의 메커니즘과 맞물려 작동하는 거죠 이 메커니즘은 다음을 목표로 한다. 의존성과 공간적 위치 관계를 인코딩한다. 문장의 종속성 트리. 점수 기반 방법으로 우리는 성공적으로 주입한다. 트랜스포머의 병렬화 가능성에 영향을 미치지 않는 구문 정보. 우리들의 모델은 4개의 최신 방법을 능가하거나 그에 필적합니다. 문장 표현을 위한 과제와 계산에서 분명한 이점을 가지고 있다. 효율성. 

 

 

Semantic Norm Recognition and its application to Portuguese Law

 

Being able to clearly interpret legal texts and fully understanding our rights, obligations and other legal norms has become progressively more important in the digital society. However, simply giving citizens access to the laws is not enough, as there is a need to provide meaningful information that cater to their specific queries and needs. For this, it is necessary to extract the relevant semantic information present in legal texts. Thus, we introduce the SNR (Semantic Norm Recognition) system, an automatic semantic information extraction system trained on a domain-specific (legal) text corpus taken from Portuguese Consumer Law. The SNR system uses the Portuguese Bert (BERTimbau) and was trained on a legislative Portuguese corpus. We demonstrate how our system achieved good results (81.44\% F1-score) on this domain-specific corpus, despite existing noise, and how it can be used to improve downstream tasks such as information retrieval.

 

법률 문서를 명확하게 해석할 수 있는 능력 그리고 우리의 완전한 이해 권리, 의무, 그리고 다른 법적 규범들이 점진적으로 더 많아졌다 디지털 사회에서 중요하다. 그러나 단순히 시민들에게 접근 권한을 부여합니다. 법은 충분하지 않다, 왜냐하면 다음과 같은 의미 있는 정보를 제공할 필요가 있기 때문이다. 고객의 특정 질문과 요구에 부응합니다. 이를 위해서는 추출이 필요하다. 법률 문서에 존재하는 관련 의미 정보 그래서 우리는 소개한다. 자동 의미 정보인 SNR(Semantic Norm Recognition) 시스템 도메인별(법적) 텍스트 말뭉치에 대해 훈련된 추출 시스템 포르투갈 소비자법. SNR 시스템은 포르투갈어 버트(BERTimbau)를 사용합니다. 포르투갈 입법부의 말뭉치에 대한 교육을 받았죠 우리는 우리의 시스템은 이 도메인별 말뭉치에 대해 좋은 결과(81.44\% F1-점수)를 달성했다. 기존의 소음에도 불구하고, 그리고 그것이 어떻게 하류 작업을 개선하기 위해 사용될 수 있는지. 정보를 복구하기 위해. 

 

 

Are discrete units necessary for Spoken Language Modeling?

 

Recent work in spoken language modeling shows the possibility of learning a language unsupervisedly from raw audio without any text labels. The approach relies first on transforming the audio into a sequence of discrete units (or pseudo-text) and then training a language model directly on such pseudo-text. Is such a discrete bottleneck necessary, potentially introducing irreversible errors in the encoding of the speech signal, or could we learn a language model without discrete units at all? In this work, show that discretization is indeed essential for good results in spoken language modeling, but that can omit the discrete bottleneck if we use using discrete target features from a higher level than the input features. We also show that an end-to-end model trained with discrete target like HuBERT achieves similar results as the best language model trained on pseudo-text on a set of zero-shot spoken language modeling metrics from the Zero Resource Speech Challenge 2021.

 

구어 모델링의 최근 연구는 학습의 가능성을 보여준다. 텍스트 레이블이 없는 원시 오디오에서 감독되지 않은 언어. 접근법 먼저 오디오를 일련의 개별 단위로 변환하는 데 의존합니다(또는 (의사 텍스트) 그런 다음 이러한 의사 텍스트에서 직접 언어 모델을 훈련합니다. 잠재적으로 돌이킬 수 없는 병목 현상이 발생할 수 있는 그러한 별개의 병목 현상이 필요한가? 음성 신호 인코딩의 오류들, 또는 우리가 언어 모델을 배울 수 있을까? 단위가 전혀 없는 건가요? 이 연구에서, 이산화가 실제로 음성 언어 모델링에서 좋은 결과를 얻기 위해 필수적이지만, 그것은 다음을 생략할 수 있다. 상위 계층의 이산 대상 기능을 사용하는 경우 이산 병목 현상 레벨(level)이 입력 피쳐보다 높습니다. 우리는 또한 엔드 투 엔드 모델이 훈련되었다는 것을 보여준다. HuBERT와 같은 이산적인 타겟으로 최고의 언어와 유사한 결과를 달성한다. 제로샷 음성 언어 모델링 세트의 의사 텍스트에 대해 훈련된 모델 Zero Resource Speech Challenge 2021의 메트릭스. 

 

 

반응형