[2022-02-25] 오늘의 자연어처리

2022. 2. 25. 10:30paper-of-the-day

반응형

 

Incorporating Constituent Syntax for Coreference Resolution

 

Syntax has been shown to benefit Coreference Resolution from incorporating long-range dependencies and structured information captured by syntax trees, either in traditional statistical machine learning based systems or recently proposed neural models. However, most leading systems use only dependency trees. We argue that constituent trees also encode important information, such as explicit span-boundary signals captured by nested multi-word phrases, extra linguistic labels and hierarchical structures useful for detecting anaphora. In this work, we propose a simple yet effective graph-based method to incorporate constituent syntactic structures. Moreover, we also explore to utilise higher-order neighbourhood information to encode rich structures in constituent trees. A novel message propagation mechanism is therefore proposed to enable information flow among elements in syntax trees. Experiments on the English and Chinese portions of OntoNotes 5.0 benchmark show that our proposed model either beats a strong baseline or achieves new state-of-the-art performance. (Code is available at this https URL)

 

구문론은 통합으로부터 Coreference Resolution에 도움이 되는 것으로 나타났다. 구문 트리에 의해 포착된 장거리 의존성 및 구조화된 정보, 전통적인 통계 머신러닝 기반 시스템 또는 최근에 제안된 신경 모델. 그러나 대부분의 주요 시스템은 의존성만 사용합니다. 우리는 나무들이 또한 중요한 정보를 암호화한다고 주장한다. 중첩된 다중 단어 구문에 의해 캡처된 명시적 스팬 문자 신호, 추가 언어 레이블 및 계층 구조가 아나포라를 탐지하는 데 유용합니다. 안으로 이 연구는 다음과 같은 단순하지만 효과적인 그래프 기반 방법을 제안한다. 구성 구문 구조 또한, 우리는 활용하기 위해 탐구한다. 구성 요소에서 풍부한 구조를 인코딩하기 위한 고차 이웃 정보 그러므로 새로운 메시지 전파 메커니즘은 다음을 가능하게 하기 위해 제안된다. 구문 트리의 요소 간 정보 흐름. 영어에 대한 실험과 OnNotes 5.0 벤치마크의 중국어 부분은 제안된 모델이 다음과 같은 것을 보여줍니다. 강력한 기준을 능가하거나 새로운 최첨단 성능을 달성합니다. (코드는 이 https URL에서 사용 가능) 

 

 

A Semi-Supervised Learning Approach with Two Teachers to Improve Breakdown Identification in Dialogues

 

Identifying breakdowns in ongoing dialogues helps to improve communication effectiveness. Most prior work on this topic relies on human annotated data and data augmentation to learn a classification model. While quality labeled dialogue data requires human annotation and is usually expensive to obtain, unlabeled data is easier to collect from various sources. In this paper, we propose a novel semi-supervised teacher-student learning framework to tackle this task. We introduce two teachers which are trained on labeled data and perturbed labeled data respectively. We leverage unlabeled data to improve classification in student training where we employ two teachers to refine the labeling of unlabeled data through teacher-student learning in a bootstrapping manner. Through our proposed training approach, the student can achieve improvements over single-teacher performance. Experimental results on the Dialogue Breakdown Detection Challenge dataset DBDC5 and Learning to Identify Follow-Up Questions dataset LIF show that our approach outperforms all previous published approaches as well as other supervised and semi-supervised baseline methods.

 

진행 중인 대화에서 고장을 식별하면 커뮤니케이션을 개선하는 데 도움이 됩니다. 효과. 이 주제에 대한 대부분의 이전 연구는 인간 주석 데이터에 의존한다. 분류 모델을 학습하기 위한 데이터 확대. 품질 라벨이 붙어 있는 동안 대화 데이터는 인간 주석을 필요로 하며 일반적으로 얻는 데 비용이 많이 든다. 레이블이 없는 데이터는 다양한 출처에서 수집하기가 더 쉽습니다. 이 논문에서, 우리는 이에 대처하기 위해 새로운 반지도 교사-교육 학습 프레임워크를 제안한다. 이 일. 우리는 라벨링된 데이터에 대해 훈련 받은 두 명의 교사를 소개한다. 각각 교란 라벨링된 데이터. 레이블링되지 않은 데이터를 활용하여 개선합니다. 우리가 교사를 두 명 고용하는 학생 훈련의 분류 부트스트래핑에서 교사-상담 학습을 통한 라벨링되지 않은 데이터의 라벨링 매너. 우리가 제안한 훈련 접근법을 통해, 학생은 성취할 수 있다. 1인 교사 성과에 대한 개선 에 대한 실험 결과 Dialogue Breakdet Detection Challenge 데이터 세트 DBDC5 및 식별 학습 후속 질문 데이터 세트 LIF는 NAT의 접근 방식이 이전의 모든 접근 방식을 능가한다는 것을 보여줍니다. 공개된 접근법 및 기타 감독 및 준감독 기준선 방법들 

 

 

Evaluating Persian Tokenizers

 

Tokenization plays a significant role in the process of lexical analysis. Tokens become the input for other natural language processing tasks, like semantic parsing and language modeling. Natural Language Processing in Persian is challenging due to Persian's exceptional cases, such as half-spaces. Thus, it is crucial to have a precise tokenizer for Persian. This article provides a novel work by introducing the most widely used tokenizers for Persian and comparing and evaluating their performance on Persian texts using a simple algorithm with a pre-tagged Persian dependency dataset. After evaluating tokenizers with the F1-Score, the hybrid version of the Farsi Verb and Hazm with bounded morphemes fixing showed the best performance with an F1 score of 98.97%.

 

토큰화는 어휘 분석 과정에서 중요한 역할을 한다. 토큰은 다음과 같은 다른 자연어 처리 작업을 위한 입력이 된다. 의미 구문 분석 및 언어 모델링. 페르시아어 자연어 처리 는 반공백과 같은 페르시아어의 예외적인 경우로 인해 어렵습니다. 따라서 페르시아어를 위한 정확한 토킨라이저를 갖는 것은 매우 중요하다. 이 문서는 다음을 제공합니다. 페르시아를 위해 가장 널리 사용되는 토큰라이저를 도입함으로써 새로운 작업 페르시아어 텍스트에서 그들의 수행을 단순하게 비교하고 평가한다. 사전 태그가 지정된 페르시아 종속성 데이터 세트가 있는 알고리즘. 평가 후 F1-스코어가 있는 토큰라이저, 파르시 동사와 하즘의 혼합 버전 경계 형태소 고정으로 F1 점수로 최고의 성능을 보여주었다. 98.97%. 

 

 

반응형