[2022-02-18] 오늘의 자연어처리

2022. 2. 18. 10:30paper-of-the-day

반응형

 

Position-Invariant Truecasing with a Word-and-Character Hierarchical Recurrent Neural Network

 

Truecasing is the task of restoring the correct case (uppercase or lowercase) of noisy text generated either by an automatic system for speech recognition or machine translation or by humans. It improves the performance of downstream NLP tasks such as named entity recognition and language modeling. We propose a fast, accurate and compact two-level hierarchical word-and-character-based recurrent neural network model, the first of its kind for this problem. Using sequence distillation, we also address the problem of truecasing while ignoring token positions in the sentence, i.e. in a position-invariant manner.

 

Truecasing은 올바른 대/소문자(대문자 또는 소문자)를 복원하는 작업입니다. 음성 인식을 위한 자동 시스템에 의해 생성된 잡음이 많은 텍스트 또는 기계 번역이나 인간에 의한. 다운스트림 NLP의 성능을 향상시킵니다. 명명된 엔티티 인식 및 언어 모델링과 같은 작업. 우리는 a를 제안한다 빠르고 정확하며 간결한 2단계 계층 구조 단어 및 문자 기반 이 문제의 첫 번째 유형인 순환 신경 네트워크 모델. 사용. 시퀀스 증류, 우리는 또한 무시하는 동안 Truecasing의 문제를 다룬다. 문장에서 토큰 위치, 즉 위치가 일치하지 않는 방식으로. 

 

 

Position-Invariant Truecasing with a Word-and-Character Hierarchical Recurrent Neural Network

 

Truecasing is the task of restoring the correct case (uppercase or lowercase) of noisy text generated either by an automatic system for speech recognition or machine translation or by humans. It improves the performance of downstream NLP tasks such as named entity recognition and language modeling. We propose a fast, accurate and compact two-level hierarchical word-and-character-based recurrent neural network model, the first of its kind for this problem. Using sequence distillation, we also address the problem of truecasing while ignoring token positions in the sentence, i.e. in a position-invariant manner.

 

Truecasing은 올바른 대/소문자(대문자 또는 소문자)를 복원하는 작업입니다. 음성 인식을 위한 자동 시스템에 의해 생성된 잡음이 많은 텍스트 또는 기계 번역이나 인간에 의한. 다운스트림 NLP의 성능을 향상시킵니다. 명명된 엔티티 인식 및 언어 모델링과 같은 작업. 우리는 a를 제안한다 빠르고 정확하며 간결한 2단계 계층 구조 단어 및 문자 기반 이 문제의 첫 번째 유형인 순환 신경 네트워크 모델. 사용. 시퀀스 증류, 우리는 또한 무시하는 동안 Truecasing의 문제를 다룬다. 문장에서 토큰 위치, 즉 위치가 일치하지 않는 방식으로. 

 

 

Processing the structure of documents: Logical Layout Analysis of historical newspapers in French

 

Background. In recent years, libraries and archives led important digitisation campaigns that opened the access to vast collections of historical documents. While such documents are often available as XML ALTO documents, they lack information about their logical structure. In this paper, we address the problem of Logical Layout Analysis applied to historical documents in French. We propose a rule-based method, that we evaluate and compare with two Machine-Learning models, namely RIPPER and Gradient Boosting. Our data set contains French newspapers, periodicals and magazines, published in the first half of the twentieth century in the Franche-Comté Region. Results. Our rule-based system outperforms the two other models in nearly all evaluations. It has especially better Recall results, indicating that our system covers more types of every logical label than the other two models. When comparing RIPPER with Gradient Boosting, we can observe that Gradient Boosting has better Precision scores but RIPPER has better Recall scores. Conclusions. The evaluation shows that our system outperforms the two Machine Learning models, and provides significantly higher Recall. It also confirms that our system can be used to produce annotated data sets that are large enough to envisage Machine Learning or Deep Learning approaches for the task of Logical Layout Analysis. Combining rules and Machine Learning models into hybrid systems could potentially provide even better performances. Furthermore, as the layout in historical documents evolves rapidly, one possible solution to overcome this problem would be to apply Rule Learning algorithms to bootstrap rule sets adapted to different publication periods.

 

배경 최근 몇 년 동안, 도서관과 기록 보관소는 중요했다. 방대한 역사 수집품에 대한 접근성을 열어준 디지털화 캠페인 문서. 이러한 문서는 XML ALTO 문서로 종종 사용 가능하지만, 그것들은 다음과 같다. 논리적 구조에 대한 정보가 부족합니다. 이 논문에서, 우리는 다음을 다룹니다. 프랑스어로 된 역사 문서에 적용되는 논리 배치 분석 문제. 우리는 우리가 평가하고 두 가지와 비교하는 규칙 기반 방법을 제안한다. 기계 학습 모델, 즉 RIPPER 및 Gradient Boosting. 데이터 세트 프랑스 신문, 정기 간행물, 잡지를 포함하고 있다. 프랑슈콩테 지역에서 20세기의 반을 보냈다. 결과. 우리들의 규칙 기반 시스템은 거의 모든 평가에서 다른 두 모델을 능가한다. 특히 리콜 결과가 더 우수하여 시스템이 더 많은 내용을 다루고 있음을 알 수 있습니다. 다른 두 모델보다 모든 논리 레이블의 유형. RIPPER를 비교할 때 Gradient Boosting을 사용하면 Gradient Boosting이 정밀도 점수는 RIPPER가 리콜 점수가 더 높습니다. 결론들 그 평가는 우리 시스템이 두 기계 학습 모델을 능가한다는 것을 보여준다. 훨씬 더 높은 리콜을 제공합니다. 그것은 또한 우리의 시스템이 할 수 있다는 것을 확인합니다. 다음을 예상할 수 있을 정도로 큰 주석 데이터 세트를 만드는 데 사용된다. 논리 배치 작업을 위한 머신러닝 또는 딥러닝 접근법 분석. 규칙과 머신러닝 모델을 하이브리드 시스템에 결합하면 잠재적으로 더 나은 공연을 제공할 수 있습니다. 또한, 의 레이아웃과 같이 역사적 문서들은 빠르게 진화한다, 이것을 극복하기 위한 하나의 가능한 해결책 문제는 규칙 학습 알고리즘을 부트스트랩 규칙 집합에 적용하는 것입니다. 다른 출판 기간에 맞게 조정되었다. 

 

 

반응형