[2022-01-10] 오늘의 자연어처리

2022. 1. 10. 10:30paper-of-the-day

반응형

 

Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model

 

Despite the rapid progress of end-to-end (E2E) automatic speech recognition (ASR), it has been shown that incorporating external language models (LMs) into the decoding can further improve the recognition performance of E2E ASR systems. To align with the modeling units adopted in E2E ASR systems, subword-level (e.g., characters, BPE) LMs are usually used to cooperate with current E2E ASR systems. However, the use of subword-level LMs will ignore the word-level information, which may limit the strength of the external LMs in E2E ASR. Although several methods have been proposed to incorporate word-level external LMs in E2E ASR, these methods are mainly designed for languages with clear word boundaries such as English and cannot be directly applied to languages like Mandarin, in which each character sequence can have multiple corresponding word sequences. To this end, we propose a novel decoding algorithm where a word-level lattice is constructed on-the-fly to consider all possible word sequences for each partial hypothesis. Then, the LM score of the hypothesis is obtained by intersecting the generated lattice with an external word N-gram LM. The proposed method is examined on both Attention-based Encoder-Decoder (AED) and Neural Transducer (NT) frameworks. Experiments suggest that our method consistently outperforms subword-level LMs, including N-gram LM and neural network LM. We achieve state-of-the-art results on both Aishell-1 (CER 4.18%) and Aishell-2 (CER 5.06%) datasets and reduce CER by 14.8% relatively on a 21K-hour Mandarin dataset.

 

E2E(End-to-End) 자동 음성 인식의 빠른 발전에도 불구하고 (ASR), 외부 언어 모델(LM)을 포함하는 것으로 나타났다. 디코딩은 E2E ASR의 인식 성능을 더욱 향상시킬 수 있습니다. 시스템들 E2E ASR 시스템에 채택된 모델링 유닛과 정렬하려면 하위 단어 수준(예: 문자, BPE) LM은 일반적으로 다음과 협력하기 위해 사용됩니다. 현재 E2E ASR 시스템. 그러나 하위 단어 수준의 LM의 사용은 다음을 무시할 것이다. E2E에서 외부 LM의 강도를 제한할 수 있는 단어 수준 정보 단어 수준을 통합하기 위한 몇 가지 방법이 제안되었지만, ASR. E2E ASR의 외부 LM, 이 방법들은 주로 다음과 같은 언어를 위해 설계되었다. 영어와 같은 명확한 단어 경계 및 직접 적용할 수 없습니다. 만다린과 같은 언어들, 각각의 문자 시퀀스가 여러 개를 가질 수 있는 해당 단어 순서. 이를 위해 새로운 디코딩을 제안한다. 단어 수준의 격자를 즉시 구성하여 모두를 고려하는 알고리즘 각 부분 가설에 대해 가능한 단어 순서. 그러면 LM 점수. 가설은 생성된 격자와 외부 격자를 교차시킴으로써 얻어진다. 단어 N-그램 LM. 제안된 방법은 두 주의 기반 모두에서 검토된다. 인코더-디코더(AED) 및 신경 변환기(NT) 프레임워크. 실험 우리의 방법이 다음을 포함한 하위 단어 수준의 LM을 지속적으로 능가함을 시사한다. N그램 LM과 신경망 LM. 우리는 둘 다에 대해 최첨단 결과를 달성한다. Aishell-1(CER 4.18%) 및 Aishell-2(CER 5.06%) 데이터 세트를 사용하고 CER을 다음과 같이 줄입니다. 21K 시간 만다린 데이터 세트에서 상대적으로 14.8%를 차지했다. 

 

 

BERN2: an advanced neural biomedical named entity recognition and normalization tool

 

In biomedical natural language processing, named entity recognition (NER) and named entity normalization (NEN) are key tasks that enable the automatic extraction of biomedical entities (e.g., diseases and chemicals) from the ever-growing biomedical literature. In this paper, we present BERN2 (Advanced Biomedical Entity Recognition and Normalization), a tool that improves the previous neural network-based NER tool (Kim et al., 2019) by employing a multi-task NER model and neural network-based NEN models to achieve much faster and more accurate inference. We hope that our tool can help annotate large-scale biomedical texts more accurately for various tasks such as biomedical knowledge graph construction.

 

생물 의학 자연어 처리에서 명명된 개체 인식(NER)과 명명된 엔티티 정규화(NEN)는 자동을 활성화하는 주요 작업입니다. 질병 및 화학 물질과 같은 생물의학적 실체 추출 계속 성장하는 생물의학 문학 이 백서에서는 BERN2(고급)에 대해 설명합니다. Biomedical Entity 인식 및 표준화)를 개선하는 도구 이전 신경망 기반 NER 도구(Kim 등, 2019)를 사용하여 멀티태스킹 NER 모델 및 신경망 기반 NEN 모델을 통해 훨씬 더 빠르게 달성 더 정확한 추론을 할 수 있습니다. 우리는 우리의 도구가 주석을 달 수 있기를 바란다. 다음과 같은 다양한 작업을 위해 더 정확하게 대규모 생물의학 텍스트 생물의학 지식 그래프 구성. 

 

 

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation

 

Common designs of model evaluation typically focus on monolingual settings, where different models are compared according to their performance on a single data set that is assumed to be representative of all possible data for the task at hand. While this may be reasonable for a large data set, this assumption is difficult to maintain in low-resource scenarios, where artifacts of the data collection can yield data sets that are outliers, potentially making conclusions about model performance coincidental. To address these concerns, we investigate model generalizability in crosslinguistic low-resource scenarios. Using morphological segmentation as the test case, we compare three broad classes of models with different parameterizations, taking data from 11 languages across 6 language families. In each experimental setting, we evaluate all models on a first data set, then examine their performance consistency when introducing new randomly sampled data sets with the same size and when applying the trained models to unseen test sets of varying sizes. The results demonstrate that the extent of model generalization depends on the characteristics of the data set, and does not necessarily rely heavily on the data set size. Among the characteristics that we studied, the ratio of morpheme overlap and that of the average number of morphemes per word between the training and test sets are the two most prominent factors. Our findings suggest that future work should adopt random sampling to construct data sets with different sizes in order to make more responsible claims about model evaluation.

 

모델 평가의 일반적인 설계는 일반적으로 단일 언어 설정에 초점을 맞춘다. 단일 모델에서의 성능에 따라 서로 다른 모델을 비교한다. 작업에 대해 가능한 모든 데이터를 나타내는 것으로 가정되는 데이터 세트 눈앞에 이것이 대규모 데이터 세트에 대해 합리적일 수 있지만, 이 가정은 다음과 같다. 데이터의 아티팩트가 있는 저자원 시나리오에서는 유지 관리가 어렵다. 수집은 잠재적으로 만드는 특이치인 데이터 집합을 생성할 수 있습니다. 모델 성능에 대한 결론은 우연의 일치입니다. 이러한 우려를 해결하기 위해, 우리는 교차 언어 저자원 시나리오에서 모델 일반화 가능성을 조사한다. 형태학적 분할을 테스트 사례로 사용하여, 우리는 세 가지 광범위한 것을 비교한다. 모수화가 서로 다른 모델 클래스, 11에서 데이터를 가져옵니다. 6개 어족에 걸친 언어. 각 실험 환경에서, 우리는 첫 번째 데이터 집합의 모든 모델을 선택한 다음 성능 일관성을 검사합니다. 동일한 크기와 적용 시 랜덤하게 추출된 데이터 세트를 새로 도입 다양한 크기의 보이지 않는 테스트 세트에 대해 훈련된 모델. 결과 모델 일반화의 범위가 에 따라 다르다는 것을 입증한다. 데이터 세트의 특성, 그리고 반드시 데이터 세트에 크게 의존하지 않는다. 데이터 세트 크기. 우리가 연구한 특징 중 형태소의 비율은 겹치는 것은 단어당 평균 형태소 수이다. 훈련과 시험 세트는 가장 중요한 두 가지 요소이다. 우리가 발견한 바에 따르면 향후 작업이 다음과 같은 데이터 세트를 구성하기 위해 무작위 샘플링을 채택해야 한다. 모델에 대해 보다 책임감 있는 주장을 하기 위해 다양한 크기 평가하기 

 

 

반응형