[2022-03-25] 오늘의 자연어처리

2022. 3. 25. 10:30paper-of-the-day

반응형

 

Linearizing Transformer with Key-Value Memory Bank

 

Transformer has brought great success to a wide range of natural language processing tasks. Nevertheless, the computational overhead of the vanilla transformer scales quadratically with sequence length. Many efforts have been made to develop more efficient transformer variants. A line of work (e.g., Linformer) projects the input sequence into a low-rank space, achieving linear time complexity. However, Linformer does not suit well for text generation tasks as the sequence length must be pre-specified. We propose MemSizer, an approach also projects the source sequence into lower dimension representation but can take input with dynamic length, with a different perspective of the attention mechanism. MemSizer not only achieves the same linear time complexity but also enjoys efficient recurrent-style autoregressive generation, which yields constant memory complexity and reduced computation at inference. We demonstrate that MemSizer provides an improved tradeoff between efficiency and accuracy over the vanilla transformer and other linear variants in language modeling and machine translation tasks, revealing a viable direction towards further inference efficiency improvement.

 

트랜스포머는 다양한 자연어에 큰 성공을 가져다 주었습니다. 처리 태스크 그럼에도 불구하고, 바닐라의 계산 오버헤드는 변압기는 시퀀스 길이에 따라 2차적으로 축척됩니다. 많은 노력이 있었다. 보다 효율적인 변압기 변형을 개발하도록 제작되었습니다. 작업 라인(예: Linformer)는 입력 시퀀스를 낮은 등급의 공간에 투영하여 선형으로 구현합니다. 시간의 복잡성 그러나 Linformer는 텍스트 생성에 적합하지 않습니다. 작업(시퀀스 길이)을 사전에 지정해야 합니다. MemSizer를 제안합니다. 접근법은 또한 소스 시퀀스를 저차원 표현에 투영한다. 단, 동적 길이로 입력을 받을 수 있으며, 다른 관점에서 주의 메커니즘. MemSizer는 동일한 선형 시간 복잡성을 달성할 뿐만 아니라 효율적인 반복 스타일의 자기 회귀 생성을 즐기기도 합니다. 일정한 메모리 복잡성과 추론 시 계산 감소가 발생합니다. 우리가 MemSizer가 효율과 효율 간의 트레이드오프를 개선한다는 것을 증명합니다. 언어의 바닐라 변압기와 다른 선형 변형을 능가하는 정확성 모델링 및 기계 번역 태스크로 실현 가능한 방향을 제시합니다. 추가 추론 효율성 개선. 

 

 

Classifying Cyber-Risky Clinical Notes by Employing Natural Language Processing

 

Clinical notes, which can be embedded into electronic medical records, document patient care delivery and summarize interactions between healthcare providers and patients. These clinical notes directly inform patient care and can also indirectly inform research and quality/safety metrics, among other indirect metrics. Recently, some states within the United States of America require patients to have open access to their clinical notes to improve the exchange of patient information for patient care. Thus, developing methods to assess the cyber risks of clinical notes before sharing and exchanging data is critical. While existing natural language processing techniques are geared to de-identify clinical notes, to the best of our knowledge, few have focused on classifying sensitive-information risk, which is a fundamental step toward developing effective, widespread protection of patient health information. To bridge this gap, this research investigates methods for identifying security/privacy risks within clinical notes. The classification either can be used upstream to identify areas within notes that likely contain sensitive information or downstream to improve the identification of clinical notes that have not been entirely de-identified. We develop several models using unigram and word2vec features with different classifiers to categorize sentence risk. Experiments on i2b2 de-identification dataset show that the SVM classifier using word2vec features obtained a maximum F1-score of 0.792. Future research involves articulation and differentiation of risk in terms of different global regulatory requirements.

 

임상기록은 전자 진료기록에 포함될 수 있고 환자 진료 제공을 문서화하고 의료 서비스 간의 상호 작용을 요약한다. 프로바이더와 환자. 이러한 임상 노트는 환자 치료에 직접적으로 정보를 직접 제공합니다. 또한 특히 연구 및 품질/안전 지표에 간접적으로 정보를 제공할 수 있다. 간접 메트릭스 최근에, 미국의 몇몇 주들은 환자에게 임상 기록을 공개하여 개선하도록 요구하다 환자 치료를 위한 환자 정보 교환. 따라서, 다음과 같은 방법을 개발합니다. 데이터를 공유하고 교환하기 전에 임상 기록의 사이버 위험을 평가한다. 중대. 기존의 자연어 처리 기법은 다음과 같은 특징을 가지고 있습니다. 우리가 아는 한, 임상 기록을 삭제한 사람은 거의 없다. 기밀 정보 위험의 분류, 이것은 을 향한 기본적인 단계이다. 효과적이고 광범위한 환자 건강 정보 보호 개발. 로. 이 틈새를 메우기 위해, 이 연구는 식별 방법을 조사한다. 임상 기록 내의 보안/위험 요소. 분류는 다음 중 하나입니다. 민감한 부분을 포함할 가능성이 있는 노트 내의 영역을 식별하기 위해 업스트림에서 사용됩니다. 임상 기록의 식별을 개선하기 위한 정보 또는 하류 완전히 신원이 밝혀지진 않았습니다. 유니그램을 사용하여 여러 모델을 개발합니다. 문장 위험을 분류하기 위해 다른 분류자를 가진 word2vec 기능. i2b2 식별 해제 데이터 세트에 대한 실험 결과 SVM 분류자는 word2vec 기능을 사용하면 최대 F1 점수 0.792를 얻을 수 있습니다. 장래의 연구 다양한 글로벌 관점에서 리스크의 명확화와 차별화를 수반한다. 규제 요건 

 

 

Duality-Induced Regularizer for Tensor Factorization Based Knowledge Graph Completion

 

Tensor factorization based models have shown great power in knowledge graph completion (KGC). However, their performance usually suffers from the overfitting problem seriously. This motivates various regularizers -- such as the squared Frobenius norm and tensor nuclear norm regularizers -- while the limited applicability significantly limits their practical usage. To address this challenge, we propose a novel regularizer -- namely, DUality-induced RegulArizer (DURA) -- which is not only effective in improving the performance of existing models but widely applicable to various methods. The major novelty of DURA is based on the observation that, for an existing tensor factorization based KGC model (primal), there is often another distance based KGC model (dual) closely associated with it. Experiments show that DURA yields consistent and significant improvements on benchmarks.

 

텐서 인수분해 기반 모델은 지식 그래프에서 큰 힘을 보여주었다. 완료(KGC) 하지만, 그들의 퍼포먼스는 보통 그 때문에 어려움을 겪는다. 문제를 심각하게 해결했습니다. 이것은 다양한 레귤러라이저의 동기를 부여합니다. 제곱 프로베니우스 노름과 텐서 핵 노름 정규화 - 반면 제한된 적용성은 실제 사용을 크게 제한합니다. 수신처 이 도전, 우리는 새로운 레귤러라이저, 즉 DUALITY 유도 RegulArizer(DURA) - 퍼포먼스 향상에만 효과적이지 않습니다. 다양한 방법에 폭넓게 적용할 수 있습니다. 주요 신규성 DURA의 경우 기존 텐서 인수 분해에 대한 관찰에 기초한다. 베이스의 KGC 모델(기본), 종종 다른 거리 베이스의 KGC 모델이 있습니다. (생물학) 그것과 밀접하게 관련되어 있다. 실험 결과 DURA는 일관되게 산출된다 벤치마크의 대폭적인 개선. 

 

 

반응형