[2022-03-23] 오늘의 자연어처리

2022. 3. 23. 10:30paper-of-the-day

반응형

 

Continuous Detection, Rapidly React: Unseen Rumors Detection based on Continual Prompt-Tuning

 

Since open social platforms allow for a large and continuous flow of unverified information, rumors can emerge unexpectedly and spread quickly. However, existing rumor detection (RD) models often assume the same training and testing distributions and cannot cope with the continuously changing social network environment. This paper proposes a Continual Prompt-Tuning RD (CPT-RD) framework, which avoids catastrophic forgetting of upstream tasks during sequential task learning and enables knowledge transfer between domain tasks. To avoid forgetting, we optimize and store task-special soft-prompt for each domain. Furthermore, we also propose several strategies to transfer knowledge of upstream tasks to deal with emergencies and a task-conditioned prompt-wise hypernetwork (TPHNet) to consolidate past domains, enabling bidirectional knowledge transfer. Finally, CPT-RD is evaluated on English and Chinese RD datasets and is effective and efficient compared to state-of-the-art baselines, without data replay techniques and with only a few parameter tuning.

 

개방적인 소셜 플랫폼에서는 대규모로 지속적으로 검증되지 않은 정보는 예기치 않게 소문이 퍼지고 빠르게 퍼질 수 있습니다. 단, 기존 루머 검출(RD) 모델에서는 동일한 훈련을 전제로 하는 경우가 많습니다. 지속적으로 변화하는 사회 변화에 대처할 수 없는 배포 테스트 네트워크 환경 이 문서에서는 Continuous Prompt-Tuning RD(CPT-RD)를 제안합니다. 이 프레임워크에 의해 업스트림태스크가 파괴적으로 잊혀지는 것을 방지할 수 있습니다. 순차적 작업 학습 및 도메인 작업 간의 지식 전달을 가능하게 합니다. 델은, 잊히지 않게 하기 위해서, 각각의 태스크 전용의 소프트·프롬프트를 최적화해 보존하고 있습니다. 더 나아가, 우리는 지식을 전달하기 위한 몇 가지 전략도 제안한다. 비상사태에 대처하기 위한 상류 태스크와 태스크 조건의 신속한 대처 하이퍼 네트워크(TPHNet)를 사용하여 과거 도메인을 통합하고 양방향성을 실현합니다. 지식 전달 마지막으로 CPT-RD는 영어와 중국어 RD로 평가됩니다. 최신 베이스라인과 비교하여 효과적이고 효율적인 데이터셋을 제공합니다. 데이터 재생 기술을 사용하지 않고 몇 가지 파라미터 튜닝만 수행하면 됩니다. 

 

 

SU-NLP at SemEval-2022 Task 11: Complex Named Entity Recognition with Entity Linking

 

This paper describes the system proposed by Sabancı University Natural Language Processing Group in the SemEval-2022 MultiCoNER task. We developed an unsupervised entity linking pipeline that detects potential entity mentions with the help of Wikipedia and also uses the corresponding Wikipedia context to help the classifier in finding the named entity type of that mention. Our results showed that our pipeline improved performance significantly, especially for complex entities in low-context settings.

 

이 백서는 Sabancij University Natural이 제안한 시스템에 대해 설명합니다. SemEval-2022 MultiCo 언어 처리 그룹NER 태스크 델이 개발한 것은 잠재적인 엔티티 언급을 검출하는 파이프라인을 연결하는 비감독 엔티티 Wikipedia의 도움을 받아 또한 대응하는 Wikipedia 컨텍스트를 사용하여 분류자가 해당 언급의 명명된 엔티티 유형을 찾는 데 도움이 됩니다. 우리들의 결과는 우리의 파이프라인이 특히 성능을 크게 향상시켰다는 것을 보여주었다. 낮은 지연 시간 설정의 복잡한 엔티티에 사용됩니다. 

 

 

Language modeling via stochastic processes

 

Modern language models can generate high-quality short texts. However, they often meander or are incoherent when generating longer texts. These issues arise from the next-token-only language modeling objective. To address these issues, we introduce Time Control (TC), a language model that implicitly plans via a latent stochastic process. TC does this by learning a representation which maps the dynamics of how text changes in a document to the dynamics of a stochastic process of interest. Using this representation, the language model can generate text by first implicitly generating a document plan via a stochastic process, and then generating text that is consistent with this latent plan. Compared to domain-specific methods and fine-tuning GPT2 across a variety of text domains, TC improves performance on text infilling and discourse coherence. On long text generation settings, TC preserves the text structure both in terms of ordering (up to +40% better) and text length consistency (up to +17% better). Human evaluators also prefer TC's output 28.6% more than the baselines.

 

현대 언어 모델은 고품질의 짧은 텍스트를 생성할 수 있습니다. 단, 그들은 긴 텍스트를 생성할 때 종종 휘어지거나 일관성이 없습니다. 이러한 문제 다음 단계만의 언어 모델링 목표에서 발생합니다. 이러한 문제에 대처하기 위해 우리는 암묵적으로 계획하는 언어 모델인 시간 제어(TC)를 도입한다. 잠재된 확률적 과정을 통해서요 TC는 표현을 학습함으로써 이를 실현합니다. 이것은 문서의 텍스트가 어떻게 변화하는지의 역학에 대한 매핑입니다. 확률적 관심 과정입니다. 이 표현을 사용하여 언어 모델 는 먼저 를 통해 암묵적으로 문서 계획을 생성함으로써 텍스트를 생성할 수 있습니다. 확률적 과정, 그리고 이것과 일치하는 텍스트를 생성합니다. 잠복한 계획 도메인 고유의 방법 및 GPT2의 미세 조정과 비교하여 다양한 텍스트 도메인, TC는 텍스트 입력 및 담론의 일관성 긴 텍스트 생성 설정에서는 TC가 텍스트를 유지합니다. 순서(최대 +40% 향상)와 텍스트 길이 양면에서 구조화 일관성(최대 +17% 향상). 인간 평가자 역시 TC의 결과 28.6을 선호한다.% 베이스라인보다 더 많은. 

 

 

반응형