[2022-01-06] 오늘의 자연어처리

2022. 1. 6. 10:30paper-of-the-day

반응형

 

An Adversarial Benchmark for Fake News Detection Models

 

With the proliferation of online misinformation, fake news detection has gained importance in the artificial intelligence community. In this paper, we propose an adversarial benchmark that tests the ability of fake news detectors to reason about real-world facts. We formulate adversarial attacks that target three aspects of "understanding": compositional semantics, lexical relations, and sensitivity to modifiers. We test our benchmark using BERT classifiers fine-tuned on the LIAR arXiv:arch-ive/1705648 and Kaggle Fake-News datasets, and show that both models fail to respond to changes in compositional and lexical meaning. Our results strengthen the need for such models to be used in conjunction with other fact checking methods.

 

온라인 오보의 확산과 함께, 가짜 뉴스 탐지는 인공지능 사회에서 중요해졌다. 이 논문에서, 우리는 가짜 뉴스 탐지기의 능력을 시험하는 적대적 벤치마크를 제안하다 현실 세계의 사실들을 추론하기 위해서요 우리는 목표물을 목표로 하는 적대적 공격을 공식화한다. "이해"의 세 가지 측면: 구성적 의미론, 어휘적 관계, 수식어에 대한 민감도. BERT 분류기를 사용하여 벤치마크를 테스트한다. LIARA arXiv:arch-ive/1705648 및 Kaggle Fake-News 데이터 세트에 미세 조정되었습니다. 그리고 두 모델 모두 구성 요소의 변화에 반응하지 못한다는 것을 보여준다. 어휘적 의미 우리의 결과는 그러한 모델이 사용될 필요성을 강화한다. 다른 사실 확인 방법과 연계한다. 

 

 

Multi-Stage Episodic Control for Strategic Exploration in Text Games

 

Text adventure games present unique challenges to reinforcement learning methods due to their combinatorially large action spaces and sparse rewards. The interplay of these two factors is particularly demanding because large action spaces require extensive exploration, while sparse rewards provide limited feedback. This work proposes to tackle the explore-vs-exploit dilemma using a multi-stage approach that explicitly disentangles these two strategies within each episode. Our algorithm, called eXploit-Then-eXplore (XTX), begins each episode using an exploitation policy that imitates a set of promising trajectories from the past, and then switches over to an exploration policy aimed at discovering novel actions that lead to unseen state spaces. This policy decomposition allows us to combine global decisions about which parts of the game space to return to with curiosity-based local exploration in that space, motivated by how a human may approach these games. Our method significantly outperforms prior approaches by 27% and 11% average normalized score over 12 games from the Jericho benchmark (Hausknecht et al., 2020) in both deterministic and stochastic settings, respectively. On the game of Zork1, in particular, XTX obtains a score of 103, more than a 2x improvement over prior methods, and pushes past several known bottlenecks in the game that have plagued previous state-of-the-art methods.

 

텍스트 어드벤처 게임은 강화 학습에 독특한 과제를 제시합니다. 조합적으로 큰 작업 공간과 희박한 보상 때문에 방법. 이 두 요인의 상호작용은 특히 요구되는데, 그 이유는 크다. 희박한 보상이 제공하는 반면, 액션 공간은 광범위한 탐사를 필요로 한다. 제한된 피드백. 이 연구는 탐색 대 착취 딜레마를 해결하기 위해 제안한다. 이 두 전략을 명확하게 분리하는 다단계 접근법을 사용한다. 각 에피소드마다. eXploit-Then-eXplore (XTX)라고 불리는 우리의 알고리즘은 시작된다. 유망한 것들을 모방한 착취 정책을 사용하는 각 에피소드 과거로부터의 궤적을 추적하고 탐사 정책으로 전환한다. 보이지 않는 상태 공간으로 이끄는 새로운 행동을 발견하는 것을 목표로 한다. 이것. 정책 분해는 우리가 어떤 부분의 국제적 결정을 결합할 수 있도록 한다 호기심에 기반한 지역 탐험으로 돌아갈 수 있는 게임 공간 인간이 이 게임에 어떻게 접근할 수 있는지에 의해 동기부여가 된 공간 우리의 방법 27%와 11%의 평균 정규화된 이전 접근법보다 훨씬 뛰어나다. 예리코 벤치마크(하우스크네히트 외, 2020)에서 12경기 이상을 득점하다 결정론적 설정과 확률적 설정 모두. Zork1 게임에서. 특히, XTX는 103의 점수를 얻는데, 이것은 보다 2배 이상 향상되었다. 이전 방법들, 그리고 게임에서 알려진 몇몇 병목 현상들을 밀어낸다. 이전의 최첨단 방법들을 괴롭혔죠 

 

 

Semantic Search for Large Scale Clinical Ontologies

 

Finding concepts in large clinical ontologies can be challenging when queries use different vocabularies. A search algorithm that overcomes this problem is useful in applications such as concept normalisation and ontology matching, where concepts can be referred to in different ways, using different synonyms. In this paper, we present a deep learning based approach to build a semantic search system for large clinical ontologies. We propose a Triplet-BERT model and a method that generates training data directly from the ontologies. The model is evaluated using five real benchmark data sets and the results show that our approach achieves high results on both free text to concept and concept to concept searching tasks, and outperforms all baseline methods.

 

대규모 임상 온톨로지에서 개념을 찾는 것은 질의 시 어려울 수 있다. 어휘를 달리하다 이 문제를 극복하는 검색 알고리즘은 다음과 같다. 개념 표준화 및 온톨로지 매칭과 같은 응용 분야에서 유용하다. 여기서 개념은 다른 동의어를 사용하여 다양한 방식으로 참조될 수 있다. 본 논문에서, 우리는 의미론을 구축하기 위한 딥 러닝 기반 접근법을 제시한다. 대규모 임상 온톨로지를 위한 시스템 검색 Triplet-BERT 모델을 제안한다. 그리고 온톨로지로부터 직접 교육 데이터를 생성하는 방법. 그 모델은 5개의 실제 벤치마크 데이터 세트를 사용하여 평가되며 결과는 다음과 같다. 우리의 접근방식이 개념에 대한 자유 텍스트와 둘 다에서 높은 결과를 달성한다. 검색 작업을 개념화하고 모든 기본 방법을 능가합니다. 

 

 

반응형