[2021-12-30] 오늘의 자연어처리

2021. 12. 30. 17:40paper-of-the-day

반응형

Mirror Matching: Document Matching Approach in Seed-driven Document Ranking for Medical Systematic Reviews

 

When medical researchers conduct a systematic review (SR), screening studies is the most time-consuming process: researchers read several thousands of medical literature and manually label them relevant or irrelevant. Screening prioritization (ie., document ranking) is an approach for assisting researchers by providing document rankings where relevant documents are ranked higher than irrelevant ones. Seed-driven document ranking (SDR) uses a known relevant document (ie., seed) as a query and generates such rankings. Previous work on SDR seeks ways to identify different term weights in a query document and utilizes them in a retrieval model to compute ranking scores. Alternatively, we formulate the SDR task as finding similar documents to a query document and produce rankings based on similarity scores. We propose a document matching measure named Mirror Matching, which calculates matching scores between medical abstract texts by incorporating common writing patterns, such as background, method, result, and conclusion in order. We conduct experiments on CLEF 2019 eHealth Task 2 TAR dataset, and the empirical results show this simple approach achieves the higher performance than traditional and neural retrieval models on Average Precision and Precision-focused metrics.

 

의료 연구자가 체계적인 검토(SR)를 실시할 경우, 선별 연구 가장 시간이 많이 걸리는 과정이다: 연구원들은 수천 개의 책을 읽는다. 의료 문헌에 관련 또는 관련 없는 레이블을 수동으로 지정합니다. 스크리닝 우선순위 설정(즉, 문서 순위 지정)은 연구자를 지원하기 위한 접근법이다. 관련 문서의 순위가 다음보다 높은 문서 순위를 제공하여 관련 없는 것들 SDR(Seed-Driven Document Ranking)은 알려진 관련성을 사용합니다. 문서(즉, 시드)를 쿼리로 생성하고 이러한 순위를 생성합니다. 이전 작업 SDR은 쿼리 문서에서 다른 용어 가중치를 식별하는 방법을 모색한다. 검색 모델에서 순위 점수를 계산하는 데 사용합니다. 대신, 우리는 SDR 작업을 쿼리 문서와 유사한 문서를 찾는 것으로 공식화하고 유사성 점수를 기반으로 순위를 산출합니다. 우리는 서류 일치를 제안한다. 의료 기관 간의 일치 점수를 계산하는 Mirror Matching이라는 측정 배경과 같은 일반적인 글쓰기 패턴을 통합함으로써 추상적인 텍스트, 방법, 결과, 결론을 순서대로 나열한다. 우리는 CLEF 2019에 대한 실험을 수행한다. eHealth Task 2 TAR 데이터 세트 및 경험적 결과는 이 간단한 접근방식을 보여준다. 기존 및 신경 검색 모델보다 더 높은 성능을 달성합니다. 평균 정밀도 및 정밀도 중심 메트릭. 

 

 

Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora

 

The problem of comparing two bodies of text and searching for words that differ in their usage between them arises often in digital humanities and computational social science. This is commonly approached by training word embeddings on each corpus, aligning the vector spaces, and looking for words whose cosine distance in the aligned space is large. However, these methods often require extensive filtering of the vocabulary to perform well, and - as we show in this work - result in unstable, and hence less reliable, results. We propose an alternative approach that does not use vector space alignment, and instead considers the neighbors of each word. The method is simple, interpretable and stable. We demonstrate its effectiveness in 9 different setups, considering different corpus splitting criteria (age, gender and profession of tweet authors, time of tweet) and different languages (English, French and Hebrew).

 

두 텍스트 본문을 비교하고 다음과 같은 단어를 검색하는 문제 그들 사이의 용법의 차이는 종종 디지털 인문학에서 발생한다. 컴퓨터 사회 과학 이것은 일반적으로 교육용어로 접근한다. 각 말뭉치에 임베딩, 벡터 공간 정렬, 단어 찾기 정렬된 공간에서 코사인 거리가 큰 경우. 그러나 이 방법들은 종종 잘하기 위해 광범위한 어휘 필터링을 필요로 한다. 우리는 이 연구에서 보여준다 - 결과는 불안정하고 따라서 신뢰성이 떨어진다. 우리는 벡터 공간 정렬을 사용하지 않는 대안적 접근법을 제안한다. 대신 각 단어의 이웃을 고려합니다. 방법은 간단합니다. 해석 가능하고 안정적입니다. 우리는 그것의 효과를 9가지로 입증한다. 설정, 다양한 말뭉치 분할 기준(나이, 성별 및)을 고려 트윗 작성자의 직업, 트윗 시간(Tweet Time) 및 다른 언어(영어, 프랑스어와 히브리어). 

 

 

Robust Security Analysis Based on Random Geometry Theory for Satellite-Terrestrial-Vehicle Network

 

Driven by B5G and 6G technologies, multi-network fusion is an indispensable tendency for future communications. In this paper, we focus on and analyze the \emph{security performance} (SP) of the \emph{satellite-terrestrial downlink transmission} (STDT). Here, the STDT is composed of a satellite network and a vehicular network with a legitimate mobile receiver and an mobile eavesdropper distributing. To theoretically analyze the SP of this system from the perspective of mobile terminals better, the random geometry theory is adopted, which assumes that both terrestrial vehicles are distributed stochastically in one beam of the satellite. Furthermore, based on this theory, the closed-form analytical expressions for two crucial and specific indicators in the STDT are derived, respectively, the secrecy outage probability and the ergodic secrecy capacity. Additionally, several related variables restricting the SP of the STDT are discussed, and specific schemes are presented to enhance the SP. Then, the asymptotic property is investigated in the high signal-to-noise ratio scenario, and accurate and asymptotic closed-form expressions are given. Finally, simulation results show that, under the precondition of guaranteeing the reliability of the STDT, the asymptotic solutions outperform the corresponding accurate results significantly in the effectiveness.

 

B5G와 6G 기술이 주도하는 다중 네트워크 융합은 필수불가결하다. 미래 커뮤니케이션 경향. 이 논문에서, 우리는 초점을 맞추고 분석한다. \emph{위성-지구 다운링크의 \emph{보안 성능}(SP) 전송}(STDT) 여기서, STDT는 위성 네트워크와 a로 구성되어 있다. 합법적인 모바일 수신기와 모바일 도청기를 갖춘 차량 네트워크 배포. 이론적으로 이 시스템의 SP를 분석하려면 이동 단말기의 관점 개선, 무작위 기하학 이론 채택, 이것은 두 지상 차량이 다음에서 확률적으로 분포되어 있다고 가정한다. 위성 빔 하나. 게다가, 이 이론에 기초하여, 닫힌 형태는 STDT에서 두 개의 중요하고 특정한 지표에 대한 분석 표현은 다음과 같다. 각각, 비밀유지 중단 확률과 에르고드 비밀유지 도출 용량. 또한, SP를 제한하는 몇 가지 관련 변수 STDT가 논의되고 SP를 강화하기 위한 구체적인 체계가 제시된다. 그러면. 점근 특성은 높은 신호 대 잡음비로 조사됩니다. 시나리오 및 정확하고 점근적인 폐쇄형 식이 제공된다. 마지막으로, 시뮬레이션 결과는 보증의 전제 조건 하에서 다음을 보여준다. STDT의 신뢰도, 점근적 해법은 다음을 능가한다. 그에 상응하는 정확한 결과가 효과에서 상당히 중요합니다. 

 

 

반응형