[2022-01-04] 오늘의 자연어처리

2022. 1. 4. 21:19paper-of-the-day

반응형

 

Hypers at ComMA@ICON: Modelling Aggressiveness, Gender Bias and Communal Bias Identification

 

Due to the exponentially increasing reach of social media, it is essential to focus on its negative aspects as it can potentially divide society and incite people into violence. In this paper, we present our system description of work on the shared task ComMA@ICON, where we have to classify how aggressive the sentence is and if the sentence is gender-biased or communal biased. These three could be the primary reasons to cause significant problems in society. As team Hypers we have proposed an approach that utilizes different pretrained models with Attention and mean pooling methods. We were able to get Rank 3 with 0.223 Instance F1 score on Bengali, Rank 2 with 0.322 Instance F1 score on Multi-lingual set, Rank 4 with 0.129 Instance F1 score on Meitei and Rank 5 with 0.336 Instance F1 score on Hindi. The source code and the pretrained models of this work can be found here.

 

기하급수적으로 증가하는 소셜 미디어의 범위로 인해, 다음을 수행하는 것은 필수적이다. 그것이 잠재적으로 사회를 분열시키고 선동할 수 있기 때문에 그것의 부정적인 측면에 초점을 맞춘다. 폭력에 빠진 사람들. 본 논문에서, 우리는 우리의 작업에 대한 시스템 설명을 제시한다. 공유 작업 ComMA@ICON에서, 우리가 얼마나 공격적인지 분류해야 합니다. 문장은 성차별적이거나 공동편향적인지 여부이다. 이것들 세 가지가 사회에 중대한 문제를 일으키는 주요한 이유일 수 있다. ~하듯이 팀 관계자들 서로 다른 사전 교육 방식을 사용하는 방법을 제안했습니다. 주의 및 평균 풀링 방법이 있는 모형. 저희가 이렇게 3위를 할 수 있었던 것 같아요. 0.223 벵골어 인스턴스 F1 점수, 0.322 인스턴스 F1 점수 2위 다국어 집합, Meitei에서 0.129 인스턴스 F1 점수로 4위, 5위 힌디어에서 0.336 인스턴스 F1 점수를 받았다. 소스 코드 및 사전 교육된 코드 이 작품의 모델은 여기에서 찾을 수 있습니다. 

 

 

Informed Multi-context Entity Alignment

 

Entity alignment is a crucial step in integrating knowledge graphs (KGs) from multiple sources. Previous attempts at entity alignment have explored different KG structures, such as neighborhood-based and path-based contexts, to learn entity embeddings, but they are limited in capturing the multi-context features. Moreover, most approaches directly utilize the embedding similarity to determine entity alignment without considering the global interaction among entities and relations. In this work, we propose an Informed Multi-context Entity Alignment (IMEA) model to address these issues. In particular, we introduce Transformer to flexibly capture the relation, path, and neighborhood contexts, and design holistic reasoning to estimate alignment probabilities based on both embedding similarity and the relation/entity functionality. The alignment evidence obtained from holistic reasoning is further injected back into the Transformer via the proposed soft label editing to inform embedding learning. Experimental results on several benchmark datasets demonstrate the superiority of our IMEA model compared with existing state-of-the-art entity alignment methods.

 

엔티티 정렬은 다음과 같은 지식 그래프(KG)를 통합하는 중요한 단계이다. 여러 출처. 도면요소 정렬에 대한 이전 시도는 서로 다릅니다. 이웃 기반 및 경로 기반 컨텍스트와 같은 KG 구조 학습 엔티티 임베딩, 그러나 다중 캐피톨을 캡처하는 데 한계가 있습니다. 특징들 더욱이, 대부분의 접근법은 내재된 유사성을 직접적으로 이용한다. 사이의 전역 교호작용을 고려하지 않고 도면요소 정렬을 결정 엔티티 및 관계. 본 연구에서는 정보에 입각한 다중 컨텍스트를 제안한다. 이러한 문제를 해결하기 위한 도면요소 정렬(IMEA) 모델. 특히 저희가. 관계, 경로, 이웃을 유연하게 포착할 수 있는 트랜스포머 도입 맥락 및 정렬 확률을 추정하기 위한 전체론적 추론 설계 내재된 유사성과 관계/관계 기능 모두에 기초한다. 그 전체론적 추론에서 얻은 정렬 증거는 다시 주입된다. 임베딩을 알리기 위해 제안된 소프트 라벨 편집을 통해 트랜스포머로 학식. 여러 벤치마크 데이터 세트에 대한 실험 결과는 다음을 입증한다. 기존의 최첨단 엔티티에 비해 IMEA 모델의 우수성 정렬 방법. 

 

 

How do lexical semantics affect translation? An empirical study

 

Neural machine translation (NMT) systems aim to map text from one language into another. While there are a wide variety of applications of NMT, one of the most important is translation of natural language. A distinguishing factor of natural language is that words are typically ordered according to the rules of the grammar of a given language. Although many advances have been made in developing NMT systems for translating natural language, little research has been done on understanding how the word ordering of and lexical similarity between the source and target language affect translation performance. Here, we investigate these relationships on a variety of low-resource language pairs from the OpenSubtitles2016 database, where the source language is English, and find that the more similar the target language is to English, the greater the translation performance. In addition, we study the impact of providing NMT models with part of speech of words (POS) in the English sequence and find that, for Transformer-based models, the more dissimilar the target language is from English, the greater the benefit provided by POS.

 

신경 기계 번역(NMT) 시스템은 한 언어에서 텍스트를 매핑하는 것을 목표로 한다. 다른 것으로. NMT의 다양한 응용이 있는 동안, 가장 중요한 것은 자연어 번역이다. 의 구별되는 요소 자연어는 단어들이 전형적으로 의 규칙에 따라 정렬되는 것이다. 주어진 언어의 문법 비록 많은 발전이 있었지만 자연어를 번역하기 위한 NMT 시스템을 개발하는 것, 약간의 연구가 있었다 단어 순서와 어휘적 유사성이 어떻게 이해되었는지에 대해 수행되었다. 소스 언어와 대상 언어 사이에서 번역 성능에 영향을 미칩니다. 자, 우리. 다양한 저자원 언어 쌍에서 이러한 관계를 조사한다. 원본 언어가 영어인 OpenSubtitles2016 데이터베이스에서 목표 언어가 영어와 더 유사할수록, 더 크다는 것을 발견한다. 번역 공연. 추가로, 우리는 NMT 제공의 영향을 연구한다. 영어 순서에서 단어의 음성(POS)의 일부가 있는 모델 및 찾기 즉, 트랜스포머 기반 모델의 경우 대상 언어가 더 다를 수 있습니다. 영어에서, POS가 제공하는 혜택은 더 크다. 

 

 

반응형