[2022-03-04] 오늘의 자연어처리

2022. 3. 4. 10:30paper-of-the-day

반응형

 

Large-Scale Hate Speech Detection with Cross-Domain Transfer

 

The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.

 

혐오 음성 탐지 모델의 성능은 다음의 데이터 세트에 의존한다. 모델들이 훈련받은 것들이죠 기존 데이터 세트는 대부분 다음과 같이 준비된다. 혐오 주제를 정의하는 제한된 수의 인스턴스 또는 혐오 도메인. 이것. 증오와 관련된 대규모 분석과 이전 학습을 방해한다. 도메인. 본 연구에서는 혐오 발언을 위한 대규모 트윗 데이터 세트를 구성한다. 영어와 저자원 언어 터키어에서 감지, 다음으로 구성된다. 각각 10만 개의 트윗을 인간으로 분류합니다. 우리의 데이터 세트는 다음과 같이 설계된다. 5개 도메인에 걸쳐 배포된 트윗 수. 실험 결과는 통계 테스트에 의해 지원된 트랜스포머 기반 언어 모델은 기존 단어 가방 및 신경 모델을 최소 5% 이상 능가합니다. 대규모 혐오 발언 탐지를 위해 영어와 터키어 10%를 사용합니다. 그 성능은 또한 다른 교육 크기로도 확장 가능하므로 98%는 다음과 같다. 영어 수행 능력, 그리고 터키어 97%는 20%의 훈련을 받았을 때 회복된다. 인스턴스가 사용됩니다. 우리는 다음에 대한 일반화 능력을 추가로 검토한다. 증오 도메인 간의 도메인 간 전송. 우리는 96%의 성과를 보여 준다. 영어의 경우 평균적으로 다른 도메인에 의해 복구됩니다. 터키인은 92%입니다. 성별과 종교는 다른 것으로 일반화하는데 더 성공적이다. 스포츠는 가장 많이 실패하는 반면, 도메인. 

 

 

A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

 

As an important fine-grained sentiment analysis problem, aspect-based sentiment analysis (ABSA), aiming to analyze and understand people's opinions at the aspect level, has been attracting considerable interest in the last decade. To handle ABSA in different scenarios, various tasks have been introduced for analyzing different sentiment elements and their relations, including the aspect term, aspect category, opinion term, and sentiment polarity. Unlike early ABSA works focusing on a single sentiment element, many compound ABSA tasks involving multiple elements have been studied in recent years for capturing more complete aspect-level sentiment information. However, a systematic review of various ABSA tasks and their corresponding solutions is still lacking, which we aim to fill in this survey. More specifically, we provide a new taxonomy for ABSA which organizes existing studies from the axes of concerned sentiment elements, with an emphasis on recent advances of compound ABSA tasks. From the perspective of solutions, we summarize the utilization of pre-trained language models for ABSA, which improved the performance of ABSA to a new stage. Besides, techniques for building more practical ABSA systems in cross-domain/lingual scenarios are discussed. Finally, we review some emerging topics and discuss some open challenges to outlook potential future directions of ABSA.

 

세밀한 중요한 감정 분석 문제로서, 측면 기반 사람들의 의견을 분석하고 이해하는 것을 목표로 하는 감정 분석(ABSA) 측면 수준에서, 지난 번에서 상당한 관심을 끌고 있다. 다양한 시나리오에서 ABSA를 다루기 위해 다양한 작업이 수행되어 왔다. 다양한 감정 요소와 그들의 관계를 분석하기 위해 소개되었다. 측면 용어, 측면 범주, 의견 용어 및 정서를 포함하여 극성입니다. 초창기 ABSA가 하나의 감성적인 요소에 초점을 맞춘 것과 달리, 많은 것들이 다중 요소를 포함하는 복합 ABSA 작업이 최근에 연구되었다. 보다 완벽한 측면 수준의 정서 정보를 포착하기 위해 수 년을 투자했습니다. 하지만 다양한 ABSA 과제와 그에 상응하는 해결책의 체계적인 검토는 다음과 같다. 우리는 이 설문조사를 통해 아직 부족한 부분을 채우고자 한다. 좀 더 구체적으로, 우리는 축으로부터 기존 연구를 구성하는 ABSA에 대한 새로운 분류법을 제공한다. 근래의 진보에 중점을 두고, 관심있는 감정 요소들 복합 ABSA 태스크. 솔루션의 관점에서, 우리는 다음을 요약한다. ABSA를 위한 사전 훈련된 언어 모델의 활용, 개선 새로운 무대로의 ABSA의 공연. 게다가, 더 많이 짓는 기술들은 교차 도메인/언어 시나리오에서 실질적인 ABSA 시스템이 논의된다. 마지막으로, 우리는 몇 가지 새로운 주제를 검토하고 다음과 같은 몇 가지 미해결 과제에 대해 논의한다. ABSA의 잠재적 미래 방향을 전망한다. 

 

 

A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

 

As an important fine-grained sentiment analysis problem, aspect-based sentiment analysis (ABSA), aiming to analyze and understand people's opinions at the aspect level, has been attracting considerable interest in the last decade. To handle ABSA in different scenarios, various tasks have been introduced for analyzing different sentiment elements and their relations, including the aspect term, aspect category, opinion term, and sentiment polarity. Unlike early ABSA works focusing on a single sentiment element, many compound ABSA tasks involving multiple elements have been studied in recent years for capturing more complete aspect-level sentiment information. However, a systematic review of various ABSA tasks and their corresponding solutions is still lacking, which we aim to fill in this survey. More specifically, we provide a new taxonomy for ABSA which organizes existing studies from the axes of concerned sentiment elements, with an emphasis on recent advances of compound ABSA tasks. From the perspective of solutions, we summarize the utilization of pre-trained language models for ABSA, which improved the performance of ABSA to a new stage. Besides, techniques for building more practical ABSA systems in cross-domain/lingual scenarios are discussed. Finally, we review some emerging topics and discuss some open challenges to outlook potential future directions of ABSA.

 

세밀한 중요한 감정 분석 문제로서, 측면 기반 사람들의 의견을 분석하고 이해하는 것을 목표로 하는 감정 분석(ABSA) 측면 수준에서, 지난 번에서 상당한 관심을 끌고 있다. 다양한 시나리오에서 ABSA를 다루기 위해 다양한 작업이 수행되어 왔다. 다양한 감정 요소와 그들의 관계를 분석하기 위해 소개되었다. 측면 용어, 측면 범주, 의견 용어 및 정서를 포함하여 극성입니다. 초창기 ABSA가 하나의 감성적인 요소에 초점을 맞춘 것과 달리, 많은 것들이 다중 요소를 포함하는 복합 ABSA 작업이 최근에 연구되었다. 보다 완벽한 측면 수준의 정서 정보를 포착하기 위해 수 년을 투자했습니다. 하지만 다양한 ABSA 과제와 그에 상응하는 해결책의 체계적인 검토는 다음과 같다. 우리는 이 설문조사를 통해 아직 부족한 부분을 채우고자 한다. 좀 더 구체적으로, 우리는 축으로부터 기존 연구를 구성하는 ABSA에 대한 새로운 분류법을 제공한다. 근래의 진보에 중점을 두고, 관심있는 감정 요소들 복합 ABSA 태스크. 솔루션의 관점에서, 우리는 다음을 요약한다. ABSA를 위한 사전 훈련된 언어 모델의 활용, 개선 새로운 무대로의 ABSA의 공연. 게다가, 더 많이 짓는 기술들은 교차 도메인/언어 시나리오에서 실질적인 ABSA 시스템이 논의된다. 마지막으로, 우리는 몇 가지 새로운 주제를 검토하고 다음과 같은 몇 가지 미해결 과제에 대해 논의한다. ABSA의 잠재적 미래 방향을 전망한다. 

 

 

반응형