[2022-01-12] 오늘의 자연어처리

2022. 1. 12. 10:30paper-of-the-day

반응형

 

BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives

 

BERT has revolutionized the NLP field by enabling transfer learning with large language models that can capture complex textual patterns, reaching the state-of-the-art for an expressive number of NLP applications. For text classification tasks, BERT has already been extensively explored. However, aspects like how to better cope with the different embeddings provided by the BERT output layer and the usage of language-specific instead of multilingual models are not well studied in the literature, especially for the Brazilian Portuguese language. The purpose of this article is to conduct an extensive experimental study regarding different strategies for aggregating the features produced in the BERT output layer, with a focus on the sentiment analysis task. The experiments include BERT models trained with Brazilian Portuguese corpora and the multilingual version, contemplating multiple aggregation strategies and open-source datasets with predefined training, validation, and test partitions to facilitate the reproducibility of the results. BERT achieved the highest ROC-AUC values for the majority of cases as compared to TF-IDF. Nonetheless, TF-IDF represents a good trade-off between the predictive performance and computational cost.

 

BERT는 NLP 분야를 혁신적으로 변화시켰다. 복잡한 텍스트 패턴을 캡처할 수 있는 대규모 언어 모델, 도달 표현 가능한 수의 NLP 애플리케이션을 위한 최신 기술. 텍스트의 경우 분류 작업, BERT는 이미 광범위하게 탐색되었다. 하지만 에 의해 제공되는 다양한 임베딩에 더 잘 대처하는 방법과 같은 측면 BERT 출력 계층 및 다국어 대신 언어별 사용 모델들은 문헌에서 잘 연구되지 않는다, 특히 브라질 사람들에게 포르투갈어. 이 글의 목적은 광범위한 작업을 수행하는 것이다. 특징을 종합하기 위한 다양한 전략에 관한 실험적 연구 감정 분석 작업에 중점을 두고 BERT 출력 계층에서 생성된다. 실험은 브라질 포르투갈 말뭉치로 훈련된 BERT 모델을 포함한다. 다국어 버전, 다중 집계 전략 및 사전 정의된 교육, 검증 및 테스트 파티션이 있는 오픈 소스 데이터셋 결과의 재현성을 용이하게 하기 위해. BERT는 최고를 달성했다. TF-IDF와 비교하여 대부분의 경우 ROC-AUC 값. 그럼에도 불구하고. TF-IDF는 예측 성과와 예측 성과 사이의 좋은 균형을 나타낸다. 계산 비용 

 

 

A Survey of Plagiarism Detection Systems: Case of Use with English, French and Arabic Languages

 

In academia, plagiarism is certainly not an emerging concern, but it became of a greater magnitude with the popularisation of the Internet and the ease of access to a worldwide source of content, rendering human-only intervention insufficient. Despite that, plagiarism is far from being an unaddressed problem, as computer-assisted plagiarism detection is currently an active area of research that falls within the field of Information Retrieval (IR) and Natural Language Processing (NLP). Many software solutions emerged to help fulfil this task, and this paper presents an overview of plagiarism detection systems for use in Arabic, French, and English academic and educational settings. The comparison was held between eight systems and was performed with respect to their features, usability, technical aspects, as well as their performance in detecting three levels of obfuscation from different sources: verbatim, paraphrase, and cross-language plagiarism. An indepth examination of technical forms of plagiarism was also performed in the context of this study. In addition, a survey of plagiarism typologies and classifications proposed by different authors is provided.

 

학계에서 표절은 확실히 새로운 관심사는 아니지만, 그것은 문제가 되었다. 인터넷의 대중화와 의 용이성과 함께 더 큰 규모의 전 세계 컨텐츠 소스에 대한 액세스, 인간만의 개입 불충분한 그럼에도 불구하고 표절은 다루지 않는 것과는 거리가 멀다. 컴퓨터 지원 표절 감지가 현재 활성 영역이기 때문에 문제 정보 검색(IR) 분야에 속하는 연구 및 NLP(Natural Language Processing)입니다. 많은 소프트웨어 솔루션이 등장하여 이 과제를 완수하고, 이 논문은 표절 감지에 대한 개요를 제시한다. 아랍어, 프랑스어, 영어 학술 및 교육용 시스템 설정. 비교는 8개 시스템 사이에서 이루어졌고 다음을 사용하여 수행되었다. 그 특징, 사용성, 기술적 측면, 그리고 그들의 특징에 관하여 서로 다른 소스에서 세 가지 수준의 난독화를 탐지하는 성능: 문자 그대로의 표현, 번역, 그리고 교차 언어 표절. 의 내부 조사 표절의 기술적 형태 또한 이 연구의 맥락에서 수행되었다. 또한, 표절 유형 및 분류에 대한 조사는 다음에 의해 제안되었다. 다른 작성자가 제공됩니다. 

 

 

NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese

 

This paper presents and makes publicly available the NILC-Metrix, a computational system comprising 200 metrics proposed in studies on discourse, psycholinguistics, cognitive and computational linguistics, to assess textual complexity in Brazilian Portuguese (BP). These metrics are relevant for descriptive analysis and the creation of computational models and can be used to extract information from various linguistic levels of written and spoken language. The metrics in NILC-Metrix were developed during the last 13 years, starting in 2008 with Coh-Metrix-Port, a tool developed within the scope of the PorSimples project. Coh-Metrix-Port adapted some metrics to BP from the Coh-Metrix tool that computes metrics related to cohesion and coherence of texts in English. After the end of PorSimples in 2010, new metrics were added to the initial 48 metrics of Coh-Metrix-Port. Given the large number of metrics, we present them following an organisation similar to the metrics of Coh-Metrix v3.0 to facilitate comparisons made with metrics in Portuguese and English. In this paper, we illustrate the potential of NILC-Metrix by presenting three applications: (i) a descriptive analysis of the differences between children's film subtitles and texts written for Elementary School I and II (Final Years); (ii) a new predictor of textual complexity for the corpus of original and simplified texts of the PorSimples project; (iii) a complexity prediction model for school grades, using transcripts of children's story narratives told by teenagers. For each application, we evaluate which groups of metrics are more discriminative, showing their contribution for each task.

 

본 논문은 NILC-Metrix를 제시하고 공개한다. 담론에 관한 연구에서 제안된 200개의 지표로 구성된 계산 시스템, 심리언어학, 인지언어학 및 전산언어학, 텍스트 평가 브라질 포르투갈어(BP)의 복잡성. 이러한 측정 기준은 다음과 관련이 있습니다. 기술 분석과 계산 모델의 생성, 그리고 사용될 수 있다. 쓰기와 구어의 다양한 언어 수준에서 정보를 추출하다 언어 NILC-Metrix의 지표는 지난 13년 동안 개발되었다. 2008년 Coh-Metrix-Port와 함께 시작되었으며, 이 툴의 범위 내에서 개발되었습니다. PorSimples 프로젝트. Coh-Metrix-Port는 다음에서 일부 메트릭스를 BP에 적용했습니다. 의 응집 및 일관성과 관련된 메트릭스를 계산하는 Coh-Metrix 도구 영문으로 된 글 2010년 PorSimples가 종료된 후 새로운 메트릭스가 추가되었습니다. Coh-Metrix-Port의 초기 48 메트릭스까지. 많은 수의 측정 기준, 우리는 측정 기준과 유사한 조직을 따라 그것들을 제시한다. Coh-Metrix v3.0을 사용하여 포르투갈어 및 기타 언어로 작성된 메트릭을 쉽게 비교할 수 있습니다. 영어 본 논문에서, 우리는 NILC-Metrix의 잠재력을 설명한다. 세 가지 응용 프로그램 제시: (i) 차이에 대한 설명적 분석 어린이 영화 자막과 초등학교 1, 그리고 초등학교를 위해 쓰여진 텍스트 사이에 II (마지막 연도) (ii) 의 말뭉치에 대한 텍스트 복잡성의 새로운 예측 변수 PorSimples 프로젝트의 원본 및 단순 텍스트, (iii) 복잡성 아동 이야기 성적표를 이용한 학교 성적 예측 모델 십대들이 들려주는 이야기들 각 애플리케이션에 대해, 우리는 어떤 그룹의 메트릭스는 각 작업에 대한 기여도를 보여주며 보다 차별적이다. 

 

 

반응형