[2022-03-21] 오늘의 자연어처리

2022. 3. 21. 10:30paper-of-the-day

반응형

 

Do Multilingual Language Models Capture Differing Moral Norms?

 

Massively multilingual sentence representations are trained on large corpora of uncurated data, with a very imbalanced proportion of languages included in the training. This may cause the models to grasp cultural values including moral judgments from the high-resource languages and impose them on the low-resource languages. The lack of data in certain languages can also lead to developing random and thus potentially harmful beliefs. Both these issues can negatively influence zero-shot cross-lingual model transfer and potentially lead to harmful outcomes. Therefore, we aim to (1) detect and quantify these issues by comparing different models in different languages, (2) develop methods for improving undesirable properties of the models. Our initial experiments using the multilingual model XLM-R show that indeed multilingual LMs capture moral norms, even with potentially higher human-agreement than monolingual ones. However, it is not yet clear to what extent these moral norms differ between languages.

 

대규모 다국어 문장 표현은 대규모 코퍼스에서 훈련된다. 불포화 데이터의 매우 불균형한 비율의 언어가 포함된 트레이닝 이것은 모델이 다음을 포함한 문화적 가치를 파악하도록 할 수 있습니다. 고자원 언어로부터의 도덕적 판단과 그것을 강요하다 저자원 언어 특정 언어의 데이터 부족은 다음과 같은 결과를 초래할 수 있습니다. 무작위적이고 잠재적으로 해로운 믿음들을 발전시키는 것. 이 두 가지 문제 모두 제로샷 언어 간 모델 전송에 부정적인 영향을 미치고 잠재적으로 나쁜 결과로 이어지다 따라서, 우리는 (1) 이러한 것들을 검출하고 정량화하는 것을 목표로 한다. 다른 언어로 다른 모델을 비교함으로써 문제를 해결한다. (2) 모델의 바람직하지 않은 특성을 개선하기 위한 방법. 델의 이니셜 다국어 모델 XLM-R을 사용한 실험은 실제로 다국어가 LMs는 도덕적 규범을 포착한다. 심지어 잠재적으로 더 높은 인간 합의에도 불구하고 단언어를 사용하는 것 하지만, 이러한 도덕적 규범이 어느 정도인지는 아직 명확하지 않다. 언어에 따라 다르다. 

 

 

Are You Robert or RoBERTa? Deceiving Online Authorship Attribution Models Using Neural Text Generators

 

Recently, there has been a rise in the development of powerful pre-trained natural language models, including GPT-2, Grover, and XLM. These models have shown state-of-the-art capabilities towards a variety of different NLP tasks, including question answering, content summarisation, and text generation. Alongside this, there have been many studies focused on online authorship attribution (AA). That is, the use of models to identify the authors of online texts. Given the power of natural language models in generating convincing texts, this paper examines the degree to which these language models can generate texts capable of deceiving online AA models. Experimenting with both blog and Twitter data, we utilise GPT-2 language models to generate texts using the existing posts of online users. We then examine whether these AI-based text generators are capable of mimicking authorial style to such a degree that they can deceive typical AA models. From this, we find that current AI-based text generators are able to successfully mimic authorship, showing capabilities towards this on both datasets. Our findings, in turn, highlight the current capacity of powerful natural language models to generate original online posts capable of mimicking authorial style sufficiently to deceive popular AA methods; a key finding given the proposed role of AA in real world applications such as spam-detection and forensic investigation.

 

최근, 강력한 사전 훈련의 개발이 증가하고 있다. GPT-2, Grover, XLM 등의 자연어 모델. 이 모델들은 다양한 NLP 태스크에 최첨단의 기능을 발휘하고 있습니다. 질문 답변, 내용 요약, 텍스트 생성 등이 포함됩니다. 이와 더불어 온라인 저작권에 초점을 맞춘 많은 연구가 있었다. 속성(AA) 즉, 온라인의 작성자를 식별하기 위한 모델의 사용 텍스트. 자연어 모델이 설득력을 발생시키는 텍스트, 이 논문은 이러한 언어 모델이 할 수 있는 정도를 조사합니다. 온라인 AA 모델을 속일 수 있는 텍스트를 생성합니다. 둘 다 시험해 보다 블로그와 트위터 데이터를 사용하여 GPT-2 언어 모델을 사용하여 텍스트를 생성합니다. 온라인 사용자의 기존 게시물 그런 다음 이러한 AI 기반 텍스트가 발전기는 권위적인 스타일을 모방할 수 있기 때문에 는 일반적인 AA 모델을 속일 수 있습니다. 이를 통해 현재 AI 기반 텍스트가 생성기는 성공적으로 저작자를 흉내낼 수 있으며, 기능을 보여줍니다. 두 데이터셋 모두에서 이 문제를 해결합니다. 우리의 연구결과는 현재를 강조하고 있다. 강력한 자연어 모델의 능력으로 오리지널 온라인 게시물을 생성할 수 있습니다. 인기 있는 AA를 속일 수 있을 만큼 권위적인 스타일을 흉내 낼 수 있다 방법; 실제 애플리케이션에서 AA의 제안된 역할을 고려한 핵심 결과 스팸메일이나 법의학 수사 같은 것들이요. 

 

 

DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations

 

Automatic evaluation metrics are essential for the rapid development of open-domain dialogue systems as they facilitate hyper-parameter tuning and comparison between models. Although recently proposed trainable conversation-level metrics have shown encouraging results, the quality of the metrics is strongly dependent on the quality of training data. Prior works mainly resort to heuristic text-level manipulations (e.g. utterances shuffling) to bootstrap incoherent conversations (negative examples) from coherent dialogues (positive examples). Such approaches are insufficient to appropriately reflect the incoherence that occurs in interactions between advanced dialogue models and humans. To tackle this problem, we propose DEAM, a Dialogue coherence Evaluation metric that relies on Abstract Meaning Representation (AMR) to apply semantic-level Manipulations for incoherent (negative) data generation. AMRs naturally facilitate the injection of various types of incoherence sources, such as coreference inconsistency, irrelevancy, contradictions, and decrease engagement, at the semantic level, thus resulting in more natural incoherent samples. Our experiments show that DEAM achieves higher correlations with human judgments compared to baseline methods on several dialog datasets by significant margins. We also show that DEAM can distinguish between coherent and incoherent dialogues generated by baseline manipulations, whereas those baseline models cannot detect incoherent examples generated by DEAM. Our results demonstrate the potential of AMR-based semantic manipulations for natural negative example generation.

 

자동 평가 지표는 신속한 개발을 위해 필수적입니다. 하이퍼 파라미터 조정을 용이하게 하는 오픈 도메인 대화 시스템 및 모델 간의 비교 최근 제안된 훈련 가능 대화 수준의 지표는 고무적인 결과, 즉, 고객 만족도의 품질, 지표는 교육 데이터의 품질에 크게 좌우됩니다. 전작 주로 경험적 텍스트 수준의 조작(예: 발언 전환)에 의지한다. 일관성 없는 대화(부정적 예)를 일관성 있는 것으로부터 부트스트랩하다 dialogs(긍정적인 예) 이러한 접근법으로는 불충분하다. 상호 작용에서 발생하는 일관성을 적절히 반영하다 고급 대화 모델과 인간. 이 문제에 대처하기 위해 DEAM을 제안합니다. 추상적 의미에 의존하는 대화 일관성 평가 지표 일관성이 없는 경우 의미 수준 조작을 적용하기 위한 표현(AMR (음수) 데이터 생성. AMR은 자연적으로 다양한 주입을 촉진한다. 상호 참조 불일치, 비부정성, 비부정성 등 일관성 소스의 유형 의미적 차원에서 모순과 관여를 줄임으로써 그 결과를 낳는다. 더 자연스럽고 일관성이 없는 샘플에서요. 우리의 실험에 따르면 DEAM은 기준 방법에 비해 인간의 판단과 더 높은 상관 관계 몇 개의 대화 상자 데이터 세트를 상당한 폭으로 표시합니다. 또한 DEAM은 기준선에 의해 생성되는 일관성 있는 대화와 일관성 없는 대화를 구별한다. 이러한 기준선 모델은 일관성이 없는 예를 검출할 수 없는 반면 조작 DEAM에 의해 생성됩니다. 우리의 결과는 AMR 기반 시멘틱의 가능성을 보여준다. 자연 음수 예제 생성을 위한 조작입니다. 

 

 

반응형