[2022-02-16] 오늘의 자연어처리

2022. 2. 16. 10:30paper-of-the-day

반응형

 

ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers

 

The applications of conversational agents for scientific disciplines (as expert domains) are understudied due to the lack of dialogue data to train such agents. While most data collection frameworks, such as Amazon Mechanical Turk, foster data collection for generic domains by connecting crowd workers and task designers, these frameworks are not much optimized for data collection in expert domains. Scientists are rarely present in these frameworks due to their limited time budget. Therefore, we introduce a novel framework to collect dialogues between scientists as domain experts on scientific papers. Our framework lets scientists present their scientific papers as groundings for dialogues and participate in dialogue they like its paper title. We use our framework to collect a novel argumentative dialogue dataset, ArgSciChat. It consists of 498 messages collected from 41 dialogues on 20 scientific papers. Alongside extensive analysis on ArgSciChat, we evaluate a recent conversational agent on our dataset. Experimental results show that this agent poorly performs on ArgSciChat, motivating further research on argumentative scientific agents. We release our framework and the dataset.

 

과학 분야에 대한 대화 에이전트의 적용(As: 전문가 영역)은 그러한 교육을 위한 대화 데이터의 부족으로 인해 연구가 부족하다. 아마존 메카니컬 터크 같은 대부분의 데이터 수집 프레임워크가 군중 작업자와 작업을 연결하여 일반 도메인에 대한 데이터 수집을 육성합니다. 설계자, 이러한 프레임워크는 데이터 수집에 그다지 최적화되지 않았습니다. 전문가 영역. 과학자들은 그것 때문에 이 틀에 거의 존재하지 않는다. 한정된 시간 예산 따라서 수집해야 할 새로운 프레임워크를 도입한다. 과학 논문에 대한 도메인 전문가로서 과학자들 간의 대화 우리들의 틀은 과학자들이 그들의 과학적 논문을 위한 기초로서 제시할 수 있게 한다. 그들이 좋아하는 대화와 대화에 참여합니다. 우리는 우리의 새로운 논쟁적 대화 데이터 세트인 ArgSciChat을 수집하기 위한 프레임워크. 그거 는 20개의 과학논문에 대한 41개의 대화에서 수집된 498개의 메시지로 구성되어 있다. ArgSciChat에 대한 광범위한 분석과 함께, 우리는 최근의 대화를 평가한다. 우리 데이터셋에 요원님. 실험 결과에 따르면 이 에이전트는 성능이 떨어집니다. ArgSciChat에서 논쟁적 과학 에이전트에 대한 추가 연구에 동기를 부여하고 있다. 프레임워크와 데이터 세트를 공개합니다. 

 

 

Semantic-Oriented Unlabeled Priming for Large-Scale Language Models

 

Due to the high costs associated with finetuning large language models, various recent works propose to adapt them to specific tasks without any parameter updates through in-context learning. Unfortunately, for in-context learning there is currently no way to leverage unlabeled data, which is often much easier to obtain in large quantities than labeled examples. In this work, we therefore investigate ways to make use of unlabeled examples to improve the zero-shot performance of pretrained language models without any finetuning: We introduce Semantic-Oriented Unlabeled Priming (SOUP), a method that classifies examples by retrieving semantically similar unlabeled examples, assigning labels to them in a zero-shot fashion, and then using them for in-context learning. We also propose bag-of-contexts priming, a new priming strategy that is more suitable for our setting and enables the usage of more examples than fit into the context window.

 

큰 언어 모델을 미세 조정하는 것과 관련된 높은 비용 때문에, 다양한 최근의 연구들은 어떠한 일 없이 그들을 특정한 일에 적응시키는 것을 제안한다. 내부 학습을 통해 매개 변수를 업데이트합니다. 유감스럽게도, 맥락을 말하자면 현재 레이블링되지 않은 데이터를 활용할 방법이 없다는 것을 배우는 것, 이것은 종종 라벨이 붙은 예보다 대량으로 얻기가 훨씬 쉽다. 이 작품에서는, 따라서 우리는 라벨이 부착되지 않은 예시를 사용하여 다음을 개선하는 방법을 조사한다. 미세 조정 없이 사전 훈련된 언어 모델의 제로샷 성능: 우리가 시맨틱 지향 레이블 없는 프라이밍(SOUP)을 도입한다. 예제: 의미론적으로 유사한 레이블이 없는 예제 검색, 할당 제로샷 방식으로 레이블을 지정한 다음 인-샷에 사용합니다. 학식. 우리는 또한 다음과 같은 새로운 프라이밍 전략인 컨텍스트 가방 프라이밍을 제안한다. 우리의 설정에 더 적합하고 보다 많은 예제를 사용할 수 있다. 컨텍스트 창에 맞춥니다. 

 

 

Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text

 

Evaluation practices in natural language generation (NLG) have many known flaws, but improved evaluation approaches are rarely widely adopted. This issue has become more urgent, since neural NLG models have improved to the point where they can often no longer be distinguished based on the surface-level features that older metrics rely on. This paper surveys the issues with human and automatic model evaluations and with commonly used datasets in NLG that have been pointed out over the past 20 years. We summarize, categorize, and discuss how researchers have been addressing these issues and what their findings mean for the current state of model evaluations. Building on those insights, we lay out a long-term vision for NLG evaluation and propose concrete steps for researchers to improve their evaluation processes. Finally, we analyze 66 NLG papers from recent NLP conferences in how well they already follow these suggestions and identify which areas require more drastic changes to the status quo.

 

자연어 생성(NLG)의 평가 관행은 많이 알려져 있다. 그러나 개선된 평가 접근법이 널리 채택되는 경우는 거의 없다. 이번 호 신경 NLG 모델이 점까지 개선되었기 때문에, 더 긴급해졌다. 표면 레벨에 따라 더 이상 구분할 수 없는 경우가 많다. 이전 메트릭이 의존하는 기능. 이 논문은 인간의 문제를 조사한다. 자동 모델 평가 및 NLG에서 일반적으로 사용되는 데이터 세트를 사용하여 다음을 수행합니다. 지난 20년 동안 지적되어 왔습니다 요약하고 분류하고 연구원들이 이 문제들을 어떻게 다뤄왔는지 그리고 무엇을 다루는지 논의한다 소견은 모델 평가의 현재 상태에 대한 평균입니다. 그 위에 건물을 짓는다. 통찰력, 우리는 NLG 평가를 위한 장기적인 비전을 제시하고 구체적인 것을 제안한다. 연구자들이 그들의 평가 과정을 개선하기 위한 단계들. 드디어 저희가. 최근 NLP 컨퍼런스에서 66개의 NLG 논문을 이미 얼마나 잘 분석했는지 이 제안들을 따르고 더 급격한 변화가 필요한 영역을 식별한다. 현상태로. 

 

 

반응형