[2022-02-28] 오늘의 자연어처리

2022. 2. 28. 10:30paper-of-the-day

반응형

 

A gentle introduction to Quantum Natural Language Processing

 

The main goal of this master's thesis is to introduce Quantum Natural Language Processing (QNLP) in a way understandable by both the NLP engineer and the quantum computing practitioner. QNLP is a recent application of quantum computing that aims at representing sentences' meaning as vectors encoded into quantum computers. To achieve this, the distributional meaning of words is extended by the compositional meaning of sentences (DisCoCat model) : the vectors representing words' meanings are composed through the syntactic structure of the sentence. This is done using an algorithm based on tensor products. We see that this algorithm is inefficient on classical computers but scales well using quantum circuits. After exposing the practical details of its implementation, we go through three use-cases.

 

이 석사 논문의 주요 목적은 Quantum Natural을 소개하는 것이다. 언어 처리(QNLP)는 NLP 엔지니어가 이해할 수 있는 방식으로, 양자 컴퓨팅 전문가 QNLP는 퀀텀의 최근 응용이다. 에 인코딩된 벡터로 문장의 의미를 표현하는 것을 목표로 하는 계산 양자 컴퓨터. 이를 위해 단어의 분포적 의미는 다음과 같다. 문장의 구성적 의미에 의해 확장된다 (DisCoCat 모델). 단어의 의미를 나타내는 벡터들은 통사를 통해 구성된다. 문장의 구조. 이것은 텐서 기반 알고리즘을 사용하여 수행된다. 상품들 우리는 이 알고리즘이 고전적인 컴퓨터에서는 비효율적이라는 것을 알 수 있다. 양자 회로를 사용하여 잘 확장됩니다. 실제 세부 사항을 공개한 후 구현에는 세 가지 사용 사례가 있습니다. 

 

 

Probing BERT's priors with serial reproduction chains

 

We can learn as much about language models from what they say as we learn from their performance on targeted benchmarks. Sampling is a promising bottom-up method for probing, but generating samples from successful models like BERT remains challenging. Taking inspiration from theories of iterated learning in cognitive science, we explore the use of serial reproduction chains to probe BERT's priors. Although the masked language modeling objective does not guarantee a consistent joint distribution, we observe that a unique and consistent estimator of the ground-truth joint distribution may be obtained by a GSN sampler, which randomly selects which word to mask and reconstruct on each step. We compare the lexical and syntactic statistics of sentences from the resulting prior distribution against those of the ground-truth corpus distribution and elicit a large empirical sample of naturalness judgments to investigate how, exactly, the model deviates from human speakers. Our findings suggest the need to move beyond top-down evaluation methods toward bottom-up probing to capture the full richness of what has been learned about language.

 

우리는 우리가 배우는 만큼 그들이 말하는 것에서 언어 모델에 대해 많이 배울 수 있다. 대상 벤치마크에 대한 성능에서 비롯됩니다. 표본 추출은 유망하다. 프로빙 및 성공적인 모델로부터 샘플 생성을 위한 상향식 방법 BERT는 여전히 어려운 과제입니다. 반복 이론에서 영감을 얻습니다. 인지과학에서의 학습, 우리는 연쇄 재생산 사슬의 사용을 탐구한다. BERT의 전과를 조사하기 위해서요 비록 마스킹된 언어 모델링 목표가 그러할지라도 일관된 공동 분포를 보장하지 않습니다, 우리는 독특하고 관찰합니다 지반-진실 공동 분포의 일관된 추정기는 다음에 의해 얻어질 수 있다. GSN 샘플러, 임의로 마스크하고 재구성할 단어를 선택합니다. 각 단계마다. 우리는 다음과 같은 문장의 어휘 및 구문 통계를 비교한다. 지상 진실 말뭉치에 대한 결과적인 사전 분포 자연성 판단의 대규모 경험적 샘플을 배포하고 도출한다. 모델이 정확히 어떻게 인간 화자로부터 벗어나는지 조사한다. 우리의 연구 결과는 하향식 평가 방법을 넘어 상향식 평가로 나아갈 필요성을 시사한다. 언어에 대해 배운 것의 풍부함을 포착하기 위한 탐색 

 

 

CAISE: Conversational Agent for Image Search and Editing

 

Demand for image editing has been increasing as users' desire for expression is also increasing. However, for most users, image editing tools are not easy to use since the tools require certain expertise in photo effects and have complex interfaces. Hence, users might need someone to help edit their images, but having a personal dedicated human assistant for every user is impossible to scale. For that reason, an automated assistant system for image editing is desirable. Additionally, users want more image sources for diverse image editing works, and integrating an image search functionality into the editing tool is a potential remedy for this demand. Thus, we propose a dataset of an automated Conversational Agent for Image Search and Editing (CAISE). To our knowledge, this is the first dataset that provides conversational image search and editing annotations, where the agent holds a grounded conversation with users and helps them to search and edit images according to their requests. To build such a system, we first collect image search and editing conversations between pairs of annotators. The assistant-annotators are equipped with a customized image search and editing tool to address the requests from the user-annotators. The functions that the assistant-annotators conduct with the tool are recorded as executable commands, allowing the trained system to be useful for real-world application execution. We also introduce a generator-extractor baseline model for this task, which can adaptively select the source of the next token (i.e., from the vocabulary or from textual/visual contexts) for the executable command. This serves as a strong starting point while still leaving a large human-machine performance gap for useful future work. Our code and dataset are publicly available at: this https URL

 

사용자의 표현 욕구에 따라 이미지 편집 요구가 증가하고 있다. 또한 증가하고 있다. 그러나 대부분의 사용자에게 이미지 편집 도구는 쉽지 않습니다. 이 도구들은 사진 효과에 대한 특정한 전문성을 필요로 하고, 그리고 가지고 있기 때문에 사용할 수 있다. 복잡한 인터페이스. 따라서 사용자는 이미지 편집을 도와줄 사람이 필요할 수 있습니다. 그러나 모든 사용자를 위한 개인 전담 인간 비서를 갖는 것은 불가능하다. 그러한 이유로, 이미지 편집을 위한 자동 보조 시스템은 바람직한 또한 사용자는 다양한 이미지를 위해 더 많은 이미지 소스를 원합니다. 편집 작업, 편집에 이미지 검색 기능 통합 툴은 이러한 수요에 대한 잠재적인 해결책입니다. 따라서, 우리는 의 데이터 세트를 제안한다. 이미지 검색 및 편집을 위한 자동 대화 에이전트(CAISE). 우리들에게 knowledge, 이것은 대화식 이미지 검색을 제공하는 첫 번째 데이터 세트입니다. 및 주석 편집(에이전트가 기반 대화를 진행하는 경우) 사용자 요청에 따라 이미지를 검색하고 편집할 수 있도록 도와줍니다. 로. 그러한 시스템을 구축하여, 우리는 먼저 이미지 검색과 편집 대화를 수집한다. 주석자 쌍 간. 보조 해설자는 다음과 같은 장비를 갖추고 있다. 사용자 정의된 이미지 검색 및 편집 도구 사용자 정의 도구. 보조-주석자가 수행하는 기능 툴은 실행 가능한 명령으로 기록되며, 훈련된 시스템을 허용한다. 실제 애플리케이션 실행에 유용합니다. 우리는 또한 a를 소개한다. 적응적으로 선택할 수 있는 이 작업에 대한 발전기-발전기 또는 기준선 모델 다음 토큰의 출처(예: 어휘 또는 텍스트/시각) context) 실행 명령의 경우. 이것은 강력한 출발점으로 작용한다. 유용한 미래를 위해 여전히 큰 인간-기계 성능 격차를 남겨두고 있다. 코드 및 데이터 세트는 다음 사이트에서 공개적으로 사용할 수 있습니다. 이 https URL 

 

 

반응형