[2022-02-04] 오늘의 자연어처리

2022. 2. 4. 10:30paper-of-the-day

반응형

 

A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From Texts

 

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service. To aid data analysts in this task we present Verint Intent Manager (VIM), an analysis platform that combines unsupervised and semi-supervised approaches to help analysts quickly surface and organize relevant user intentions from conversational texts. For the initial exploration of data we make use of a novel unsupervised and semi-supervised pipeline that integrates the fine-tuning of high performing language models, a distributed k-NN graph building method and community detection techniques for mining the intentions and topics from texts. The fine-tuning step is necessary because pre-trained language models cannot encode texts to efficiently surface particular clustering structures when the target texts are from an unseen domain or the clustering task is not topic detection. For flexibility we deploy two clustering approaches: where the number of clusters must be specified and where the number of clusters is detected automatically with comparable clustering quality but at the expense of additional computation time. We describe the application and deployment and demonstrate its performance using BERT on three text mining tasks. Our experiments show that BERT begins to produce better task-aware representations using a labeled subset as small as 0.5% of the task data. The clustering quality exceeds the state-of-the-art results when BERT is fine-tuned with labeled subsets of only 2.5% of the task data. As deployed in the VIM application, this flexible clustering pipeline produces high quality results, improving the performance of data analysts and reducing the time it takes to surface intentions from customer service data, thereby reducing the time it takes to build and deploy IVAs in new domains.

 

많은 양의 자연어 입력으로부터 잠재의도를 채굴하는 것은 데이터 분석가가 인텔리전트 Virtual을 설계하고 개선할 수 있도록 지원하는 주요 단계 고객 서비스 보조자(IVA)입니다. 이 작업에서 데이터 분석가를 돕기 위해 VIM(Verint Intent Manager)을 통합한 분석 플랫폼 분석가가 신속하게 표면화할 수 있도록 지원하는 비지도 및 준지도 방식 대화 텍스트에서 관련 사용자 의도를 정리합니다. 를 위해 데이터의 초기 탐색 우리는 감독되지 않은 새로운 것을 사용합니다. 고성능의 미세 조정을 통합하는 준감독 파이프라인 언어 모델, 분산 k-NN 그래프 작성 방법 및 커뮤니티 텍스트에서 의도 및 주제를 마이닝하기 위한 탐지 기술. 그 사전 훈련된 언어 모델은 인코딩할 수 없기 때문에 미세 조정 단계가 필요하다. 표적이 될 때 특정 군집 구조를 효율적으로 표면화하기 위한 텍스트 텍스트가 보이지 않는 도메인의 텍스트이거나 클러스터링 작업이 주제 탐지가 아닙니다. 유연성을 위해 다음과 같은 두 가지 클러스터링 방식을 구현합니다. 군집을 지정해야 하며 군집 수가 탐지되는 위치 동일한 클러스터링 품질로 자동 구성되지만 그 비용이 추가 계산 시간. 애플리케이션 및 배포에 대해 설명하고 세 가지 텍스트 마이닝 작업에서 BERT를 사용하여 성능을 입증합니다. 우리들의 실험은 BERT가 더 나은 작업 인식 표현을 만들기 시작한다는 것을 보여준다. 작업 데이터의 0.5%만큼 작은 레이블이 지정된 부분 집합을 사용합니다. 군집화 BERT가 와 미세 조정될 때 품질은 최첨단 결과를 초과한다. 작업 데이터의 2.5%만 레이블이 지정된 하위 집합. VIM에 배포된 대로 애플리케이션, 이 유연한 클러스터링 파이프라인은 높은 품질의 결과를 산출합니다. 데이터 분석가의 성능을 개선하고 데이터 분석 작업에 소요되는 시간을 단축합니다. 고객 서비스 데이터의 의도를 표시하여 시간을 단축합니다. IVA를 새 도메인에 빌드 및 배포하는 데 필요합니다. 

 

 

Some Reflections on Drawing Causal Inference using Textual Data: Parallels Between Human Subjects and Organized Texts

 

We examine the role of textual data as study units when conducting causal inference by drawing parallels between human subjects and organized texts. %in human population research. We elaborate on key causal concepts and principles, and expose some ambiguity and sometimes fallacies. To facilitate better framing a causal query, we discuss two strategies: (i) shifting from immutable traits to perceptions of them, and (ii) shifting from some abstract concept/property to its constituent parts, i.e., adopting a constructivist perspective of an abstract concept. We hope this article would raise the awareness of the importance of articulating and clarifying fundamental concepts before delving into developing methodologies when drawing causal inference using textual data.

 

인과 관계를 수행할 때 연구 단위로서 텍스트 데이터의 역할을 검토한다. 인간 주제와 정리된 텍스트 사이에 유사점을 도출하여 추론한다. %in 인구 조사 우리는 주요 인과 개념과 원칙에 대해 자세히 설명합니다. 애매모호하고 때로는 오류를 드러내는 거죠 프레임 개선을 위해 인과적 질문, 우리는 두 가지 전략을 논의한다: (i) 불변의 특성으로부터 변화 그들에 대한 인식, 그리고 (ii) 어떤 추상적인 개념/관념으로부터 전환 구성 요소, 즉, 구성주의적 관점을 채택하는 것 추상 개념 우리는 이 기사가 에 대한 인식을 높였으면 한다. 탐구하기 전에 기본 개념을 분명히 하고 명확히 하는 것의 중요성 텍스트 데이터를 사용하여 인과적 추론을 도출할 때 방법론을 개발한다. 

 

 

Epidemic Dreams: Dreaming about health during the COVID-19 pandemic

 

The continuity hypothesis of dreams suggests that the content of dreams is continuous with the dreamer's waking experiences. Given the unprecedented nature of the experiences during COVID-19, we studied the continuity hypothesis in the context of the pandemic. We implemented a deep-learning algorithm that can extract mentions of medical conditions from text and applied it to two datasets collected during the pandemic: 2,888 dream reports (dreaming life experiences), and 57M tweets mentioning the pandemic (waking life experiences). The health expressions common to both sets were typical COVID-19 symptoms (e.g., cough, fever, and anxiety), suggesting that dreams reflected people's real-world experiences. The health expressions that distinguished the two sets reflected differences in thought processes: expressions in waking life reflected a linear and logical thought process and, as such, described realistic symptoms or related disorders (e.g., nasal pain, SARS, H1N1); those in dreaming life reflected a thought process closer to the visual and emotional spheres and, as such, described either conditions unrelated to the virus (e.g., maggots, deformities, snakebites), or conditions of surreal nature (e.g., teeth falling out, body crumbling into sand). Our results confirm that dream reports represent an understudied yet valuable source of people's health experiences in the real world.

 

꿈의 연속 가설은 꿈의 내용이 다음과 같다는 것을 암시한다. 꿈나무의 깨어 있는 경험을 계속합니다. 전례가 없는 COVID-19 동안의 경험의 특성, 우리는 연속성 가설을 연구했다. 대유행의 맥락에서요 우리는 다음과 같은 딥러닝 알고리즘을 구현했다. 텍스트에서 의학적 질환에 대한 언급을 추출하여 두 가지에 적용할 수 있다. 대유행 기간 동안 수집된 데이터 세트: 2,888개의 꿈 보고서(수명) (인생 경험을 흔드는) 대유행을 언급하는 5천7백만 개의 트윗이 있다. 두 세트에 공통적인 건강 표현은 전형적인 COVID-19 증상이었다. (예: 기침, 발열, 불안) 꿈은 사람들의 꿈을 반영한다는 것을 암시한다. 실제 경험. 두 세트를 구분한 상태 표현식 사고 과정의 차이 반영: 깨어있는 삶에서의 표현 선형적이고 논리적인 사고 과정을 반영했고, 그렇게 묘사되었다. 현실적인 증상 또는 관련 장애(예: 코 통증, SARS, H1N1); 꿈꾸는 삶에 시각과 감정에 더 가까운 사고 과정이 반영되었다. 바이러스와는 무관한 상태를 기술했다(예: 구더기, 기형, 뱀에 물린 자국 또는 초현실적 자연의 상태(예: 이빨) (시체가 모래로 무너지고) 우리의 결과는 꿈의 보고가 ...에서 사람들의 건강 경험의 연구가 부족하지만 귀중한 원천을 나타내다. 현실 세계 

 

 

반응형