[2022-02-23] 오늘의 자연어처리

2022. 2. 23. 10:30paper-of-the-day

반응형

 

Items from Psychometric Tests as Training Data for Personality Profiling Models of Twitter Users

 

Machine-learned models for author profiling in social media often rely on data acquired via self-reporting-based psychometric tests (questionnaires) filled out by social media users. This is an expensive but accurate data collection strategy. Another, less costly alternative, which leads to potentially more noisy and biased data, is to rely on labels inferred from publicly available information in the profiles of the users, for instance self-reported diagnoses or test results. In this paper, we explore a third strategy, namely to directly use a corpus of items from validated psychometric tests as training data. Items from psychometric tests often consist of sentences from an I-perspective (e.g., "I make friends easily."). Such corpora of test items constitute 'small data', but their availability for many concepts is a rich resource. We investigate this approach for personality profiling, and evaluate BERT classifiers fine-tuned on such psychometric test items for the big five personality traits (openness, conscientiousness, extraversion, agreeableness, neuroticism) and analyze various augmentation strategies regarding their potential to address the challenges coming with such a small corpus. Our evaluation on a publicly available Twitter corpus shows a comparable performance to in-domain training for 4/5 personality traits with T5-based data augmentation.

 

소셜 미디어에서 저자 프로파일링을 위해 기계로 학습된 모델은 종종 다음과 같이 의존한다. 자가 진단 기반 심리측정 테스트(질문지)를 통해 수집된 데이터 소셜 미디어 사용자가 작성했습니다. 이것은 비싸지만 정확한 데이터입니다. 수집 전략. 비용이 적게 드는 또 다른 대안으로 다음과 같은 이점을 얻을 수 있습니다. 잠재적으로 더 잡음과 편향된 데이터는 다음에서 추론된 라벨에 의존하는 것이다. 사용자 프로필에서 공개적으로 사용 가능한 정보(예: 자가 진단 또는 테스트 결과를 확인합니다. 이 논문에서, 우리는 세 번째를 탐구한다. 전략, 즉 검증된 사이코메트릭의 항목 코퍼스를 직접 사용하는 것 교육용 데이터로 검정을 사용합니다. 심리측정학 시험의 항목은 종종 다음과 같이 구성된다. I-perspective의 문장(예: "나는 친구를 쉽게 사귄다"). 그런 말뭉치 테스트 항목의 '작은 데이터'를 구성하지만, 많은 개념에 대한 테스트 항목 풍부한 자원이다. 우리는 성격 프로파일링을 위해 이 접근 방식을 조사한다. BERT 분류기를 평가하기 위해 그러한 심리측정 테스트 항목에 미세 조정된 BERT 분류기를 평가한다. 큰 다섯 가지 성격 특성(성실, 양심, 외향성, 친화력, 신경증)과 다양한 증강 전략을 분석한다. 그렇게 작은 난제를 해결할 수 있는 그들의 잠재력에 대해 공개적으로 이용 가능한 트위터 코퍼스에 대한 우리의 평가는 4/5 성격 특성에 대한 도메인 내 훈련과 유사한 성과 T5 기반 데이터 확대. 

 

 

From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French

 

Language models for historical states of language are becoming increasingly important to allow the optimal digitisation and analysis of old textual sources. Because these historical states are at the same time more complex to process and more scarce in the corpora available, specific efforts are necessary to train natural language processing (NLP) tools adapted to the data. In this paper, we present our efforts to develop NLP tools for Early Modern French (historical French from the 16$^\text{th}$ to the 18$^\text{th}$ centuries). We present the $\text{FreEM}_{\text{max}}$ corpus of Early Modern French and D'AlemBERT, a RoBERTa-based language model trained on $\text{FreEM}_{\text{max}}$. We evaluate the usefulness of D'AlemBERT by fine-tuning it on a part-of-speech tagging task, outperforming previous work on the test set. Importantly, we find evidence for the transfer learning capacity of the language model, since its performance on lesser-resourced time periods appears to have been boosted by the more resourced ones. We release D'AlemBERT and the open-sourced subpart of the $\text{FreEM}_{\text{max}}$ corpus.

 

언어의 역사적 상태에 대한 언어 모델은 점점 더 많아지고 있다. 이전 텍스트의 최적 디지털화 및 분석을 허용하는 데 중요하다. 원천 왜냐하면 이러한 역사적 상태는 동시에 더 복잡하기 때문이다. 과정 그리고 이용할 수 있는 말뭉치에서 더 희귀, 구체적인 노력들 데이터에 적응한 NLP(Natural Language Processing) 도구를 교육하는 데 필요합니다. 본 논문에서, 우리는 얼리 모던을 위한 NLP 도구를 개발하기 위한 우리의 노력을 제시한다. 프랑스어(16$^\text{th}$에서 18$^\text{th}$까지의 역사적 프랑스어) 수세기). \text{Fre}를 제시합니다.EM}_{\text{max}}$ 초기 현대 말뭉치 프랑스어와 D'AllemBERT, 로베르타 기반 언어 모델: \text{Fre]EM}_{\text{max}}$ 우리는 D'AlemBERT의 유용성을 다음과 같이 평가한다. 부분 태그 지정 작업에서 미세 조정하여 에 대한 이전 작업을 능가합니다. 시험 세트. 중요한 것은 이전 학습 역량에 대한 증거를 발견한다. 언어 모델의 경우, 자원이 적은 기간에서 성능이 발휘되기 때문에 더 많은 자원을 공급받은 자들에 의해 증가된 것으로 보입니다. 달렘비를 출시합니다.ERT 및 vmtext의 오픈 소스 하위 부분{FreEM}_{\text{max}}$ 말뭉치. 

 

 

Audio Visual Scene-Aware Dialog Generation with Transformer-based Video Representations

 

There have been many attempts to build multimodal dialog systems that can respond to a question about given audio-visual information, and the representative task for such systems is the Audio Visual Scene-Aware Dialog (AVSD). Most conventional AVSD models adopt the Convolutional Neural Network (CNN)-based video feature extractor to understand visual information. While a CNN tends to obtain both temporally and spatially local information, global information is also crucial for boosting video understanding because AVSD requires long-term temporal visual dependency and whole visual information. In this study, we apply the Transformer-based video feature that can capture both temporally and spatially global representations more efficiently than the CNN-based feature. Our AVSD model with its Transformer-based feature attains higher objective performance scores for answer generation. In addition, our model achieves a subjective score close to that of human answers in DSTC10. We observed that the Transformer-based visual feature is beneficial for the AVSD task because our model tends to correctly answer the questions that need a temporally and spatially broad range of visual information.

 

다음을 할 수 있는 멀티모달 대화 시스템을 구축하려는 많은 시도가 있었다. 주어진 시청각 정보에 대한 질문에 응답합니다, 그리고 이러한 시스템의 대표적인 작업은 오디오 시각 장면 인식 대화 상자입니다. 대부분의 기존 AVSD 모델은 컨볼루션 신경망을 채택한다. (CNN) 기반 비디오 기능 추출기를 통해 시각적 정보를 이해할 수 있습니다. 그러는 동안 CNN은 일시적으로 그리고 공간적으로 지역 정보를 얻는 경향이 있다, 전 세계적으로 정보는 또한 비디오 이해를 증진시키는데 중요하다 왜냐하면 AVSD는 장기적인 시간적 시각 의존성과 전체 시각 정보가 필요하다. 안으로 이 연구는 트랜스포머 기반 비디오 기능을 적용하여 두 가지를 모두 캡처할 수 있습니다. 시간적, 공간적 글로벌 표현보다 더 효율적으로 CNN 기반 기능. 트랜스포머 기반 기능을 갖춘 AVSD 모델은 다음과 같은 이점을 제공합니다. 답변 생성을 위한 더 높은 객관적 성능 점수. 그리고 저희. 모델은 DSTC10에서 인간 답에 가까운 주관적 점수를 달성한다. 우리가 트랜스포머 기반 시각적 특징이 AVSD에 도움이 된다는 것을 관찰했다. 우리의 모델이 필요한 질문에 정확하게 답하는 경향이 있기 때문에 과제 시간적, 공간적으로 광범위한 시각 정보. 

 

 

반응형