[2022-02-09] 오늘의 자연어처리

2022. 2. 9. 10:30paper-of-the-day

반응형

 

Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition

 

The current standard approach for fine-tuning transformer-based language models includes a fixed number of training epochs and a linear learning rate schedule. In order to obtain a near-optimal model for the given downstream task, a search in optimization hyperparameter space is usually required. In particular, the number of training epochs needs to be adjusted to the dataset size. In this paper, we introduce adaptive fine-tuning, which is an alternative approach that uses early stopping and a custom learning rate schedule to dynamically adjust the number of training epochs to the dataset size. For the example use case of named entity recognition, we show that our approach not only makes hyperparameter search with respect to the number of training epochs redundant, but also leads to improved results in terms of performance, stability and efficiency. This holds true especially for small datasets, where we outperform the state-of-the-art fine-tuning method by a large margin.

 

변압기 기반 언어 미세 조정을 위한 현재 표준 접근 방식 모델은 고정된 수의 훈련 시대와 선형 학습 속도를 포함한다. 스케쥴 주어진 다운스트림에 대해 거의 최적에 가까운 모형을 얻는 방법 작업, 일반적으로 최적화 하이퍼파라미터 공간에서의 검색이 필요합니다. 안으로 특히 교육 에포크의 수를 데이터 세트에 맞게 조정해야 합니다. 이 논문에서, 우리는 대안인 적응형 미세 조정을 소개한다. 조기 중단 및 맞춤형 학습 속도 일정을 사용하여 교육 에포크 수를 데이터 세트 크기에 맞게 동적으로 조정합니다. 를 위해 명명된 엔티티 인식의 예시 사용 사례, 우리는 우리의 접근 방식이 아니라는 것을 보여준다. 훈련 epoch 수에 대해서만 하이퍼 매개 변수 검색을 수행합니다. 또한 성능 측면에서도 개선된 결과를 얻을 수 있습니다. 안정성과 효율성. 이는 특히 다음과 같은 소규모 데이터셋에 적용된다. 우리는 최첨단 미세 조정 방법을 크게 능가한다. 

 

 

Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data

 

The search for effective and robust generalization metrics has been the focus of recent theoretical and empirical work. In this paper, we discuss the performance of natural language processing (NLP) models, and we evaluate various existing and novel generalization metrics. Compared to prior studies, we (i) focus on NLP instead of computer vision (CV), (ii) focus on generalization metrics that predict test error instead of the generalization gap, (iii) focus on generalization metrics that do not need the access to data, and (iv) focus on the heavy-tail (HT) phenomenon that has received comparatively less attention in the study of deep neural networks (NNs). We extend recent HT-based work which focuses on power law (PL) distributions, and we study exponential (EXP) and exponentially truncated power law (E-TPL) fitting to the empirical spectral densities (ESDs) of weight matrices. Our detailed empirical studies show that (i) \emph{shape metrics}, or the metrics obtained from fitting the shape of the ESDs, perform uniformly better at predicting generalization performance than \emph{scale metrics} commonly studied in the literature, as measured by the \emph{average} rank correlations with the generalization performance for all of our experiments; (ii) among forty generalization metrics studied in our paper, the \RANDDISTANCE metric, a new shape metric invented in this paper that measures the distance between empirical eigenvalues of weight matrices and those of randomly initialized weight matrices, achieves the highest worst-case rank correlation with generalization performance under a variety of training settings; and (iii) among the three HT distributions considered in our paper, the E-TPL fitting of ESDs performs the most robustly.

 

효과적이고 강력한 일반화 메트릭에 대한 검색이 집중되어 왔다. 최근의 이론적이고 경험적인 연구. 이 논문에서, 우리는 자연어 처리의 성과를 논한다. (NLP) 모델, 그리고 우리는 다양한 기존 및 새로운 일반화를 평가한다. 측정 기준. 이전 연구와 비교해 볼 때 (i) 컴퓨터 비전(CV) 대신 NLP에 초점을 맞춘다. (ii) 시험 오류를 예측하는 일반화 지표에 초점을 맞춘다. 일반화 격차, (iii) 데이터에 대한 접근이 필요하지 않은 일반화 지표에 초점을 맞춘다. 그리고. (iv) 상대적으로 받은 헤비테일(HT) 현상에 초점을 맞춘다. 심층 신경망(NN) 연구에 대한 관심이 적다. 우리는 멱함수(PL) 분포에 초점을 맞춘 최근 HT 기반 연구를 확장한다. 지수(EXP) 및 지수 절단 거듭제곱 법칙(E-TPL)을 연구합니다. 중량 행렬의 경험적 스펙트럼 밀도(ESD)에 적합. 우리의 상세한 경험적 연구는 다음을 보여준다. (i) \mape{shape metrics} 또는 다음 모양을 적합하여 얻은 메트릭 ESD, 일반화 성능을 균일하게 더 잘 예측한다. 문헌에서 일반적으로 연구된 \metric{척도 메트릭스}보다, 다음에 의해 측정되었다. 다음에 대한 일반화 성과에 대한 \sign{평균} 순위 상관 관계 우리의 모든 실험; (ii) 본 논문에서 연구된 40개의 일반화 지표 중 \RANDISTANGE 메트릭, 측정을 위해 본 논문에서 발명된 새로운 형상 메트릭 가중치 행렬의 경험적 고유값과 다음 행렬의 고유값 사이의 거리 무작위로 초기화된 가중치 행렬, 최악의 경우 가장 높은 순위 달성 다양한 교육에 따른 일반화 성과와의 상관 관계 설정 및 (iii) 본 논문에서 고려한 세 가지 HT 분포 중, E-TPL은 ESD의 피팅이 가장 강력하게 수행됩니다. 

 

 

Mental Disorders on Online Social Media Through the Lens of Language and Behaviour: Analysis and Visualisation

 

Due to the worldwide accessibility to the Internet along with the continuous advances in mobile technologies, physical and digital worlds have become completely blended, and the proliferation of social media platforms has taken a leading role over this evolution. In this paper, we undertake a thorough analysis towards better visualising and understanding the factors that characterise and differentiate social media users affected by mental disorders. We perform different experiments studying multiple dimensions of language, including vocabulary uniqueness, word usage, linguistic style, psychometric attributes, emotions' co-occurrence patterns, and online behavioural traits, including social engagement and posting trends. Our findings reveal significant differences on the use of function words, such as adverbs and verb tense, and topic-specific vocabulary, such as biological processes. As for emotional expression, we observe that affected users tend to share emotions more regularly than control individuals on average. Overall, the monthly posting variance of the affected groups is higher than the control groups. Moreover, we found evidence suggesting that language use on micro-blogging platforms is less distinguishable for users who have a mental disorder than other less restrictive platforms. In particular, we observe on Twitter less quantifiable differences between affected and control groups compared to Reddit.

 

인터넷에 대한 전세계적인 접근성과 지속적인 접근성 때문에 모바일 기술, 물리 및 디지털 세계의 발전은 소셜 미디어 플랫폼의 확산에 따른 비용 절감 효과를 거두었습니다. 이 진화에서 주도적인 역할을 맡았습니다. 본 논문에서, 우리는 철저한 더 나은 시각화 및 이해에 대한 분석 정신 질환의 영향을 받는 소셜 미디어 사용자를 특징짓고 구별한다. 우리는 언어의 다양한 차원을 연구하는 다양한 실험을 수행한다. 어휘 고유성, 단어 사용법, 언어 스타일, 심리측정학 속성, 감정의 동시 발생 패턴, 온라인 행동 특성 사회 참여와 게시 트렌드를 포함해서요. 우리의 연구결과는 중요한 사실을 밝혀냈다. 부사나 동사 시제와 같은 함수어의 사용에 대한 차이점, 그리고 생물학적 과정과 같은 주제별 어휘 감정은요. 표현, 우리는 영향을 받는 사용자들이 감정을 더 많이 공유하는 경향이 있다는 것을 관찰한다. 평균적으로 개인을 통제하는 것보다 더 규칙적으로. 전체적으로 월별 게시물 영향을 받는 그룹의 분산이 관리 그룹보다 큽니다. 게다가, 우리는 마이크로 조절 플랫폼에서 언어 사용이 더 적다는 것을 암시하는 증거를 발견했다. 정신 장애를 가진 사용자가 다른 사용자보다 덜 구별 가능 제한적인 플랫폼 특히 트위터에서 정량화할 수 있는 양이 적다. 레딧과 비교한 영향 그룹과 대조군 그룹 간의 차이. 

 

 

반응형