huggingface(2)
-
Imbalanced Text Data Resampling 후 huggingface 🤗 로 학습하기
Imbalanced Data가 있으면 이를 Resampling 해주어야 제대로 학습이 가능하다. Resampling은 크게 (1) Undersampling (2) Oversampling으로 나눌 수 있다 예를 들어 label이 0인 데이터는 1,234개, label이 1인 데이터는 5,678개 있다면, label 0은 전체 데이터의 17.8%, label 1은 전체 데이터의 82.14%이므로 Imbalanced Data이다. 이를 (1) Undersampling하면 크기가 작은 label 0을 기준으로 데이터의 크기를 통일한다. label 0도 1,234개, label 1도 1,234개로 통일하는 것이다. (2) Oversampling하면 크기가 큰 label 1을 기준으로 데이터의 크기를 통일한다. l..
2021.06.30 -
GPT 정리
1. GPT (Generative Pre-Training) • goal: learn a universal representation • generative pre-training (unlabeled text) + discriminative fine-tuning (labeled text) 1.1. Unsupervised pre-training 1.2. Supervised fine-tuning 2. GPT-2 • difference from BERT GPT-2 BERT Direction uni-directional auto-regression mask future tokens bi-directional Tokenizer BPE(Byte-pair Encoding) WordPiece Tokenizer Fine-..
2020.10.07