nlp(62)
-
자연어처리 워크샵에 페이퍼 내기
코로나 때문인건지... 알 수 없지만 내가 석사하는 동안 연구실에서 같이 논문을 쓴 게 하나도 없었다 ....... 불모지와 같은 환경에서 실적이 아예 없으니까 불안해지기 시작했고 선배가 워크샵 같은 곳은 덜 어려우니 거기에 페이퍼 내보라고 해서 준비 시작한게 올해 여름! 큰 욕심 없이 (지도교수가 논문 피드백을 거의 안 주니까..) 피드백을 받기 위해 페이퍼를 내기 시작했다. 근데 욕심이란게 그렇게 버린다고 쉽게 버려지지가 않음 ^^ 어쨌든 비대면 석사 생활을 하면서 아무것도 몰랐던 내가 페이퍼 내는 과정을 정리해본다 1. 워크샵 찾아보기 EMNLP, ACL 이런 학회 자체에 내기엔 너무 무서웠고 워크샵은 좀 덜 어려울 것 같아 워크샵을 위주로 찾았다. 구글에 그냥 EMNLP workshops, ACL..
2021.11.25 -
GPT-3 API 받았네??
굉장히 당황스럽다..! 작년 이맘때쯤 구글 닥스로 신청했던 것 같은데.. 1년 뒤에 API key를 주네ㅋㅋㅋㅋ 그래도 신기하다 베타 버전은 18달러어치까지만 무료로 이용 가능한 듯 정말 별 게 다 가능한 GPT-3... * 어린이를 위해 쉽게 요약해주기 * 일상적인 말을 프로그램 명령어처럼 바꾸기 * 상품 설명을 입력으로 주면 그에 맞는 광고 문구 쓰기..!!!! * 영화를 이모티콘으로 요약하기
2021.07.30 -
Imbalanced Text Data Resampling 후 huggingface 🤗 로 학습하기
Imbalanced Data가 있으면 이를 Resampling 해주어야 제대로 학습이 가능하다. Resampling은 크게 (1) Undersampling (2) Oversampling으로 나눌 수 있다 예를 들어 label이 0인 데이터는 1,234개, label이 1인 데이터는 5,678개 있다면, label 0은 전체 데이터의 17.8%, label 1은 전체 데이터의 82.14%이므로 Imbalanced Data이다. 이를 (1) Undersampling하면 크기가 작은 label 0을 기준으로 데이터의 크기를 통일한다. label 0도 1,234개, label 1도 1,234개로 통일하는 것이다. (2) Oversampling하면 크기가 큰 label 1을 기준으로 데이터의 크기를 통일한다. l..
2021.06.30 -
Transformer 정리
Transformer 이전엔 RNN, LSTM과 같은 recurrent model에 attention을 추가하여 성능을 향상했는데, Transformer는 recurrence 없이 attention만 사용하고도 좋은 성능을 보인 모델이다. recurrence가 없기 때문에 임베딩뿐만 아니라 positional encoding을 입력으로 주어 토큰의 순서 정보를 제공해줘야 한다. Transformer의 모델은 크게 Autoregressive model과 Autoencoding model로 나눌 수 있다. Autoregressive model은 transformer의 decoder에 해당하고 Autoencoding model은 transformer의 encoder에 해당한다. 그래서 Autoregressiv..
2021.02.25 -
임베딩Embedding 정리
임베딩이란 자연어처리 분야에서 의미를 표현하는 표준적인 방식이다. ‘비슷한 맥락에 등장하는 단어들은 유사한 의미를 지닌다’는 distributional hypothesis에 따라, 임베딩에서 의미는 어떤 단어가 사용되는 문맥에 따라 정의된다. 단어의 의미를 벡터로 표현한 임베딩을 사용하면, 벡터 연산을 통해 유사도 계산 등 다양한 과제를 할 수 있다. 초기의 임베딩은 단순히 주변 단어의 빈도를 나타내는 것이었으나, 최근에는 transformer model을 활용한 임베딩으로까지 발전했다. 1. Static Word Embedding 1.1. Sparse Vector - TF-IDF, PMI 등이 있다 - 특정 단어의 빈도를 기반으로 한 임베딩이다 - 일반화 어렵다 - 0이 많아서 벡터 크기가 크다 * t..
2021.02.25 -
알파벳으로 한글 쓰기 0r2#rld7lxolNJ 6rLrlN ^^-7l
0r2#rld7lxolNJ 6rLrlN ^^-7l 0r2 알 #r 파 ld7lx 벳 ol 으 (왼쪽 90도 회전) NJ 로 (왼쪽 90도 회전) 6rL 한 rlN 글 (왼쪽 90도 회전) ^^- 쓰 7l 기 ㅎㅎㅎ 억지스러운 것도 있지만 요즘 사람들은 이렇게 아이디 만든다며?!?!?! 난 영어 자판으로 해놓고 한글 쓰는뎁 파이썬으로 함수 만들었는데 웹페이지로 어떻게 만드는지 모르겠다. 엄청 어렵네 우선 한땀한땀 열심히 딕셔너리를 만들고 # 'key' : [[있는 그대로의 형태], [왼쪽으로 90도 회전한 형태], [오른쪽으로 90도 회전한 형태], [180도 회전한 형태]] onset_dict = { 'ㄱ': [['7'], ['r'], ['_l'], ['L']], 'ㄲ': [['77'], ['F'], [..
2020.10.27