all(408)
-
세종 구어 말뭉치(tei 포맷) csv로 변환하기
세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡기 위해 파일 한 개만 잡고 분석해보면 from bs4 import BeautifulSoup tei_doc = '5CT_0013.txt' with open(tei_doc, 'r', encoding='utf-8') as tei: soup = BeautifulSoup(tei, 'lxml') 이제 soup 뒤에 태그만 붙여주면 원하는 정보를 얻을 수 있다. # 해당 파일의 제목 soup.title.get_text() # 첫번째 사람이 말한 내용 soup.find_all('u', who="P1") # 모든 ..
2020.05.10 -
넷플릭스/네이버 시놉시스 word2vec 시각화하기
같은 영화라도 넷플릭스와 네이버의 줄거리 소개는 다르다. 이 둘이 어떻게 다른지 알아보고자 word2vec 결과를 시각화하려 한다. 203개 드라마, 932개 영화에 대한 넷플릭스, 네이버 각각의 시놉시스를 크롤링했고, 이제 이를 분석하면 된다~! 크롤링 방법은 여기서 확인하면 된다. 1) 넷플릭스 시놉시스 크롤링 : https://codlingual.tistory.com/10 넷플릭스 영화/드라마 시놉시스 크롤링 넷플릭스는 데이터에 미친 것으로 유명하다. 근데 넷플릭스의 빅데이터 활용 사례 중 언어를 분석한 사례는 잘 못 봤다. 다 영화 포스터 얘기, 추천 시스템 얘기. 그냥 넷플릭스 시놉시스에 관심 갖는 사람이 많이.. codlingual.tistory.com 2) 네이버 시놉시스 크롤링 : http..
2020.02.22 -
BERT Word Embeddings 튜토리얼 번역 및 정리
https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/ BERT Word Embeddings Tutorial · Chris McCormick BERT Word Embeddings Tutorial 14 May 2019 By Chris McCormick and Nick Ryan In this post, I take an in-depth look at word embeddings produced by Google’s BERT and show you how to get started with BERT by producing your own word embeddings. This post is pres mccormickml.com 기존 임베딩 vs B..
2020.02.14 -
BERT 파헤치기 Part 1-2 번역 및 정리
출처 1) Dissecting BERT Part 1: Understanding the Transformer 2) Dissecting BERT Part2: BERT Specifics Part 1 1. Encoder Level 1 : Problem - Transformer의 과제는 번역하기 - Encoder : 입력 문장(출발어) 안의 단어끼리 관계 포착하기 - Decoder : [입력 문장의 정보] + [번역된 단어, 출력문장(도착어)] Level 2 : Flow of Information 1) 각 토큰을 embedding 벡터로 바꾼다. 따라서 전체 input 문장은 (input_length) * (embedding_dim) 크기의 행렬이 된다 2) 이 embedding에 단어의 위치 정보(positio..
2020.02.11 -
그림으로 보는 BERT 번역 및 정리
http://jalammar.github.io/illustrated-bert/ The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) Discussions: Hacker News (98 points, 19 comments), Reddit r/MachineLearning (164 points, 20 comments) Translations: Chinese (Simplified), Persian The year 2018 has been an inflection point for machine learning models handling text (or more accurately, Natu jalammar.github.io BERT (..
2020.02.11 -
Seq2seq pay Attention to Self Attention Part 1-2 번역 및 정리
1) Seq2Seq Pay Attention to Self Attention: Part I 2) Seq2seq Pay Attention to Self Attention: Part 2 Seq2seq vs. Attention Model - Seq2seq : 하나의 고정길이인 context vector - Attention Model : n개의 context vector ( n = input 문장에 사용된 총 단어의 개수) Attention Model의 context vector 계산하는 방법 - α : attention score (단어의 중요도를 의미함) - h : 은닉 상태 - 모든 은닉상태 * attention score = context vector Attention score, α 계산하는 방법 -..
2020.02.10