nlp(62)
-
'-거든'과 맨스플레인 (성별에 따른 정보구조 사용의 변이)
수년간 겪어온 맨스플레인을 바탕으로 쓴 글. 이론적 배경을 보충하고 싶어서 맨스플레인 관련 논문 찾아봤는데 거의 없더라. 내가 잘못찾은건가 그냥 단행본에서 만든 신조어라 논문이 없나봐 • 정보구조란? 화자가 발화를 통해 전달하려는 정보가 청자에게 새로운 것인지, 주어져 있는 것인지에 대한 화자의 가정을 반영하는 언어적 양상 (최윤지(2016): 한국어 정보구조 연구) → 내 경험상 누가봐도 내가 더 잘 알 것 같은 내용을 지만 아는 것처럼 말한다든지, 말하면서 이미 나온 얘기인데 혼자 알고 있는 것마냥 말하는 사람들은 다 남자였다. 그래서 세종 구어 코퍼스로 이를 확인해봤다. 사실 저번에 '지붕뚫고 하이킥' 대본으로 간략히 분석해본 적이 있다. 결과는 망했다. 이번엔 성공해서 다행이다. 이땐 너무 생각없..
2020.06.24 -
FNN, CNN, RNN 구조 비교 2020.05.22
-
세종구어코퍼스에서 종결어미/선어말어미만 추출하기
세종구어코퍼스를 csv 파일로 변환한 후, https://codlingual.tistory.com/100 세종 구어 말뭉치(tei 포맷) csv로 변환하기 세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡�� codlingual.tistory.com 각 발화내용에서 내가 궁금했던 종결어미랑 선어말어미만 뽑아낸다. 저번에 넷플릭스 vs 네이버 시놉시스 비교에서 한 일이랑 비슷해서 코드를 재활용했다. https://codlingual.tistory.com/23?category=732088 넷플릭스/네이버 시놉시스 품사 분석하기 넷플릭스와 네이버에서 2..
2020.05.10 -
세종 구어 말뭉치(tei 포맷) csv로 변환하기
세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡기 위해 파일 한 개만 잡고 분석해보면 from bs4 import BeautifulSoup tei_doc = '5CT_0013.txt' with open(tei_doc, 'r', encoding='utf-8') as tei: soup = BeautifulSoup(tei, 'lxml') 이제 soup 뒤에 태그만 붙여주면 원하는 정보를 얻을 수 있다. # 해당 파일의 제목 soup.title.get_text() # 첫번째 사람이 말한 내용 soup.find_all('u', who="P1") # 모든 ..
2020.05.10 -
넷플릭스/네이버 시놉시스 word2vec 시각화하기
같은 영화라도 넷플릭스와 네이버의 줄거리 소개는 다르다. 이 둘이 어떻게 다른지 알아보고자 word2vec 결과를 시각화하려 한다. 203개 드라마, 932개 영화에 대한 넷플릭스, 네이버 각각의 시놉시스를 크롤링했고, 이제 이를 분석하면 된다~! 크롤링 방법은 여기서 확인하면 된다. 1) 넷플릭스 시놉시스 크롤링 : https://codlingual.tistory.com/10 넷플릭스 영화/드라마 시놉시스 크롤링 넷플릭스는 데이터에 미친 것으로 유명하다. 근데 넷플릭스의 빅데이터 활용 사례 중 언어를 분석한 사례는 잘 못 봤다. 다 영화 포스터 얘기, 추천 시스템 얘기. 그냥 넷플릭스 시놉시스에 관심 갖는 사람이 많이.. codlingual.tistory.com 2) 네이버 시놉시스 크롤링 : http..
2020.02.22 -
BERT Word Embeddings 튜토리얼 번역 및 정리
https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/ BERT Word Embeddings Tutorial · Chris McCormick BERT Word Embeddings Tutorial 14 May 2019 By Chris McCormick and Nick Ryan In this post, I take an in-depth look at word embeddings produced by Google’s BERT and show you how to get started with BERT by producing your own word embeddings. This post is pres mccormickml.com 기존 임베딩 vs B..
2020.02.14