세종구어코퍼스(3)
-
'-거든'과 맨스플레인 (성별에 따른 정보구조 사용의 변이)
수년간 겪어온 맨스플레인을 바탕으로 쓴 글. 이론적 배경을 보충하고 싶어서 맨스플레인 관련 논문 찾아봤는데 거의 없더라. 내가 잘못찾은건가 그냥 단행본에서 만든 신조어라 논문이 없나봐 • 정보구조란? 화자가 발화를 통해 전달하려는 정보가 청자에게 새로운 것인지, 주어져 있는 것인지에 대한 화자의 가정을 반영하는 언어적 양상 (최윤지(2016): 한국어 정보구조 연구) → 내 경험상 누가봐도 내가 더 잘 알 것 같은 내용을 지만 아는 것처럼 말한다든지, 말하면서 이미 나온 얘기인데 혼자 알고 있는 것마냥 말하는 사람들은 다 남자였다. 그래서 세종 구어 코퍼스로 이를 확인해봤다. 사실 저번에 '지붕뚫고 하이킥' 대본으로 간략히 분석해본 적이 있다. 결과는 망했다. 이번엔 성공해서 다행이다. 이땐 너무 생각없..
2020.06.24 -
세종구어코퍼스에서 종결어미/선어말어미만 추출하기
세종구어코퍼스를 csv 파일로 변환한 후, https://codlingual.tistory.com/100 세종 구어 말뭉치(tei 포맷) csv로 변환하기 세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡�� codlingual.tistory.com 각 발화내용에서 내가 궁금했던 종결어미랑 선어말어미만 뽑아낸다. 저번에 넷플릭스 vs 네이버 시놉시스 비교에서 한 일이랑 비슷해서 코드를 재활용했다. https://codlingual.tistory.com/23?category=732088 넷플릭스/네이버 시놉시스 품사 분석하기 넷플릭스와 네이버에서 2..
2020.05.10 -
세종 구어 말뭉치(tei 포맷) csv로 변환하기
세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡기 위해 파일 한 개만 잡고 분석해보면 from bs4 import BeautifulSoup tei_doc = '5CT_0013.txt' with open(tei_doc, 'r', encoding='utf-8') as tei: soup = BeautifulSoup(tei, 'lxml') 이제 soup 뒤에 태그만 붙여주면 원하는 정보를 얻을 수 있다. # 해당 파일의 제목 soup.title.get_text() # 첫번째 사람이 말한 내용 soup.find_all('u', who="P1") # 모든 ..
2020.05.10