세종 구어 말뭉치(tei 포맷) csv로 변환하기
세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡기 위해 파일 한 개만 잡고 분석해보면 from bs4 import BeautifulSoup tei_doc = '5CT_0013.txt' with open(tei_doc, 'r', encoding='utf-8') as tei: soup = BeautifulSoup(tei, 'lxml') 이제 soup 뒤에 태그만 붙여주면 원하는 정보를 얻을 수 있다. # 해당 파일의 제목 soup.title.get_text() # 첫번째 사람이 말한 내용 soup.find_all('u', who="P1") # 모든 ..
2020.05.10