파이썬(115)
-
알파벳으로 한글 쓰기 0r2#rld7lxolNJ 6rLrlN ^^-7l
0r2#rld7lxolNJ 6rLrlN ^^-7l 0r2 알 #r 파 ld7lx 벳 ol 으 (왼쪽 90도 회전) NJ 로 (왼쪽 90도 회전) 6rL 한 rlN 글 (왼쪽 90도 회전) ^^- 쓰 7l 기 ㅎㅎㅎ 억지스러운 것도 있지만 요즘 사람들은 이렇게 아이디 만든다며?!?!?! 난 영어 자판으로 해놓고 한글 쓰는뎁 파이썬으로 함수 만들었는데 웹페이지로 어떻게 만드는지 모르겠다. 엄청 어렵네 우선 한땀한땀 열심히 딕셔너리를 만들고 # 'key' : [[있는 그대로의 형태], [왼쪽으로 90도 회전한 형태], [오른쪽으로 90도 회전한 형태], [180도 회전한 형태]] onset_dict = { 'ㄱ': [['7'], ['r'], ['_l'], ['L']], 'ㄲ': [['77'], ['F'], [..
2020.10.27 -
'-거든'과 맨스플레인 (성별에 따른 정보구조 사용의 변이)
수년간 겪어온 맨스플레인을 바탕으로 쓴 글. 이론적 배경을 보충하고 싶어서 맨스플레인 관련 논문 찾아봤는데 거의 없더라. 내가 잘못찾은건가 그냥 단행본에서 만든 신조어라 논문이 없나봐 • 정보구조란? 화자가 발화를 통해 전달하려는 정보가 청자에게 새로운 것인지, 주어져 있는 것인지에 대한 화자의 가정을 반영하는 언어적 양상 (최윤지(2016): 한국어 정보구조 연구) → 내 경험상 누가봐도 내가 더 잘 알 것 같은 내용을 지만 아는 것처럼 말한다든지, 말하면서 이미 나온 얘기인데 혼자 알고 있는 것마냥 말하는 사람들은 다 남자였다. 그래서 세종 구어 코퍼스로 이를 확인해봤다. 사실 저번에 '지붕뚫고 하이킥' 대본으로 간략히 분석해본 적이 있다. 결과는 망했다. 이번엔 성공해서 다행이다. 이땐 너무 생각없..
2020.06.24 -
세종구어코퍼스에서 종결어미/선어말어미만 추출하기
세종구어코퍼스를 csv 파일로 변환한 후, https://codlingual.tistory.com/100 세종 구어 말뭉치(tei 포맷) csv로 변환하기 세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡�� codlingual.tistory.com 각 발화내용에서 내가 궁금했던 종결어미랑 선어말어미만 뽑아낸다. 저번에 넷플릭스 vs 네이버 시놉시스 비교에서 한 일이랑 비슷해서 코드를 재활용했다. https://codlingual.tistory.com/23?category=732088 넷플릭스/네이버 시놉시스 품사 분석하기 넷플릭스와 네이버에서 2..
2020.05.10 -
세종 구어 말뭉치(tei 포맷) csv로 변환하기
세종 구어 말뭉치를 이용해서 성별에 따른 종결어미 사용을 비교해보려 한다. 처음보는 tei 파일이라 당황했지만 파이썬의 BeautifulSoup으로 쉽게 처리할 수 있다. html이랑 똑같은 듯 우선 감을 잡기 위해 파일 한 개만 잡고 분석해보면 from bs4 import BeautifulSoup tei_doc = '5CT_0013.txt' with open(tei_doc, 'r', encoding='utf-8') as tei: soup = BeautifulSoup(tei, 'lxml') 이제 soup 뒤에 태그만 붙여주면 원하는 정보를 얻을 수 있다. # 해당 파일의 제목 soup.title.get_text() # 첫번째 사람이 말한 내용 soup.find_all('u', who="P1") # 모든 ..
2020.05.10 -
넷플릭스/네이버 시놉시스 word2vec 시각화하기
같은 영화라도 넷플릭스와 네이버의 줄거리 소개는 다르다. 이 둘이 어떻게 다른지 알아보고자 word2vec 결과를 시각화하려 한다. 203개 드라마, 932개 영화에 대한 넷플릭스, 네이버 각각의 시놉시스를 크롤링했고, 이제 이를 분석하면 된다~! 크롤링 방법은 여기서 확인하면 된다. 1) 넷플릭스 시놉시스 크롤링 : https://codlingual.tistory.com/10 넷플릭스 영화/드라마 시놉시스 크롤링 넷플릭스는 데이터에 미친 것으로 유명하다. 근데 넷플릭스의 빅데이터 활용 사례 중 언어를 분석한 사례는 잘 못 봤다. 다 영화 포스터 얘기, 추천 시스템 얘기. 그냥 넷플릭스 시놉시스에 관심 갖는 사람이 많이.. codlingual.tistory.com 2) 네이버 시놉시스 크롤링 : http..
2020.02.22 -
정규표현식 정리
[ ] 괄호 안의 single character [abc] : a 또는 b 또는 c [ab]* : None 또는 aaaa 또는 abba [0-9] : 숫자 = \d (반대는 [^0-9] = \D) [A-Za-z] : 영어 대소문자 (아스키값은 대문자가 먼저) [A-Za-z0-9_] : 영어 대소문자 + 숫자 + underscore(_) = \w (반대는 \W) [\f\n\r\f\v] : 공백자들 = \s (반대는 \S) ^의 의미 1) \^ : 문자 그대로 ^ 2) [ ] 맨 앞에서 부정의 의미 (ex) [^e] : e 빼고 아무나 한 글자 cf. [e^] : e 또는 ^ 한 글자 3) 스트링의 시작 (ex) ^a : a로 시작하는 스트링 스트링의 시작 1) ^the : 줄바꿈 단위로 하나의 스트링 2)..
2019.12.04