2019. 10. 5. 23:02ㆍnlp
'맴찢' = '마음이 찢어진다'
'답정너' = '답은 정해져 있고 너는 대답만 하면 돼.'
'존맛' = '존나 맛있다'
왼쪽의 신조어는 오른쪽 설명의 줄임말이다.
대부분의 줄임말은 줄이기 전의 말고 품사가 똑같다. 그래서 대체 가능하다.
"오늘 파바 갔다 왔어!" 를 "오늘 파리바게트 갔다 왔어!"라고 말해도 된다.
근데 '맴찢', '답정너', '존맛' 같은 신조어는 대체가능하지 않은 경우가 꽤 있다.
"완전 맴찢이다.."는 "완전 마음이 찢어진다이다.."로 말할 수 없고
"내가 좀 답정너인가?"는 "내가 좀 답은 정해져 있고 너는 대답만 하면 돼.인가?"로 말할 수 없고
"이거 존맛이다!"는 "이거 존나 맛있다이다!"라고 말할 수 없다.
이렇게 줄이기 전의 말이 명사가 아닌 경우는 줄임말이 되면 명사로 쓰이는 경우가 많은 것 같다.
명사로 쓰이면 (줄이기 전 원래 의미) + (그러한 상태) 정도의 의미가 되는 듯하다.
"완전 맴찢이다.."는 "완전 맴찢인 상태다 / 완전 마음이 찢어지는 상태다"
갑자기 생각난 '갑분싸'
'갑분싸'도 '갑자기 분위기 싸해짐'의 줄임말이지만 '갑분싸되다'라는 형태로 많이 쓴다.
이 경우도 '갑자기 분위기 싸해진 상태가 되다' 정도의 의미로 쓰인 것 같다.
자주 쓰는 형태소 분석기 2가지 Komoran, Kkma로 '맴찢', '존맛', '답정너'의 품사를 어떻게 분석하는지 확인해봤다.
1. 이거 존맛이다.
2. 완전 맴찢이야...
3. 내가 너무 답정너인가?
from konlpy.tag import Komoran
komoran = Komoran()
komoran.pos('이거 존맛이다.')
Komoran의 형태소 분석 결과
1. [('이것', 'NP'), ('존', 'NNP'), ('맛', 'NNG'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]
2. [('완전', 'NNG'), ('맴', 'NNG'), ('찢', 'VV'), ('이', 'EC'), ('야', 'JX'), ('.', 'SF'), ('.', 'SF')]
3. [('내', 'NP'), ('가', 'JKS'), ('너무', 'MAG'), ('답', 'NNG'), ('정', 'NNP'), ('너', 'NP'), ('이', 'VCP'), ('ㄴ가', 'EF'), ('?', 'SF')]
from konlpy.tag import Kkma
kkma = Kkma()
kkma.pos('이거 존맛이다.')
Kkma의 형태소 분석 결과
1. [('이거', 'NP'), ('졸', 'VV'), ('ㄴ', 'ETD'), ('맛', 'NNG'), ('이', 'VCP'), ('다', 'EFN'), ('.', 'SF')]
2. [('완전', 'NNG'), ('맴찢', 'UN'), ('이야', 'JX'), ('..', 'SW')]
3. [('나', 'NP'), ('가', 'JKS'), ('너무', 'MAG'), ('답', 'NNG'), ('정', 'NNG'), ('너', 'NP'), ('이', 'VCP'), ('ㄴ가', 'EFQ'), ('?', 'SF')]]
유일하게 신조어를 하나의 묶음으로 인식한 Kkma 2번째 문장!
Kkma는 '맴찢'을 'UN'으로 태그했는데, 찾아보니 'UN'은 '명사추정범주', '이야'는 '보조사'인 'JX'로 태그했다.
그리고 Komoran에게는 실망했다.. '존'은 고유명사(NNP), '맛'은 일반명사(NNG)라니.. '존'은 John 같은 걸로 생각한거니??
Komoran이 '맴찢' 중 '찢'을 동사로 태그한 걸 보면 input된 문장 구조는 많이 고려하지 않고 그냥 이미 알고 있는대로 태그하는 경향이 강한 듯하다.
'nlp' 카테고리의 다른 글
넷플릭스/네이버 시놉시스 품사 분석하기 (3) | 2019.11.04 |
---|---|
네이버 영화/드라마 시놉시스 크롤링 (6) | 2019.10.08 |
하이킥 대본 후다닥 분석 (1) | 2019.10.04 |
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (3) (0) | 2019.10.02 |
텀블벅 후원에 성공하려면 프로젝트 이름을 어떻게 지어야 할까? (2) (0) | 2019.09.30 |