딥러닝 모델 평가하기

2020. 2. 4. 17:47nlp

반응형

https://tykimos.github.io/2017/05/22/Evaluation_Talk/

 

평가 이야기

이번에는 학습한 모델을 어떤 기준으로 평가를 해야되는 지를 알아보겠습니다. 모델을 평가한다고 하면 정확도라는 단어를 떠올리기 쉬운데, 문제에 따라 단순히 정확도로만 평가하기 힘든 경우가 있습니다. 조금 더 알아보면 민감도, 특이도, 재현율 등의 용어가 나오는데, 비전공자에게는 생소하게만 느껴집니다. 몇가지 문제와 모델을 정의하고 여기에 적합한 평가 기준이 무엇인지 알아보겠습니다. 용어는 생소하지만 그 의미를 알게되면 왜 이런 기준이 필요한 지 감이 오실겁

tykimos.github.io

 

1. 분류하기

 

정확도

- 전체 개수 중 양성을 양성이라 말하고, 음성을 음성이라고 말한 개수의 비율

 

민감도

- 양성을 잘 골라낼 수 있는 능력을 평가하기 위한 기준 

- 민감도 = 판정한 것 중 실제 양성 수 / 전체 양성 수 

- (단점) 무조건 양성으로 판정하는 모델의 민감도는 100% 

- 공항검색기기는 민감도가 높아야 한다 (일반물건을 위험으로 분류하는 오류가 있을지라도, 위험물건은 100% 잡아내야 함)

 

특이도 

- 음성을 음성이라고 판정을 잘 하는지 평가하기 위한 기준

- 특이도 = 판정한 것 중 실제 음성 수 / 전체 음성 수 

 

(EX)

민감한 사람 A는 지진도 아닌 진동도 지진이라고 느낌 → 민감도가 높아 지진이 발생하면 다 알아냄 

둔감한 사람 B는 정말 강도 높은 지진 아니면 못 느낌 특이도가 높아 지진이 발생하지 않으면 다 알아냄)

 

ROC (Receiver Operating Characteristic) curve

- 민감도와 특이도가 어떤 관계를 가지고 변하는지 그래프로 그린 것 

- AUC (Area Under Curve) = ROC curve 아래 면적

- x축 : 1 - 특이도 / y축 : 민감도 

 

 

- 노란선은 이상적 모델 (특이도, 민감도 모두 100%인 경우)

- 빨간선은 기준선 (최소 이것 보단 높아야 함, 특이도+민감도=100%인 경우)

- 그래프 선 기준으로 더 위에 있어야, AUC 면적 기준으로 면적이 더 넓어야 좋은 모델 

 

 

2. 검출 및 검색하기 

 

정밀도 Precision

- 모델이 얼마나 정밀한가? 모델이 얼마나 진짜 양성만 잘 고르냐?

- 정밀도 = 실제 양성 수 / 양성이라고 판정한 수 

- (단점) 양성을 몇 개 놓쳐도 일단 골라놓은 것만 다 양성이면 정밀도는 100% 

 

재현율 Recall

- 양성인 것을 놓치지 않고 골라내는가?

- 양성을 많이 고를수록 재현율이 높음 

- 재현율 = 검출 양성 수 / 전체 양성 수 

 

- false negatives: negative라고 답했지만 틀림 = 사실 positive인데 negative로 판단한 것

- true positives: positive라고 답했고 맞음 = 실제로 positive이고 positive로 판단한 것

- true negatives: negative라고 답했고 맞음 = 실제로 negative이고 negative로 판단한 것

- false positives: positive라고 답했지만 틀림 = 사실 negative인데 positive로 판단한 것

 

* 정밀도(Precision) = 내가 positive로 판단한 것 중에 실제로 positive인 것 / 내가 positive로 판단한 것

* 재현율(Recall) =  실제 positive인 것 중 내가 positive로 판단한 것 / 실제 positive인 것

* F1 score: 정밀도 + 재현율, 1이 최댓값, binary classification에 쓰임

 

 

분류 문제 VS 검출문제 차이점

- 검출 문제에서는 검출되지 않은 진짜 음성에 대해서는 관심이 없다 

 

Precision-Recall Graph

- x축 : 재현율 /  y축: 정밀도 

- AP (Average Precision) = 각 재현율에 해당하는 정밀도를 더해서 평균을 취한 값

- AP 수치가 높을수록 좋은 모델

 

반응형