본문 바로가기
데이터분석자격증 ADsP/Part 3 데이터 분석 R

[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파)

by doodlie 2024. 2. 22.

분류 모형 평가지표 

1) 오분류표

2) ROC 그래프

3) 이익도표

4) 카파 상관계수


오분류표 

*시험에 자주 출제, 공식 무조건 외우기

*실제, 예측, true, false의 위치를 제일 먼저 확인할 것.

T/F
  • 실제 == 예측 True
  • 실제 != 예측 False
P/N
  • True 예측: Positive
  • False 예측: Negative 
=> TP, TN, FP, FN 으로 구성됨 

 

  • 정밀도 (Precision) - True라고 측한 것 중 실제로 True인 것 
  • 재현율 (Recall)제로 True인 것 중에 예측값이 True인 것 
    • *Recall은 민감도(sensitivity)와 같은 것 
  • 정확도 (Accuracy) - 전체 예측에서 옳은 예측의 비율
  • 오분류율 (Error rate) - 전체 예측에서 틀린 예측의 비율 (1-Accuracy)
  • 특이도 (Specificity) - 실제로 False 인 것 중 예측도 False여서 맞춘 것의 비율

오류

  • FP: 제1종오류
  • FN: 제2종오류
    • *쉽게 외우는 방법: P에는 1자가 하나, N에는 1자가 두개

F1-Score

  • F1 score은 불균형한 데이터(imbalance data)평가에 주로 사용됨
  • precision과 recall의 조화평균 
  • 공식: F1 = (2*P*R) / (P+R) 

 

*Recall, precision 쉽게 외우는 방법: 실rec예pre

 

예시) 아래 오분류표의 F1 score을 구해라. 

더보기

P = 200/500

R = 200/500

F1 = 2*0.4*0.4/(0.8)=0.4


ROC Curve (Receiver Operating Characteristic)

  • x축 = FP rate, y축 = 민감도 (sensitivity/recall)
  • AUC(Area under the Curve) - 곡선 아래 면적이 넓을수록 좋은 것으로 평가됨 
    • AUC 값은 0~1 (1이 최댓값이므로 제일 좋은 것)


이익도표 (Lift Table)

  • 분류모형의 성능을 평가, 주로 불균형 데이터 집합에 사용 
  • 예측이 얼마나 잘 이루어졌는지 나타내기 위해 임의로 나눈 각 등급별로 반응 검출율, 반응률, 향상도(lift) 등 정보를 산출

카파 상관계수 (Kappa) 

  • 코헨(Cohen)의 상관계수로 두 평가자의 평가가 얼마나 일치하는지 평가하는 값
  • 0~1사이 값, 1에 가까울수록 일치도 높음