본문 바로가기

데이터분석자격증 ADsP/Part 3 데이터 분석 R

[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파)

by doodlie 2024. 2. 22.

분류 모형 평가지표

1) 오분류표

2) ROC 그래프

3) 이익도표

4) 카파 상관계수

오분류표

*시험에 자주 출제, 공식 무조건 외우기

*실제, 예측, true, false의 위치를 제일 먼저 확인할 것.

T/F 실제 == 예측 True 실제 != 예측 False	P/N True 예측: Positive False 예측: Negative
=> TP, TN, FP, FN 으로 구성됨

정밀도 (Precision) - True라고 예측한 것 중 실제로 True인 것
재현율 (Recall) - 실제로 True인 것 중에 예측값이 True인 것
- *Recall은 민감도(sensitivity)와 같은 것
정확도 (Accuracy) - 전체 예측에서 옳은 예측의 비율
오분류율 (Error rate) - 전체 예측에서 틀린 예측의 비율 (1-Accuracy)
특이도 (Specificity) - 실제로 False 인 것 중 예측도 False여서 맞춘 것의 비율

오류

FP: 제1종오류
FN: 제2종오류
- *쉽게 외우는 방법: P에는 1자가 하나, N에는 1자가 두개

F1-Score

F1 score은 불균형한 데이터(imbalance data)평가에 주로 사용됨
precision과 recall의 조화평균
공식: F1 = (2*P*R) / (P+R)

*Recall, precision 쉽게 외우는 방법: 실rec예pre

예시) 아래 오분류표의 F1 score을 구해라.

P = 200/500

R = 200/500

F1 = 2*0.4*0.4/(0.8)=0.4

ROC Curve (Receiver Operating Characteristic)

x축 = FP rate, y축 = 민감도 (sensitivity/recall)
AUC(Area under the Curve) - 곡선 아래 면적이 넓을수록 좋은 것으로 평가됨
- AUC 값은 0~1 (1이 최댓값이므로 제일 좋은 것)

이익도표 (Lift Table)

분류모형의 성능을 평가, 주로 불균형 데이터 집합에 사용
예측이 얼마나 잘 이루어졌는지 나타내기 위해 임의로 나눈 각 등급별로 반응 검출율, 반응률, 향상도(lift) 등 정보를 산출

카파 상관계수 (Kappa)

코헨(Cohen)의 상관계수로 두 평가자의 평가가 얼마나 일치하는지 평가하는 값
0~1사이 값, 1에 가까울수록 일치도 높음

'데이터분석자격증 ADsP > Part 3 데이터 분석 R' 카테고리의 다른 글

[ADsP] 지도학습 vs. 비지도학습 (머신러닝의 알고리즘) (23)	2024.02.23
[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis) (23)	2024.02.23
[ADsP] 데이터마이닝 - 분류분석 (인공신경망 모형 ANN) (24)	2024.02.21
[ADsP] 통계분석 - 상관분석 (Correlation Analysis)을 통한 다변량 분석 (20)	2024.02.20
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) (14)	2024.02.19

티스토리툴바