[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis)
군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che..
2024. 2. 23.
[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파)
분류 모형 평가지표 1) 오분류표 2) ROC 그래프 3) 이익도표 4) 카파 상관계수 오분류표 *시험에 자주 출제, 공식 무조건 외우기 *실제, 예측, true, false의 위치를 제일 먼저 확인할 것. T/F 실제 == 예측 True 실제 != 예측 False P/N True 예측: Positive False 예측: Negative => TP, TN, FP, FN 으로 구성됨 정밀도 (Precision) - True라고 예측한 것 중 실제로 True인 것 재현율 (Recall) - 실제로 True인 것 중에 예측값이 True인 것 *Recall은 민감도(sensitivity)와 같은 것 정확도 (Accuracy) - 전체 예측에서 옳은 예측의 비율 오분류율 (Error rate) - 전체 예측에서 ..
2024. 2. 22.