[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis)
군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che..
2024. 2. 23.
[ADsP] 데이터마이닝 (Data Mining) 정의, 기법, 모형평가, 불균형데이터
목차 - 데이터마이닝의 정의와 기법 종류 - 데이터분할 (훈련용, 검증용, 테스트) - 모형평가 (홀드아웃, 교차검증, 붓스트랩) - 클래스 불균형 데이터 데이터 마이닝 (Data Mining)이란? 대용량 데이터(거래,고객,상품 데이터 등)에서 감춰진 지식, 새로운 규칙 등을 발견하고 의사 결정에 활용하는 방법 e.g. 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측할 수 있음 데이터 마이닝 5단계: 1. 목적 정의 2. 데이터 준비 - 데이터 정제 (cleansing)로 품질 확보, 필요시 보강하여 양 확보 3. 데이터 가공 - 목적 변수 정의, 마이닝 소프트웨어에 적용 할 수 있게 가공 및 준비, CPU와 메모리 등 개발환경 구축 4. 데이터 마이닝 기법 적용 - 모델을 목적에 맞..
2024. 2. 18.