본문 바로가기

데이터마이닝4

[ADsP] 지도학습 vs. 비지도학습 (머신러닝의 알고리즘) 머신러닝(Machine Learning)은 데이터를 이용해 컴퓨터를 학습시키는 방법론을 뜻한다. 머신러닝의 알고리즘 분류에는 크게 비지도학습, 지도학습, 강화학습으로 나누어져 있으며, ADsP 시험 3과목 에 가장 자주 나오는 개념으로 비지도학습과 지도학습은 꼭 알아두어야 한다. 각 학습의 특징과 모델들을 기억하도록 하자. 지도학습(Supervised Learning)이란? 지도학습 - 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것 컴퓨터가 학습할 때 입출력 데이터가 모두 필요함 독립변수에 따른 종속변수가 있음 예시) 입력 - 고양이 사진 10장, 강아지 사진 10장에 대한 정보, 출력 - 새로운 사진을 입력받을때 동물을 판별 회귀(regression) - 연속형 종속변수 선형회귀분석, 의사결정.. 2024. 2. 23.
[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis) 군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che.. 2024. 2. 23.
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 19.
[ADsP] 데이터마이닝 (Data Mining) 정의, 기법, 모형평가, 불균형데이터 목차 - 데이터마이닝의 정의와 기법 종류 - 데이터분할 (훈련용, 검증용, 테스트) - 모형평가 (홀드아웃, 교차검증, 붓스트랩) - 클래스 불균형 데이터 데이터 마이닝 (Data Mining)이란? 대용량 데이터(거래,고객,상품 데이터 등)에서 감춰진 지식, 새로운 규칙 등을 발견하고 의사 결정에 활용하는 방법 e.g. 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측할 수 있음 데이터 마이닝 5단계: 1. 목적 정의 2. 데이터 준비 - 데이터 정제 (cleansing)로 품질 확보, 필요시 보강하여 양 확보 3. 데이터 가공 - 목적 변수 정의, 마이닝 소프트웨어에 적용 할 수 있게 가공 및 준비, CPU와 메모리 등 개발환경 구축 4. 데이터 마이닝 기법 적용 - 모델을 목적에 맞.. 2024. 2. 18.