본문 바로가기

데이터분석자격증 ADsP/Part 3 데이터 분석 R10

[ADsP] 통계분석 - 회귀분석 (Regression Analysis) 회귀분석(Regression Analysis)이란? 회귀분석 - 독립변수들이 종속변수에 미치는 영향을 추정하는 통계적 분석 방법 종속변수(dependent variable) - y값, 영향을 받는 변수 독립변수 (independent variable) - x값, 영향을 주는 변수 독립변수가 1개 = 단순선형회귀분석 독립변수가 2개이상 = 다중선형회귀분석 일반선형회귀는 종속변수가 연속형일때 가능함 (구간,비율) 잔차/오차 - 계산으로 얻은 이론 값과 실제 측정으로 얻은 값은 차이 모집단 (population) - 오차 (error), 표본집단 (sample) - 잔차 (residual) 선형회귀분석의 가정 (*매우중요) 선형성 (linearity) - 독립변수와 종속변수의 관계가 선형이다 독립성 - 잔차와.. 2024. 2. 23.
[ADsP] 지도학습 vs. 비지도학습 (머신러닝의 알고리즘) 머신러닝(Machine Learning)은 데이터를 이용해 컴퓨터를 학습시키는 방법론을 뜻한다. 머신러닝의 알고리즘 분류에는 크게 비지도학습, 지도학습, 강화학습으로 나누어져 있으며, ADsP 시험 3과목 에 가장 자주 나오는 개념으로 비지도학습과 지도학습은 꼭 알아두어야 한다. 각 학습의 특징과 모델들을 기억하도록 하자. 지도학습(Supervised Learning)이란? 지도학습 - 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것 컴퓨터가 학습할 때 입출력 데이터가 모두 필요함 독립변수에 따른 종속변수가 있음 예시) 입력 - 고양이 사진 10장, 강아지 사진 10장에 대한 정보, 출력 - 새로운 사진을 입력받을때 동물을 판별 회귀(regression) - 연속형 종속변수 선형회귀분석, 의사결정.. 2024. 2. 23.
[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis) 군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che.. 2024. 2. 23.
[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파) 분류 모형 평가지표 1) 오분류표 2) ROC 그래프 3) 이익도표 4) 카파 상관계수 오분류표 *시험에 자주 출제, 공식 무조건 외우기 *실제, 예측, true, false의 위치를 제일 먼저 확인할 것. T/F 실제 == 예측 True 실제 != 예측 False P/N True 예측: Positive False 예측: Negative => TP, TN, FP, FN 으로 구성됨 정밀도 (Precision) - True라고 예측한 것 중 실제로 True인 것 재현율 (Recall) - 실제로 True인 것 중에 예측값이 True인 것 *Recall은 민감도(sensitivity)와 같은 것 정확도 (Accuracy) - 전체 예측에서 옳은 예측의 비율 오분류율 (Error rate) - 전체 예측에서 .. 2024. 2. 22.
[ADsP] 데이터마이닝 - 분류분석 (인공신경망 모형 ANN) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관계를 모델.. 2024. 2. 21.
[ADsP] 통계분석 - 상관분석 (Correlation Analysis)을 통한 다변량 분석 상관분석이란? - 상관계수 이해하기 - 피어슨 상관계수 - 스피어만 상관계수 - 공분산 - R 프로그래밍으로 보는 예시 상관계수(r) 이해하기 두 변수(x,y)의 상관관계를 알아보기 위해 상관계수(correlation coefficient)를 이용하는 분석방법 상관계수 r은 -1~1의 범위를 갖고 있는 수치이며, 두 변수의 관령성 정도를 나타냄 r = 0 일 때, 상관관계 존재 x r = 1에 가까울수록 양(+)의 상관이 강함 r = -1에 가까울수록 음(-)의 상관이 강함 상관분석의 가설 검정 귀무가설: 상관계수가 0이다. 대립가설: 상관계수가 0이 아니다. t-test를 통해 얻은 p-value 값이 0.05이하이면, 대립가설 채택. (0.05 이상이면, 귀무가설 채택) 상관분석 유형 2가지: 피어슨.. 2024. 2. 20.
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 19.
[ADsP] 데이터마이닝 - 연관분석 (Association Analysis) 장바구니 분석 3과목 데이터마이닝 연관분석 - 연관분석 이해하기 (정의 절차 장단점) - 연관분석의 측도 (지지도 신뢰도 향상도) - 연관분석 알고리즘 - R코드로 보는 연관분석 연관분석(Assocation Analysis)이란? 연관분석: 고객들의 구매 패턴을 분석하여 의미있는 규칙을 발견하기 위한 분석 "아메리카노를 마시는 고객이 브라우니를 먹을 확률은?" 장바구니분석 (장바구니에 뭐가 함께 들어있나?) 또는 서열분석 (A 다음 B는 뭘 살까) if-then 형태로 이루어짐: "if 아메리카노를 마시면 then 고객중 10%가 브라우니를 먹는다." 비지도 학습 유형 최소 지지도 결정 → 품목 중 최소 지지도를 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복하여 빈발품목 집합 찾기 장점: 결과 쉽게 이해 가능, .. 2024. 2. 19.
[ADsP] 데이터마이닝 - 분류분석 (로지스틱회귀, 의사결정나무) + R코드 실습 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 18.