본문 바로가기

ADsP 3과목7

[ADsP] 통계분석 - 회귀분석 (Regression Analysis) 회귀분석(Regression Analysis)이란? 회귀분석 - 독립변수들이 종속변수에 미치는 영향을 추정하는 통계적 분석 방법 종속변수(dependent variable) - y값, 영향을 받는 변수 독립변수 (independent variable) - x값, 영향을 주는 변수 독립변수가 1개 = 단순선형회귀분석 독립변수가 2개이상 = 다중선형회귀분석 일반선형회귀는 종속변수가 연속형일때 가능함 (구간,비율) 잔차/오차 - 계산으로 얻은 이론 값과 실제 측정으로 얻은 값은 차이 모집단 (population) - 오차 (error), 표본집단 (sample) - 잔차 (residual) 선형회귀분석의 가정 (*매우중요) 선형성 (linearity) - 독립변수와 종속변수의 관계가 선형이다 독립성 - 잔차와.. 2024. 2. 23.
[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis) 군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che.. 2024. 2. 23.
[ADsP] 통계분석 - 상관분석 (Correlation Analysis)을 통한 다변량 분석 상관분석이란? - 상관계수 이해하기 - 피어슨 상관계수 - 스피어만 상관계수 - 공분산 - R 프로그래밍으로 보는 예시 상관계수(r) 이해하기 두 변수(x,y)의 상관관계를 알아보기 위해 상관계수(correlation coefficient)를 이용하는 분석방법 상관계수 r은 -1~1의 범위를 갖고 있는 수치이며, 두 변수의 관령성 정도를 나타냄 r = 0 일 때, 상관관계 존재 x r = 1에 가까울수록 양(+)의 상관이 강함 r = -1에 가까울수록 음(-)의 상관이 강함 상관분석의 가설 검정 귀무가설: 상관계수가 0이다. 대립가설: 상관계수가 0이 아니다. t-test를 통해 얻은 p-value 값이 0.05이하이면, 대립가설 채택. (0.05 이상이면, 귀무가설 채택) 상관분석 유형 2가지: 피어슨.. 2024. 2. 20.
[ADsP] 데이터마이닝 - 연관분석 (Association Analysis) 장바구니 분석 3과목 데이터마이닝 연관분석 - 연관분석 이해하기 (정의 절차 장단점) - 연관분석의 측도 (지지도 신뢰도 향상도) - 연관분석 알고리즘 - R코드로 보는 연관분석 연관분석(Assocation Analysis)이란? 연관분석: 고객들의 구매 패턴을 분석하여 의미있는 규칙을 발견하기 위한 분석 "아메리카노를 마시는 고객이 브라우니를 먹을 확률은?" 장바구니분석 (장바구니에 뭐가 함께 들어있나?) 또는 서열분석 (A 다음 B는 뭘 살까) if-then 형태로 이루어짐: "if 아메리카노를 마시면 then 고객중 10%가 브라우니를 먹는다." 비지도 학습 유형 최소 지지도 결정 → 품목 중 최소 지지도를 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복하여 빈발품목 집합 찾기 장점: 결과 쉽게 이해 가능, .. 2024. 2. 19.
[ADsP] 데이터마이닝 - 분류분석 (로지스틱회귀, 의사결정나무) + R코드 실습 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 18.
[ADsP] 38회 기출 3과목 <데이터의분석> 문제 풀이와 개념 정리 (객관식) *ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. 3과목 Q. sleep dataset의 변수는 수면제 종류 1과 2이다. 1과 2 수면제의 수면시간 증가량 평균이 통계적으로 유의미한 차이가 있는지를 검정한 결과에 대한 해석으로 적절하지 않은 것은? (R코드해석) Two Sample t-test t = -1.8608, df = 18, p-value = 0.07919 alternative hypothesis: true difference in means between group 1 and 2 is not equal to 0 95% confidence interval: -3.363874 020387.. 2024. 2. 18.
[ADsP] 데이터마이닝 (Data Mining) 정의, 기법, 모형평가, 불균형데이터 목차 - 데이터마이닝의 정의와 기법 종류 - 데이터분할 (훈련용, 검증용, 테스트) - 모형평가 (홀드아웃, 교차검증, 붓스트랩) - 클래스 불균형 데이터 데이터 마이닝 (Data Mining)이란? 대용량 데이터(거래,고객,상품 데이터 등)에서 감춰진 지식, 새로운 규칙 등을 발견하고 의사 결정에 활용하는 방법 e.g. 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측할 수 있음 데이터 마이닝 5단계: 1. 목적 정의 2. 데이터 준비 - 데이터 정제 (cleansing)로 품질 확보, 필요시 보강하여 양 확보 3. 데이터 가공 - 목적 변수 정의, 마이닝 소프트웨어에 적용 할 수 있게 가공 및 준비, CPU와 메모리 등 개발환경 구축 4. 데이터 마이닝 기법 적용 - 모델을 목적에 맞.. 2024. 2. 18.