본문 바로가기

3과목 데이터분석4

[ADsP] 데이터마이닝 - 군집분석 (Cluster Analysis) 군집분석 - 군집분석이란? (정의, 종류, 거리척도) - 계층적 군집분석 - 비계층적 군집분석 - 혼합 군집분석 - SOM 자기조직화지도 - R코드를 통한 군집분석 군집분석(Clustering)이란? 객체의 유사성으로 그룹을 만들고, 이질성에 의해 그룹을 나누는 기법 형성된 군집들의 특성을 파악해 군집들 사이의 관계를 분석 군집분석의 종류: 1) 계층적 - 최단연결법, 최장연결법, 평균연결법, 중심연결법, Ward연결법 2) 분할적 - k-중심 군집, 퍼지 군집 거리척도연속형 변수: 유클리디안 거리 (Euclidean) - 두 점 사이 거리 계산할 때 주로 사용됨. 가장 짧은 거리 계산, 통계적 개념 x맨하탄 거리 (Manhattan) - 두 점의 최단거리 , 변수들 차이의 단순 합체비셰프 거리 (Che.. 2024. 2. 23.
[ADsP] 39회 기출 3과목 문제풀이 + 개념정리 *ADsP 38회 시험 기반 3과목 파트 문제입니다. 모두 객관식 문제입니다. *표시는 답 해설입니다. Q. 배깅(bagging)에 대한 설명으로 옳은것은? 배깅은 반복 추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수도 있다. *학습데이터관점 Q. 회귀 분석에서 잔차의 정규성 검토에 대한 설명으로 옳지 않은 것은? 정규성을 만족하지 않을 때는 종속변수와 상관계수가 높은 독립변수를 제거한다. *독립과 독립의 상관계수가 높은 독립변수를 제거하는 것. Q. 분해 시계열을 구성하는 요인으로 옳지 않은 것은? 정상요인 *4가지: 추세, 순환, 계절, 불규칙 Q. 도출된 연관 규칙이 얼마나 유의성이 있는지 확인하기 위한 측정지표로 옳지 않은 것은? .. 2024. 2. 23.
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 19.
[ADsP] 데이터마이닝 (Data Mining) 정의, 기법, 모형평가, 불균형데이터 목차 - 데이터마이닝의 정의와 기법 종류 - 데이터분할 (훈련용, 검증용, 테스트) - 모형평가 (홀드아웃, 교차검증, 붓스트랩) - 클래스 불균형 데이터 데이터 마이닝 (Data Mining)이란? 대용량 데이터(거래,고객,상품 데이터 등)에서 감춰진 지식, 새로운 규칙 등을 발견하고 의사 결정에 활용하는 방법 e.g. 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측할 수 있음 데이터 마이닝 5단계: 1. 목적 정의 2. 데이터 준비 - 데이터 정제 (cleansing)로 품질 확보, 필요시 보강하여 양 확보 3. 데이터 가공 - 목적 변수 정의, 마이닝 소프트웨어에 적용 할 수 있게 가공 및 준비, CPU와 메모리 등 개발환경 구축 4. 데이터 마이닝 기법 적용 - 모델을 목적에 맞.. 2024. 2. 18.