본문 바로가기

분류 전체보기40

[ADsP] 39회 기출 3과목 문제풀이 + 개념정리 *ADsP 38회 시험 기반 3과목 파트 문제입니다. 모두 객관식 문제입니다. *표시는 답 해설입니다. Q. 배깅(bagging)에 대한 설명으로 옳은것은? 배깅은 반복 추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수도 있다. *학습데이터관점 Q. 회귀 분석에서 잔차의 정규성 검토에 대한 설명으로 옳지 않은 것은? 정규성을 만족하지 않을 때는 종속변수와 상관계수가 높은 독립변수를 제거한다. *독립과 독립의 상관계수가 높은 독립변수를 제거하는 것. Q. 분해 시계열을 구성하는 요인으로 옳지 않은 것은? 정상요인 *4가지: 추세, 순환, 계절, 불규칙 Q. 도출된 연관 규칙이 얼마나 유의성이 있는지 확인하기 위한 측정지표로 옳지 않은 것은? .. 2024. 2. 23.
[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파) 분류 모형 평가지표 1) 오분류표 2) ROC 그래프 3) 이익도표 4) 카파 상관계수 오분류표 *시험에 자주 출제, 공식 무조건 외우기 *실제, 예측, true, false의 위치를 제일 먼저 확인할 것. T/F 실제 == 예측 True 실제 != 예측 False P/N True 예측: Positive False 예측: Negative => TP, TN, FP, FN 으로 구성됨 정밀도 (Precision) - True라고 예측한 것 중 실제로 True인 것 재현율 (Recall) - 실제로 True인 것 중에 예측값이 True인 것 *Recall은 민감도(sensitivity)와 같은 것 정확도 (Accuracy) - 전체 예측에서 옳은 예측의 비율 오분류율 (Error rate) - 전체 예측에서 .. 2024. 2. 22.
[ADsP] 데이터마이닝 - 분류분석 (인공신경망 모형 ANN) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관계를 모델.. 2024. 2. 21.
[ADsP] 통계분석 - 상관분석 (Correlation Analysis)을 통한 다변량 분석 상관분석이란? - 상관계수 이해하기 - 피어슨 상관계수 - 스피어만 상관계수 - 공분산 - R 프로그래밍으로 보는 예시 상관계수(r) 이해하기 두 변수(x,y)의 상관관계를 알아보기 위해 상관계수(correlation coefficient)를 이용하는 분석방법 상관계수 r은 -1~1의 범위를 갖고 있는 수치이며, 두 변수의 관령성 정도를 나타냄 r = 0 일 때, 상관관계 존재 x r = 1에 가까울수록 양(+)의 상관이 강함 r = -1에 가까울수록 음(-)의 상관이 강함 상관분석의 가설 검정 귀무가설: 상관계수가 0이다. 대립가설: 상관계수가 0이 아니다. t-test를 통해 얻은 p-value 값이 0.05이하이면, 대립가설 채택. (0.05 이상이면, 귀무가설 채택) 상관분석 유형 2가지: 피어슨.. 2024. 2. 20.
[ADsP] 38회 기출 단답형 문제 풀이 + 개념정리 (1,2,3과목) *ADsP 38회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 단답형 문제입니다. Q. "기업의 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 구매, 생산, 재고, 유통, 고객 데이터로 구성되어있는" 개념은? 더보기 SCM (supply-chain management) *"유통", "공급망" 하면 -> SCM Q. "데이터, 정보, 지식의 볌환과정을 통해 최종적으로 지혜를 얻어내는 계층구조인" 개념은? 더보기 DIKW 피라미드 *직역하면 됨 데이터 data 정보 information 지식 knowledge 지혜 wisdom Q. 상향식 접근법의 발산과 하향식 접근법의 수렴을.. 2024. 2. 20.
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 19.
[ADsP] 데이터마이닝 - 연관분석 (Association Analysis) 장바구니 분석 3과목 데이터마이닝 연관분석 - 연관분석 이해하기 (정의 절차 장단점) - 연관분석의 측도 (지지도 신뢰도 향상도) - 연관분석 알고리즘 - R코드로 보는 연관분석 연관분석(Assocation Analysis)이란? 연관분석: 고객들의 구매 패턴을 분석하여 의미있는 규칙을 발견하기 위한 분석 "아메리카노를 마시는 고객이 브라우니를 먹을 확률은?" 장바구니분석 (장바구니에 뭐가 함께 들어있나?) 또는 서열분석 (A 다음 B는 뭘 살까) if-then 형태로 이루어짐: "if 아메리카노를 마시면 then 고객중 10%가 브라우니를 먹는다." 비지도 학습 유형 최소 지지도 결정 → 품목 중 최소 지지도를 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복하여 빈발품목 집합 찾기 장점: 결과 쉽게 이해 가능, .. 2024. 2. 19.
[ADsP] 데이터마이닝 - 분류분석 (로지스틱회귀, 의사결정나무) + R코드 실습 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 18.
[ADsP] 38회 기출 3과목 <데이터의분석> 문제 풀이와 개념 정리 (객관식) *ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. 3과목 Q. sleep dataset의 변수는 수면제 종류 1과 2이다. 1과 2 수면제의 수면시간 증가량 평균이 통계적으로 유의미한 차이가 있는지를 검정한 결과에 대한 해석으로 적절하지 않은 것은? (R코드해석) Two Sample t-test t = -1.8608, df = 18, p-value = 0.07919 alternative hypothesis: true difference in means between group 1 and 2 is not equal to 0 95% confidence interval: -3.363874 020387.. 2024. 2. 18.