본문 바로가기

데이터분석자격증 ADsP26

[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 19.
[ADsP] 데이터마이닝 - 연관분석 (Association Analysis) 장바구니 분석 3과목 데이터마이닝 연관분석 - 연관분석 이해하기 (정의 절차 장단점) - 연관분석의 측도 (지지도 신뢰도 향상도) - 연관분석 알고리즘 - R코드로 보는 연관분석 연관분석(Assocation Analysis)이란? 연관분석: 고객들의 구매 패턴을 분석하여 의미있는 규칙을 발견하기 위한 분석 "아메리카노를 마시는 고객이 브라우니를 먹을 확률은?" 장바구니분석 (장바구니에 뭐가 함께 들어있나?) 또는 서열분석 (A 다음 B는 뭘 살까) if-then 형태로 이루어짐: "if 아메리카노를 마시면 then 고객중 10%가 브라우니를 먹는다." 비지도 학습 유형 최소 지지도 결정 → 품목 중 최소 지지도를 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복하여 빈발품목 집합 찾기 장점: 결과 쉽게 이해 가능, .. 2024. 2. 19.
[ADsP] 데이터마이닝 - 분류분석 (로지스틱회귀, 의사결정나무) + R코드 실습 분류기법의 종류 로지스틱 회귀분석 (Logistic Regression) - 선형을 이용해 분류, 로지스틱 함수 적용 의사결정나무 (Decision Tree) - 트리구조로 분류 또는 회귀, 해석이 쉬움 앙상블(Ensemble) - 여러 모델을 결합하여 강력한 모델 생성 K-NN (K-Nearest Neighbors) - 데이터 포인트의 가장 가까운 k개 이웃 데이터 포인트들 기반 SVM (Support Vector Machine) - 데이터를 고차원 공간으로 매핑하여 선형/빈선형 분류 수행 인공신경망 모형 (ANN) - 여러 계층의 뉴런으로 구성되며, 숨겨진 계층을 통해 비선형 함수를 모델링, 딥러닝에서 적용 베이지안분류 (Naive Bayesian) - 베이즈 이론 기반으로, 예측변수와 클래스간의 관.. 2024. 2. 18.
[ADsP] 38회 기출 3과목 <데이터의분석> 문제 풀이와 개념 정리 (객관식) *ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. 3과목 Q. sleep dataset의 변수는 수면제 종류 1과 2이다. 1과 2 수면제의 수면시간 증가량 평균이 통계적으로 유의미한 차이가 있는지를 검정한 결과에 대한 해석으로 적절하지 않은 것은? (R코드해석) Two Sample t-test t = -1.8608, df = 18, p-value = 0.07919 alternative hypothesis: true difference in means between group 1 and 2 is not equal to 0 95% confidence interval: -3.363874 020387.. 2024. 2. 18.
[ADsP] 데이터마이닝 (Data Mining) 정의, 기법, 모형평가, 불균형데이터 목차 - 데이터마이닝의 정의와 기법 종류 - 데이터분할 (훈련용, 검증용, 테스트) - 모형평가 (홀드아웃, 교차검증, 붓스트랩) - 클래스 불균형 데이터 데이터 마이닝 (Data Mining)이란? 대용량 데이터(거래,고객,상품 데이터 등)에서 감춰진 지식, 새로운 규칙 등을 발견하고 의사 결정에 활용하는 방법 e.g. 환자 데이터를 이용해 해당 환자에게 발생 가능성이 높은 병을 예측할 수 있음 데이터 마이닝 5단계: 1. 목적 정의 2. 데이터 준비 - 데이터 정제 (cleansing)로 품질 확보, 필요시 보강하여 양 확보 3. 데이터 가공 - 목적 변수 정의, 마이닝 소프트웨어에 적용 할 수 있게 가공 및 준비, CPU와 메모리 등 개발환경 구축 4. 데이터 마이닝 기법 적용 - 모델을 목적에 맞.. 2024. 2. 18.
[ADsP] 38회 기출 2과목 <데이터분석기획> 문제 풀이 & 개념 정리 (객관식) *ADsP 38회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. Q. 데이터분석 조직 구조에 대한 설명으로 옳지 않은 것. 더보기 분산조직은 조직의 인력들을 협엽부서에 배치하여 분석결과를 신속하게 실무에 적용하지 못한다. *실무에 신속하게 적용할 수 있음. 데이터분석 조직 구조 3가지: 1. 집중 - 별도의 분석조직 있음. 협업 업무부서 & 분석업무 이중화 할수도 2. 기능 - 본인의 해당 부서에서 분석도 수행, 별도 조직 x 3. 분산 - 인력들을 각부서로 직접 배치. 부서 분석업부와 역할분담. Q. 하향식 접근법의 비즈니스 모델 기반 문제 탐색 영역으로 알맞지 않은 것. 더보기 혁신 하향식 - 분석문제(w.. 2024. 2. 17.
[ADsP] 38회 기출 1과목 <데이터의이해> 문제 풀이 & 개념 정리 (객관식) *ADsP 38회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. 1과목 Q. 다음 중 데이터의 크기가 작은 것부터 큰 것까지 순서대로 나열. 더보기 PB - EB - ZB - YB *크기 순서 외우기 = kMGTPEZY Q. 데이터 사이언티스트가 갖춰야 할 역량 중 나머지와 성격이 다른 하나. 더보기 빅데이터에 대한 이론적 지식 *전달력&협력은 소프트스킬. 이론적 지식은 하드스킬 소프트(소통) & 하드(기술,컴퓨터, 이론) Q. 상용 데이터베이스로 알맞지 않은 것. 더보기 Tableau *Tableu는 비즈니스 intelligence tool , 모아놓은 데이터를 시각적으로 용이하게 만드는 툴 데이터베이스 구.. 2024. 2. 16.
[ADsP] 37회 기출 단답형 문제 풀이 + 개념정리 (1,2,3과목) *ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 단답형 문제입니다. Q. "데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터는"는? 더보기 Information 정보 *DIKW 이해하기 Q. 빅데이터 활용기법 중 아래 문장처럼 어떤 변수간에 주목할 만한 상관관계가 있는지를 찾아내는 방법은? "슈퍼마켓에 상관관계가 높은 상품(맥주와 기저귀)을 함께 진열하려 같이 구매하는지는 분석" 더보기 연관분석 association analysis Q. 기업의 경영목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위한 전사적 관점의 정보구조를 도출하며, 이를 수행하기 위한 .. 2024. 2. 15.
[ADsP] 37회 기출 3과목 <데이터의분석> 문제 풀이와 개념 정리 (객관식) *ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 객관식 문제입니다. *해피캠퍼스 같은데에서 돈내고 다운받지마세요 ㅠㅠ 블로그에 요약본+기출 많습니다 3과목 Q. 회귀분석에 대한 설명으로 옳은 것은? (매우중요) 더보기 독립변수와 종속변수의 사이를 모형으로 나타내고 두 변수 간의 관계를 도출하는 것이다. *오답 예시) "독립변수의 수가 많아지면 모델의 설명력이 증가하고 모형이 단순해진다." -> 모형이 더 복잡해짐 "명목형 변수는 회귀분석에서 더미변수화하여 사용할 수 없다." -> 명목형 변수를 연속형 변수로 만들기 위해 더미변수화 필요 "종속변수들 간에 강한 상관관계가 나타나는 다중공선성 문제가 발생될 수 있다... 2024. 2. 14.