본문 바로가기
데이터분석자격증 ADsP/Part 2 데이터 분석 기획

ADsP 2과목 Day 4 <데이터 분석 기획의 이해 I> 완벽 요약 + 기출

by doodlie 2024. 1. 22.

PART 2 데이터 분석

  1. 데이터 분석 기획의 이해
  2. 분석 마스터 플랜 

분석기획 방향성 도출

#분석기획이란?

  • 분석기획: 실제 분석을 수행하기 전에 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 관리할 수 있는 방안을 사전 계획하는 작업
  • "어떤 목표(what)을 위해(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할까?"
  • 데이터 사이언티스트는 아래 3가지 역량에 대한 균형 잡힌 시각을 가지고 방향성과 계획을 수립 해야 함 
    1. 해당 문제 영역에 대한 전문성 역량
    2. 수학/통계학적 지식을 활용한 분석 역량
    3. 데이터 및 프로그래밍 기술 역량 

# 분석 대상과 방법에 따른 4가지 분석 유형 

분석의 대상 (What)
known unknown   분석의 방법
(How)
Optimization Insight known
Solution Discovery unknown

 
Q. "분석 기획을 위해 분석의 (A)와 분석의 (B)에 따라서 4가지로 나눌 수 있다." A 와 B는 무엇인가? (29회)

더보기

what, How

Q. 조직 내 분석 대상이 무엇인지 인지하고 있으나, 데이터 분석 방법과 다양한 분석 구조를 이애하지 못하는 유형은? (31회)

더보기

Solution 솔루션

 
 
# 목표 시점 별 분석 기획 방안
문제해결을 위한 단기적인 접근방식과 분석과제 정의를 위한 중장기적 마스터 플랜을 융합하는 것 

  당면한 분석 주제의 해결
(과제 단위)
지속적 분석 문화 내재화 
(마스터 플랜 단위)
1차 목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick & Win Long Term View
접근 방식 Problem Solving Problem Definition

 
Q. "장기적인 마스터 플랜 방식" 에 비하여 "과제 중심적인 접근 방식"의 특징으로 적절하지 못한 것은? (30회)

더보기

Accuracy & Deploy

(*이건 마스터 플랜의 특징이기 때문.)

 

# 분석 기획 시 고려사항 

  1. Available data: 분석의 기본인 가용 데이터에 대한 고려가 필요
    • 데이터의 확보가 우선적, 데이터 유형에 따라 적용 가능한 솔루션 및 방법이 달라서 유형 분석 필요 
  2. Proper Business Use Case: 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색이 필요
    • 유사 분석 시나리오 및 솔루션을 최대 활용
  3. Low Barrier of Execution: 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립이 필요 
    • 계속적인 교육 및 활용방안 등의 변화 관리 고려 필요 

→ 성공적 분석

 
Q. 분석 기획 고려사항 중 장애요소에 대한 설명으로 부적절한 것은? (28회)
(가) 비용대비 효과의 적정한 비용 (나) 유사 분석 시나리오 및 솔루션을 활용해 분석 모형의 안정적 성능 확보
(다) 조직의 역량으로 내재화를 위한 변화 관리 (라) 이해도 높은 모형보다는 복잡하고 정교한 모형 

더보기

(라) 이해도 높은 모형보다는 복잡하고 정교한 모형 

Q. 데이터 분석 기획 시 고려사항으로 적절한 것은? (29회)

더보기

분석을 위한 데이터의 확보가 필수 

 
 
# 데이터 종류에 따른 특징과 유형

  정형 데이터 반정형 데이터 비정형 데이터
특징 데이터 자체로 분석 가능
데이터베이스로 관리
메타정보를 활용해야지만 해석 가능 데이터로 분석 불가능 
유형 ERP, CRM, SCM 등 정보 시스템
e.g. Demand forecast (수요예측)
로그데이터, 모바일데이터, 센싱데이터
e.g. competitor pricing
영상, 음석, 문자
e.g. email records

 
 

분석 방법론

# 분석 방법론 개요 

  • 방법론 - 절차 방법, 도구와 기법, 템플릿과 산출물로 구성
  • 기업의 합리적 의사결정을 가로막는 장애요소
    • 고정관념, 편향된 생각, 프레이밍 효과

# 방법론의 적용 업무의 특성에 따른 모델

  • 폭포수 모델 (Waterfall): 단계를 순차적으로 진행, 문제가 발견될 시 피드백 (기존 SW개발 방식)

  • 프로토타입 모델 (Prototype): 점진적으로 시스템을 개발, 고객의 요구를 완전하게 분석 못함을 해결하기 위해 일부분을 우선 개발하려 사용자에게 제공, 그 후 개선 작업 시행 

  • 나선형 모델 (Spiral): 반복을 통해 점증적으로 개발, 처음 시도하는 프로젝트에 용이

 
 
# 분석 방법론의 계층적 프로세스 

방법론의 구성
단계 Phase
프로세스 그룹을 통하여 완성된 단계별 산출물이 생성됨

각 단계는 기준으로 설정되어 관리되고 
단계별 완료 보고서
태스크 Task
물리적 또는 논리적 단위로 품질검토 보고서
스탭 Step
WBS(Work Breakdown Structure)의 Work Package
입력자료, 처리 및 도구, 출력자료로 구성됨
보고서 구성 요소

 
 
# KDD 분석 방법론

  • KDD(Knowledge Discovery in Databases): 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스 
    • 응용: 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 

 

KDD 분석 절차
단계 내용
1. 데이터셋 선택 먼저 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 -> 분석에 필요한 데이터 선택 (목표데이터 )
2. 데이터 전처리 잡음(noise), 이상치(outlier), 결측치(missing value) 식별 혹은 제거 후 의미있는 데이터로 재처리

추가로 요구되는 데이터가 있으면 데이터 선택 단계 재실행
3. 데이터 변환 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있게 데이터 변경

학습용 데이터와 검증용 데이터로 구분
4. 데이터 마이닝 학습용 데이터 + 적절한 데이터마이닝 기법 선택 -> 적절한 알고리즘에 적용

필요시 전처리와 변환 단계를 추가로 실행하여 최적의 결과 산출
5. 결과평가 결과에 대한 해석과 평가, 분석 목적과 일치성 확인

발견한 지식을 업무에 활용하기 위해 방안 마련

 
Q. KDD 분석 방법론 중 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터셋을 변경하는 프로세스 단계는? (29회)

더보기

 데이터 변환 transformation

 
 
# CRISP-DM 분석 방법론 

  • CRISP-DM (Cross Industry Standard Process for Data Mining) - 5개 주요 업체에서 주도 (Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)

CRISP-DM 4 레벨 구조: 

  • 단계 (phase)
  • → 일반화 태스크 (generic tasks) : 데이터마이닝의 단일 프로레스를 완전히 수행
  • → 세분화 태스크 (specialized tasks) : 구체적인 수행 레벨 
  • → 프로세스 실행 (process instances) : 마이닝을 위한 구체적인 실행

  • e.g. "데이터 정제 (data cleansing)" 일반화 태스크 "범주형 데이터 정제 & 연속형 데이터 정제" 로 세분화

 

CRISP-DM의 6단계 프로세스
단계 내용 Task 수행업무
1. 업무 이해
Business
Understanding
비즈니스 관점으로 프로젝트 목적과 요구 이해

초기 계획 수립
업무 목적 파악, 상황 파악, 데이터마이닝 목표 수립, 프로젝트 계획 수립
2. 데이터 이해
Data
Understanding
데이터 수집과 속성 이해를 위한 단계

데이터 품질의 문제점 식별, 숨어있는 인사이트 발견
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3. 데이터 준비
Data Preparation
수집된 데이터에서 분석기법에 적합한 데이터 편성
(시간 많이 소요됨)
분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
4. 모델링
Modeling
다양한 모델링 기법과 알고리즘 선택, 
모델링 과정에서 쓰는 파라미터를 최적화하는 단계

데이터셋이 추가로 필요하면 데이터 준비 단계 재실행

모델의 과적합 문제 확인 (over-fitting)
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
5 .평가
Evaluation
모델링 결과가 프로젝트 목적에 부합하는가? 분석결과 펵아, 모델링 과정 평가, 모델 적용성 평가
6. 전개 모델을 실 업무에 적용하기 위해 계획

프로젝트 종료관련 프로세스
전개 계획 수립, 모니터링과 모델의 유지보수 계획, 종료보고서, 리뷰

 
Q. CRISP-DM 분석 방법론의 프로세스를 순서대로 나열한 것은? (28회)

더보기

business understanding -> data understanding -> data preparation -> modeling -> evaluation

 

빅데이터 분석 방법론 5단계

분석기획  → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 & 전개
비즈니스 도메인과 문제점 인식
분석 계획 & 프로젝트 수행 계획
비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터 정의 & 준비 분석용 데이터 셋 편성 후 다양항 분석 기법과 알고리즘을 이용하여 분석

분석 단계간 피드백이 반복적으로 많이 발생
기획에 맞는 모델 도출 후 가동 시스템에 적용

사전 검증으로 프로토타입 시스템 구현
성과 평가 & 정리

모델 발전 계획을 수립 후 차기 기획으로 전달

종료

 
# 세부단계와 실제 업무
 
1단계 분석 기획

  • 비즈니스 이해 - 내부 & 외부 관련 자료 조사, 비즈니스 이해 및 도메인 문제점 출력 
  • 프로젝트 범위 설정 - 목적에 부합한 법위 설정, 프로젝트 범위 정의서 (SOW) 출력
  • 데이터 분석 프로젝트 정의 - 목표 구체화,로젝트 정의서 출력, 모델 운영 이미지 설계서 출력, 모델 평가 기준 출력
  • 프로젝트 수행 계획 수립 - 프로젝트 수행 계획서 출력, 프로젝트 산출물 위주 WBS (업무 분업) 출력
  • 데이터 분석 위험 식별 - 식별된 위험 목록 출력 (위험의 영향도, 빈도, 발생가능성에 따라 우선순위 설정)
  • 위험 대응 계획 수립 - 정량적, 정성적 분성을 통해 위험 대응방안 수립, 위험관리 계획서 출력 (회피,전이,완화,수용으로 구분)

2단계 데이터 준비

  • 데이터 정의
  • 데이터 획득방안 수립
  • 정형 데이터 스토어 설계 
  • 비정형 데이터 스토어 설계
  • 데이터 수집 및 저장
  • 데이터 정합성 점검

3단계 데이터 분석 

  • 비즈니스 룰 확인
  • 분석용 데이터셋 준비
  • 텍스트 데이터 확인 및 추출
  • 텍스트 데이터 분석
  • 탐색적 데이터 분석
  • 데이터 시각화
  • 데이터 분할
  • 데이터 모델링
  • 모델 적용 및 운영방안
  • 모델 평가
  • 모델 검증 

4단계 시스템 구현

  • 시스템 분석 및 설계
  • 시스템 구현
  • 시스템 테스트
  • 시스템 운영 계획

5단계 평가 및 전개

  • 모델 발전 계획
  • 프로젝트 성과 평가 
  • 프로젝트 종료 

 
Q. 분석 기획 단계에서 프로젝트 위험 대응 계획을 수립 할 때 예상되는 위험에 대한 대응 방법의 구분으로 부적절한 것은? (29회)
회피 / 전이 / 실행 / 수용

더보기

실행

 
 

 
↓ ADsP Day 5 학습하기 ↓

 

ADsP 2과목 Day 5 <데이터 분석 기획의 이해 II> 완벽요약+ 기출

PART 2 데이터 분석 데이터 분석 기획의 이해 분석 마스터 플랜 분석 과제 발굴 # 분석 과제 발굴 방법론 풀어야 할 문제 -> 분석 문제로 변환 -> 과제 정의서 형태 하향식 접근 방식 (Top Down Approach) -

doodlie.tistory.com