본문 바로가기
데이터분석자격증 ADsP/Part 1 데이터 이해

ADsP 1과목 Day 3 <가치 창조를위한 데이터 사이언스와 전략 인사이트> 요약 + 기출

by doodlie 2024. 1. 20.

PART 1 데이터 이해

  1. 데이터의 이해
  2. 데이터의 가치와 미래
  3. 가치창조를 위한 데이터 사이언스와 전략인사이트 

빅데이터 분석과 전략 인사이트 

#빅데이터 회의론의 원인 

  • 부정적 학습효과과거의 고객관계관리(CRM): 공포 마케팅, 투자대비 효과 미흡
  • 부적절한 성공사례: 빅데이터가 필요 없는 분석사례, 기존 CRM의 분석 성과를 빅데이처 분석 성과로 과대 포장
  • → 단순히 빅데이터에 포커스를 두지 말고, 분석을 통해 가치를 만드는 것에 집중해야 함 

# 일차원적인 분석 vs. 전략도출 위한 가치기반 분석

산업별 분석 애플리케이션 (일차적 분석)
  • 금융서비스: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성분석
  • 병원: 가격 책정, 고객 로열티, 수익 관리
  • 에너지: 트레이딩, 공급, 수요 예측
  • 정부: 사기 탐지, 사례관리, 번죄 방지, 수익 최적화
일차적 분석의 문제점:
부서나 업무 영역엔 효과적 but
큰 변화 (환경변화, 고객환경변화)에 대응하거나 파악하고 새로운 기회 포착하기 어려움.

 

전략도출 가치기반 분석
  • 전략적 통찰력의 창출에 포커스 → 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원을 얻게됨.
  • 분석의 활용 범위를 더 넓고 전략적으로 변화 시키고, 전략적 인사이트를 주는 가치기반의 분석 단계로 나아가야 함.

 
Q. (분석 애플리케이션 보고 산업 맞추기) 아래는 특정 산업의 일차원적 분석 사례를 나열 한 것이다. "트레이딩, 공급, 수요예측" (30회)

더보기

에너지

Q. 다음 중 업무 영역과 분석 사례의 연결이 가장 부적절한 것은? (31회)

더보기

재무관리 - 거래처 선정 

 

전략 인사이트를 위한 역량 - 데이터 사이언스

# 데이터 사이언스란? 

  • 의미: 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고박식을 종합한 학문. 데이터로부터 의미 있는 정보를 추출해냄. 
  • 데이터 사이언티스트의 역할: 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결시킴. 
  • 구성요소
    1. 분석적 영역: 수학, 확률모델, 머신러닝, 패턴 인식과 학습, etc.
    2. 비즈니스 컨설팅 영역: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화, etc.
    3. IT 영역: 프로그래밍, 시그널 프로세싱, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
데이터 사이언티스트 요구 역량
Hard Skill Soft Skill (*인문학적 요소 필요)
1. 빅데이터 관련 이론적 지식 
2. 분석 기술에 대한 숙련 
1. 통찰력 있는 분석 (호기심, 창의력, 논리적 비판)
2. 설득력 있는 전달 (스토리텔링)
3. 다분야간 협력 (커뮤니케이션)

 
# 인문학의 부활

  • 소프트 스킬로 전략적 통찰을 주는 분석은 단순 통계 및 데이터 처리 능력보다 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화 능력 등의 인문학적 요소가 필요함
외부 환경적 측면에서 본 인문학 열풍의 이유
외부환경의 변화 내용 예시
컨버전스 → 디버전스 단순세계화에서 복잡한 세계화로의 변화 규모의 경제, 세계화, 표준화, 이성화
→ 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 → 서비스 비즈니스 중심이 제품생산에서 서비스로 이동 고장 나지 않는 제품의 생산
→ 뛰어난 서비스로 응대
생산 → 시장창조 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화 생산에 관련된 기술 중심, 기술 중심의 대규모 투자 
→ 현재 패러다임에 근거함 시장 창조 현지 사회와 문화에 관한 지식

 
Q. 데이터 분석가에세 필요한 것 중 틀린 것은? (30회)

더보기

천재적 직관력 

Q. 데이터 사이언스는 데이터 처리와 관련된 IT 영역, 분석적 영역, 비즈니스 영역이 있다. 다음 중 세개의 영역와 다른 영역에 속하는 하나는? (22회)
데이터 시각화 / 데이터 웨어하우징 / 분산 컴퓨팅 / 파이썬 프로그래밍 

더보기

데이터 시각화

(*시각화는 비즈니스 영역)

Q. 데이터 사이언스에서 인문학 열풍을 가져오게 한 외부 환경 요소로 가장 부적절한 것은? (18회)

더보기

빅데이터 분석 기법의 이해와 분석 방법론 확대 

Q. 빅데이터를 다각적으로 분석하여 인사이트를 도출하는 데이터 사이언티스트의 필요 역량이 아닌 것은? (22회)

더보기

뉴럴네트워크 최적화 능력 

Q. 데이터 사이언스에 대한 설명으로 가장 부적절한 것은? (17회)

더보기

주로 분석의 정확성에 초점을 두고 진행한다. 

Q. "데이터 사이언티스트가 갖춰야 할 역량은 빅데이터 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (가) skill 과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (나)skill 로 나누어진다. (가)와 (나)는 무엇인가? (15회)

더보기

(가) - hard

(나) - soft

 
 

빅데이터 & 데이터 사이언스의 미래 

# 빅데이터의 세계

  • 빅데이터 분석은 선거결과에 결정적인 영향을 미칠 수 있음
  • 기업들에게 비용절감, 시간 절약, 매출중대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음

 
# 빅데이터 회의론을 넘어 가치 패러다임의 변화

과거
Digitalization
현재
Connection
미래
Agency
아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천 디지털화된 정보와 대상들은 서로 연결 시작

연결을 더 효과적이고 효율적으로 제공하는건가 성공요인
복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이유

 
 
# 데이터 사이언스의 한계 

  • 분석과정에서 인간의 해석이 개입되어야함
  • 사람에 따라 다른 해석과 결론을 내릴 수 있음
  • 모든 분석은 가정에 근거함 

 
Q. 미래 사회의 특성과 빅데이터 연결이 올바르게 연결되지 않은 것은? (30회)

더보기

단순화 - 경쟁력

 

DBMS와 SQL

# DBMS란? 

  • DBMS (Data Base Management System): 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 시스템
  • DB 구축 틀 제공, 효율적인 데이터 검색, 저장 기능 제공
  • 대표 예) 오라클, 인포믹스, 액세스

# DBMS 종류

  • 관계형: 칼럼(column)과 로우(row)를 이루는 하나 이상의 테이블로 정리, 고유키가 로우를 식별함
    • 로우 = "레코드" = "튜플"이라고 불림
    • 각 테이블은 하나의 엔티티 타입을 대표함 (e.g. 고객/제품)
    • 로우는 엔티티의 인스턴스를 대표함 (e.g. "lee")
    • 칼럼은 인스턴스의 속성값을 대표함 (e.g. 주소/가격)

  • 객체지향: 정보를 객체 형태로 표현함 (object)

  • 네트워크: 레코드들이 노드로, 레코드들 사이 관계가 간선으로 표현되는 그래프 

  • 계층형: 트리 구조를 기반으로 하는 모델

 
Q. 다음은 데이터베이스의 구성요소들을 설명한 것이다. 각 설명에 해당하는 구성요소를 가장 적절하게 나열한 것은?
(A) 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
(B) 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

더보기

(A) - 메타데이터

(B) - 인덱스 

 

(*메타데이터: 데이터에 대한 데이터, 하위레벨의 데이터를 설명하는 것. 

인덱스: 테이블에서 고속의 검색동작뿐 아니라 레코드 접근과 관련 효율적인 순서매김 동작에 대한 기초 제공.)

Q. 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는 데이터 베이스 관리 시스템은 무엇인가? (17회)

더보기

객체지향 DBMS

(*객체지향DB는 정보를 객체 형태로 표현하는 모델로 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS.)

 
 
# SQL이란? 

  • SQL (Structured Query Language): 데이터 베이스의 하부 언어
  • 단순한 질의 기능뿐 아니라 완전한 데이터의 정의와 조작 기능을 갖춤
  • 테이블 단위로 연산 수행, 영어 문장과 비슷한 구문으로 비교적 쉬움
SQL 집계함수
AVG 지정한 열의 평균값을 반환 수치형
COUNT 테이블의 특정 조건이 맞는 것의 개수 반환 어떠한 데이터타입도 사용 가능 (수치,문자)
SUM 지정 열의 총합 반환 수치형
STDDEV 지정 열의 분산 반환
MIN 지정 열의 가장 작은 값 반환
MAX 지정한 열의 가장 큰 값 반환

 
# SQL 문장 예시 

SELECT NAME, GENDER, SALARY //데이터추출
FROM CUSTOMERS //테이블지정
WHERE AGE BETWEEN 20 AND 39 //선택조건식 지정

 
Q. 복잡한 데이터 구조를 표현 및 관리하는 DBMS는? (28회) 

더보기

객체지향 DBMS

Q. SQL 구문은 DML과 DDL로 구분된다. 다음 중 성격이 다른 하나를 고르면? 
CREATE / DELETE / INSERT / SELECT

더보기

CREATE 

(문자, 수치 형태 가능)

Q. SQL 함수 중 그룹함수를 적용해서 나온 결과값 중 원하는 조건에 부합하는 자료만 산출할 때 사용하는 함수는? (29회)

더보기

HAVING

Q. 고객테이블로부터 나이가 20-30대인 고객정보를 추출하기 위해 아뢔와 같은 SQL문을 작성하려고 한다.

SELECT NAME, GENDER, SALARY
FROM CUSTOMERS
WHERE AGE (가) 20 AND 30

(가)에 들어갈 구문은? (15회)

더보기

BETWEEN

 

DATA 관련 기술

# 개인정보 비식별 기술

  • 개인정보 비식별 기술: 데이터에서 개인을 식별할 수 있는 요소를  삭제하거나 대체하는 기술 
  • 비식별 기술 종류와 예시:
    • 데이터 마스킹 - 데이터의 길이, 유형, 형식 등 속성을 유지한채 새롭고 읽기 쉬운 데이터를 익명으로 생성
    • 가명처리 - 개인정보 주체 이름을 다른 이름으로 변경 
    • 총계처리 - 데이터의 총합 값을 보임으로서 개별 값을 보이지 않도록 함
    • 데이터값 삭제 - 필요 없는 값 또는 개인식별에 중요한 값 삭제
    • 데이터 범주화 - 범주의 값으로 변환하여 값을 숨김 

 
# 무결성과 레이크 

  • 데이터 무결성 (Data Integrity): 데이터의 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러 가지 제한을 두는 것 
  • 데이터 레이크 (Data Lake): 수 많은 정보 속 의미있는 내용을 찾기 위해 방식 상관없이 데이터를 저장하는 시스템, 대규모 저장소

Q. "지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 (가)를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다." (가)는 무엇인가? (13회)

더보기

데이터 레이크

 
 
# 빅데이터 분석 기술

  1. 하둡(Hadoop): 여러 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술 
    • 분산파일시스템(HDFS) - 대용량 파일을 저장할 수 있는 기능 제공
    • 맵리듀스(Map Reduce)로 HDFS에 저장된 데이터를 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리
  2. Apache Spark: 실시간 분산형 컴퓨팅 플랫폼 (스칼라, 자바, R, 파이썬, API 지원)
    • In-Memory 방식 사용 -> 하둡보다 처리속도 빠름
  3. Smart Factory: 기계에 사물인터넷(IoT)이 설치되어, 공정 데이터가 실시간으로 수집되고, 데이터에 기반한 의사결정이 이뤄짐으로써 생산성 극대화
  4. 머신러닝 (Machine Learning): 기계학습. 인간의 학습 능력을 컴퓨터에 실현 (인공지능의 한 분야)
    • 관련 소프트웨어 - Anaconda (python)
  5. 딥러닝 (Deep Learning): 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 인공신경망 기술을 기반하여 구축한 기계학습 기술 중 하나
    • 관련 분석 기법 - CNN, LSTM, Autoencorder
    • 관련 소프트웨어 - Caffe, Tensorflow, Theano

Q. 다음 중 주요 데이터 분석 기술에 대한 설명으로 가장 부적절한 것은? (15회)
(OLAP, Business Intelligence, Business Analytics, Deep Learning 설명)

더보기

"Deep Learning - 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술"

 

(*데이터 마이닝 - 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술

딥러닝 - 다층구조 형태의 신경망을 바탕으로 하는 머신 러닝의 한 분야)

Q. 다음 중 딥러닝과 가장 관련 없는 분석 기법은? (25회)
CNN / LSTM / SVM / Autoencorder 

더보기

SVM 

(*SVM은 분류분석의 기법 중 하나로 딥러닝과 관련 x)

Q. 최근에 딥러닝에 대한 관심이 전 세계적으로 높아지고 있다. 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다. 다음 중 이와 가장 관련이 없는 것은? (13회)
Caffe / Tensorflow / Anaconda / Theano 

더보기

Anaconda

 

기타

#B2B & B2C

  • B2B: 기업과 기업 사이 거래 기반 비즈니스 모델
  • B2C: 기업과 고객 사이 거래 기반 비즈니스 모델 

#블록체인이란? 

  • 블록체인 (Block Chain): 거래정보를 하나의 덩어리로 보고, 이를 차례로 연결한 거래장부
  • 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며, 거래 때마다 이를 대조해 데이터 위조를 막음 

Q. 다음 중 개인정보 비식별화 기법을 설명한 것으로 부적절한 것은? (29회)

더보기

데이터마스킹 - 개인 정보 식별이 가능한 특정 데이터 값 삭제 처리

(*데이터마스킹은 속성 유지한채 익명으로 생성하는 기술)

 
Q. "이것은 하둡분산파일시스템에 저장된 대용량의 데이터들을 대상으로 SQL을 이용하여 사용자의 질의를 실시간으로 처리하는 기술이다. 이것의 대표적인 예로는 Apache Hive, Apache Tajo, Cloudera의 Impala, Facebook의 Presto, Pivotal HD의 HAWQ, Apache Drill 등이 있다." 이것은? (29회)

더보기

맵리듀스 (Map Reduce) 

Q. "이것은 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부다. 기존 금융회가의 경우 집중형 서버에 기록을 보관하는 반면, 이것은 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 때마다 이를 대조해 데이처 위조를 막는 방식을 사용한다." 이것은? (29회)

더보기

블록체인 (block chain)

Q. 다음 중 데이터베이스의 특징과 가장 거리가 먼 것은? (31회)

더보기

응용프로그램 중속성 

(*특징으로 맞는 것은 데이터의 무결성 유지, 프로그래밍 생산성 향상, 데이터 중복성 최소화)

Q. 인공지능의 한 분야로, 컴퓨터가 스스로 많은 데이터를 분석해서 패턴과 규칙을 찾아내고, 학습된 패턴과 규칙을 활용하여 분류나 예측을 하는 것을 무엇이라고 하는가? (31회)

더보기

기계학습 (머신러닝)

Q. 빈칸에 공통으로 들어갈 용어는? (18회)
가. 페이스북은 2006년 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발ㄹ자들이 페이스북 위에서 작동하는 앱을 만들이 시작하면서 (   ) 역할을 하기 시작했다. 
나. 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 (   )기술이며, 선형적인 성능과 용향 확장성, 고장 감내성을 가지도 있다. 
다. 아마존은 S3와 BC2환경을 제공함으로써 (   )를 위한 클라우드 서비스를 실현하였다.

더보기

플랫폼 (platform)

 
 

 
↓ ADsP 2과목 Day 4 학습하러 가기  

 

ADsP 2과목 Day 4 <데이터 분석 기획의 이해 I> 완벽 요약 + 기출

PART 2 데이터 분석 데이터 분석 기획의 이해 분석 마스터 플랜 분석기획 방향성 도출 #분석기획이란? 분석기획: 실제 분석을 수행하기 전에 과제를 정의라고, 의도했던 결과를 도출 할 수 있도록

doodlie.tistory.com