본문 바로가기
데이터분석자격증 ADsP/Part 1 데이터 이해

ADsP 1과목 Day 2 <데이터의 가치와 미래> 완벽 요약 + 기출

by doodlie 2024. 1. 19.

PART 1 데이터 이해

  1. 데이터의 이해
  2. 데이터의 가치와 미래
  3. 가치창조를 위한 데이터 사이언스와 전략인사이트 

빅데이터의 이해

# 빅데이터 정의

  • 데이터 규모 관점 : 일반적인 DB 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 분석 비용 관점: 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출함
  • 더그 래니의 3V (+4V): 
    1. 양(Volume): 규모 측면
    2. 다양성(Variety): 데이터 유형과 소스 측면
    3. 속도(Velocity): 데이터 수집과 처리 측면
    4. 가치(Value), 시각화(Visualization), 정확성(Veracity)
  • 빅데이터의 범주의 확대
데이터의 변화
→ 기술변화  인재/조직의 변화
3V (양, 다양성, 속도) 데이터 처리, 저장, 분석 기술 및 아키텍쳐
클라우드 컴퓨팅 활용 
데이터 사이언티스트 필요
데이터 중심 조직 
→ 기존 방식으로 얻을 수 없는 통찰/가치 창출
→ 사업방식, 시장, 사회, 정부에서 변화와 혁신 주도

 

Q. 빅데이터 특성에 대한 설명으로 부적절한 것은? (28회)

더보기

데이터의 양이 늘어날수록 더 많은 분석을 필요로 한다.

Q. 구글의 자동 번역 시스템을 통한 의사소통의 불편해소는 빅데이터의 어떤 특징인가? (29회)

더보기

volume 양

Q. 다음 중 일반적으로 통용되고 있는 빅데이터의 정의와 거리가 가장 먼 것은? (22회)

더보기

(다) 빅데이터는 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡(Hadoop)을 기반으로 하는 대용량의 분산처리 기술을 통해 창출하는 새로운 방식이다. 

(*빅데이터 = 대용량 데이터를 활용해 새로운 통찰이나 가치를 창출해내는 일,

하둡 = 빅데이터 플랫폼 환경 구축을 위해 사용할 뿐, 빅데이터가 하둡을 기반으로 하는 것은 아니다.)

Q. 다음 중 빅데이터의 수직, 구축, 분석의 최종 목적으로 가장 적절한 것은? (13회)

더보기

새로운 통찰과 가치를 창출

(*그 외에 최종목적으로 사업방식, 시장, 사회, 정부에서 변화와 혁신 주도가 있다.)

 
# 빅데이터 출현 배경과 변화

  • 산업계: 고객 데이터 축적/보유를 통해 데이터에 숨어있는 가치를 발굴
  • 학계: 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍쳐 및 통계 도구의 발전
  • 기술발전: 관련기술(저장 기술, 인터넷 보급, 클라우드 컴퓨팅, 모바일 혁명)의 발달

# 빅데이터에 거는 기대에 비유적 표현

  • 산업혁명의 석탄과 철
  • 21세기의 원유
  • 렌즈
  • 플랫폼

#빅데이터가 만들어내는 본질적인 변화 (과거 → 현재)

  • 사전처리 → 사후처리 : 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보 찾기
  • 표본조사(sampling) → 전수조사 : 샘플링이 주지 못하는 패턴이나 정보를 발견  
  • 질 → : 데이터가 추가되면 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출
  • 연과관계(causation) → 상관관계(correlation) : 특정 현상의 발생가능성 포착, 그에 상응하는 행동을 하기 

Q. 빅데이터가 만들어내는 본질적인 변화로 틀린것은? (29회, 30회)

더보기

대면조사에서 표본조사로의 변화.

더보기

비정형에서 정형 데이터로 변화했다.

Q. 다음 중 빅데이터 현상이 출현하게 된 배경과 가장 거리가 먼 것은? (21회)

더보기

의료정보 등 공공데이터의 개방 가속화

Q. 빅데이터 기능 중 '공동 활용의 목적으로 구축된 유, 무형의 구조물 역할을 수행한다.' 라는 것에 해당하는 내용은 무엇인가? (12회)

더보기

플랫폼

Q. 다음 중 빅데이터가 만들어 내는 변화화 가장 먼 것은? (21회)

더보기

데이터의 양이 증가하고 유형이 복잡해짐에 따라 수많은 데이터 중에서 분석에 필요한 데이터를 선정하기 위해 정교한 표본조사 기법의 중요성이 대두되고 있다. 

(*표본조사에서 전수조사로 변화하는 추세이기 때문)

 

빅데이터의 가치와 영향

#빅데이터의 가치 산정이 어려운 이유?

  • 데이터 활용방식: 재사용/재조합(mashup) 등 때문에 데이터를 언제 누가 어디서 활용할지 알 수 x
  • 새로운 가치창출: 데이터가 기존에 없던 가치를 창출함
  • 분석 기술 발전: 추후에 새로운 분석 기법이 등장하면 더 거대한 가치가 생길 수 있음

Q. 다음중 가치 산정이 어려운 이유는? (30회)

더보기

가치창출의 어려움

Q. 다음 중 데이터의 가치 측정이 어려운 이유로 적절하지 않은 것은 무엇인가? (12회)

더보기

빅데이터 전문 인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있기 때문이다.

 
 
# 빅데이터가 미치는 영향과 분야별 사례 

분야 영향 활용 사례
기업 소비자의 행동 분석, 시장 변동 예측
→ 혁신, 경쟁력제고, 생산선향상
e.g. 구글은 사용자 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하려 검색 서비스 개선
e.g. 월마트는 고객의 구매패턴 분석 후 상품진열
정부 기상, 인구이동 등을 수집해 사회 변화 추정
→ 환경 탐색, 상황분석, 미래대응
e.g. 실시간 교통 정보, 기후 정보, 소방 서비스 등 국가 안전 확보를 위해 실시간 모니터링
e.g. 미래 의료와 교육 개선
개인 데이터 분석 비용이 지속적으로 하락
→ 목적에 따른 활용
e.g. 정치인은 선거 승리를 위해 사회관계망 분석 후 유세 지역 선정 (개인인지도 향상)
→ 스마트화  

 
Q. 다음 중 글로벌 기업의 빅데이터 활용사례로 그 연결이 부적절한 것은? (14회)
(가) 구글 - 실시간 자동 번역 시스템을 통한 의사소통의 불편해소
(나) 라쿠텐 - 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영
(다) 월마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 월마트랩 운영
(라) 자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측

더보기

(나) Cinematch는 넷플릭스에서 개발한 시스템이다.

라쿠텐은 일본 온라인 소핑몰 기업 

Q. 기업들이 퍼스널 빅데이터로 가치를 창출하려고 한다. 퍼스널 빅데이처에는 건강정보, 행태정보, 감정정보 등이 있다. 다음 중 행태정보에 속하지 않는 것은? (28회)

더보기

연중 정당별 선호도 변화

(*속한것은 주간별 운동량, 하루 중 통화빈도, 여름에 판매량이 느는 상품)

 

비즈니스 모델

#빅데이터 활용 기본 테크닉 (예전: 정형 →  현재: 비정형)

  • 연관규칙학습: 상관관계 찾기 (e.g. 커피를 구매한 사람이 탄산을 더 많이 사는 가?)
  • 유형분석: 특성에 따라 분류할 때 (e.g. 이 사용자는 어떤 특성의 집단에 속하는가?)
  • 유전자 알고리즘: 최적화가 필요한 문제 (e.g. 최대 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?)
  • 기계학습: 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하기 (e.g. 시청 기록 바탕으로 시청자가 가장 보고 싶어할 영화는?)
  • 회귀분석: 독립변수와 종속변수의 관계를 파악하기 (e.g. 구매자 나이가 구매 차량 타입에 어떤 영향을 미치는가?)
  • 감정분석: 사람의 감정 분석하기 (e.g. 새로운 환불 정책에 대한 고객의 평가는?)
  • 소셜네트워크분석:  관계망 파악하기 (e.g. 고객들 간 관계망은 어떻게 구성되는가?)

 
Q. 빅데이터 활용으로 알맞지 않은것은? (30회)

더보기

데이터 수집 및 저장 

Q. 빅데이터 활용 사례로 부적절한 것은? (14회)

더보기

구글, 애플 등에서는 정형화된 데이터만 수집하여 웹과 서비스에 활용한다. 

(정형 x , 비정형 o)

Q. "기저귀를 구매하는 사람이 맥주를 더 많이 구입하는가?"에 대한 문제를 해결하기 위한 빅데이터 분석 기법으로 적절하는 것은? (29회)

더보기

연관분석

Q. "A마트는 금요질 저녁에 맥주를 사는 사람은 기저귀도 함께 구매했다는 사실을 발견하고, 두가지 상품을 가까운 곳에 진열하기로 결정했다."에 대한 빅데이터 기본 테크닉 중 어떤 사례에 해당하는가? (17회)

더보기

연관성분석

Q. 다음 중 감성 분석에 대한 설명으로 가장 부적절한 것은? (23회)

더보기

사용자간의 소셜 관계를 알아내고자 할 때 이용한다. 

(*이건 소셜네트워크분석이기 때문.)

Q. 다음 중 비즈니스 모델에서 빅데이터 분석 방법과 사례를 연결한 것으로 부적절한 것은? (20회)

더보기

택배차량을 어떻게 배치하는 것이 가장 비용 효율적인가? - 유형분석

(*유형분석의 예시 - 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때)

Q. 아래에서 설명하는 빅데이터 활용 기본 테크닉은 무엇인가? (22회)
가. 생명의 진화를 모방하여 최적해(optimal solution)를 구하는 알고리즘
나. '최대의 시청률을 얻으려면 어느 시간대에 방송해야 하는가?' 같은 문제를 해결할 때 사용
다. 어떤 미지의 함수를 최적화하는 해 x를 찾기 위해, 진화를 모방한 탐색 알고리즘

더보기

유전자 알고리즘

 

위기 요인과 통제 방안

#위기 요인과 통제방안

위기 요인  통제방안
사생활 침해
개인정보가 포함된 데이터를 목적 외에 활용할 경우
익명화 기술 발전이 필요하다
동의에서 책임으로
개인정보 제공자의 동의 -> 사용자의 책임
책임 원칙 훼손
분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 증가
민주주의 국가에서는 명확한 결과에 대한 책임을 묻고있음
결과기반 책임 원칙고수
예측자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련해야 함
데이터 오용
일어난 일에 대한 데이터로 미래를 예측하지만 항상 맞을 순 없음
알고리즘 접근 허용
부당함을 반증할 수 있는 알고리즈미스트 필요

 
Q. 책임 원칙 훼손과 관련된 것으로 가장 올바른 것은? (28회)

더보기

범죄 예측 프로그램에 의해 범행 전 체포 

Q. 빅데이터 시대의 위기와 통제에 대한 설명으로 가장 타당한 것끼리 묶은 것은? (31회)

더보기

(나) 빅데이터 분석은 일어난 일에 대한 데이터에 의존하므로 예측의 정확도는 높지만 항상 맞을 수는 없어 데이터 오용의 피해가 발생할 수 있다. 

(마) 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하며 해결해 주는 알고리즈미스트도 새로운 직업으로 부상하게 될 것이다. 

Q. 다음 중 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지하는 기술은 무엇인가? (17회)

더보기

난수화

(*데이터 난수화를 사용하면 고객의 과거 구매기록이나 나이, 수입, 건강정보와 같은 데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송된다.)

Q. 다음 중 빅데이터 시대 위기 요인 중 사생활 침해 문제를 해결하기 위한 방법으로 가장 적절한 것은? (25회)

더보기

정보 사용자 책임제로 변환

Q. 다음 중 빅데이터 시대에 발생할 수 있는 위기 요인으로 가장 부적절한 것은? (14회)

더보기

재산권 침해

 

미래의 빅데이터 

# 빅데이터 활용의 3요소 

데이터  모든 것의 데이터화
기술 진화하는 알고리즘, 인공지능
인력 데이터 사이언티스트, 알고리즈미스트 

 
Q. 다음 중 사물인터넷과 관련이 가장 큰 것은? 

더보기

데이터화

(*사물인터넷은 인터넷 기반으로 모든 사물을 연결하여 사람-사물, 사물-사물 간 정보를 상호 소통하는 기술이며, 사물에서 생성되는 데이터를 활용한 분석을 통해 마케팅에 활용 가능.)

Q. 빅데이터 활용에 필요한 기본적인 3요소 가잘 적절한 것은? (16회)

더보기

데이터 기술 인력

Q. 상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델은? (20회)

더보기

플랫폼형 비즈니스 모델

Q. 다음 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야인 것은? (14회)

더보기

신용평가 (Credit Rating) 

 

(*신용평가는 투자자 보호를 위해 금융상품 및 신용공여 등에 대해 그 원리금이 상환될 가능성과 기업/법인 및 간접투자기구 등의 신용도를 평가하는 행위.)

Q. 다음 중 데이터화 현상에 큰 영향을 미치는 기술로 적절한 것은? 

더보기

사물인터넷 (Internet of Things)

 

 
↓ADsP 1과목 Day 3 학습하기↓

 

ADsP 1과목 Day 3 <가치 창조를위한 데이터 사이언스와 전략 인사이트> 요약 + 기출

PART 1 데이터 이해 데이터의 이해 데이터의 가치와 미래 가치창조를 위한 데이터 사이언스와 전략인사이트 빅데이터 분석과 전략 인사이트 #빅데이터 회의론의 원인 부정적 학습효과 → 과거의

doodlie.tistory.com