본문 바로가기
데이터분석자격증 ADsP/기출문제

[ADsP] 37회 기출 3과목 <데이터의분석> 문제 풀이와 개념 정리 (객관식)

by doodlie 2024. 2. 14.

*ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요.

*전부 객관식 문제입니다.

*해피캠퍼스 같은데에서 돈내고 다운받지마세요 ㅠㅠ 블로그에 요약본+기출 많습니다

3과목 <데이터의 분석> 

Q. 회귀분석에 대한 설명으로 옳은 것은? (매우중요)

더보기

독립변수와 종속변수의 사이를 모형으로 나타내고 두 변수 간의 관계를 도출하는 것이다. 

*오답 예시) 

"독립변수의 수가 많아지면 모델의 설명력이 증가하고 모형이 단순해진다." -> 모형이 더 복잡해짐 

"명목형 변수는 회귀분석에서 더미변수화하여 사용할 수 없다." -> 명목형 변수를 연속형 변수로 만들기 위해 더미변수화 필요

 "종속변수들 간에 강한 상관관계가 나타나는 다중공선성 문제가 발생될 수 있다." -> 독립변수들 간에 강한 상관관계가 나타나는 것이 다중공선성 (multicollinearity)

회귀분석 - 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

독립변수 - 입력이나 원인 x 

종속변수 - 결과물이나 효과 y

명목형 변수 - 수치적 의미가 없는 데이터 (e.g. 남,여), 회귀분석에서 쓰기 위해선 연속형 변수로 변환 필요

다중공선성 - 독립변수가 서로 영향을 끼칠 때 

 

Q. 구축된 모델을 평가하여 과대적합 (over fitting) 또는 과소적합 (under fitting)을 미세 조정하는데 활용하는 데이터는?

더보기

검증 데이터 (validation data set)

모델학습 중 데이터를 3가지로 구분: 

1. 학습데이터 - 모델을 학습할 때 가중치(weight)를 찾기 위한 데이터

2. 검증데이터 - 학습과정 중 모델을 미세 조정, 정확도를 평가하여 과대적합과 과소적합을 줄이기 위한 데이터 

3. 테스트데이터 - 모델의 정확도를 평가하기 위한 데이터 

 

Q. 모분산 추정에 대한 설명으로 옳지 않은 것은? 

더보기

임의추출한 두 표본에 대한 검정은 두 분산이 동일한가 확인하는 것으로 t분포로 가능.

*분산은 t분포가 아닌 f분포 이용

*용어정리 

모집단 (population) - 조사의 대상/집단

표본집단 (sample) - 모집단에 대하여 샘플링을 한 결과, 모집단의 부분집합

모수 (population parameter) - 모집단을 조사하여 얻을 수 있는 통계적 정보 (모평균, 모분산, 모표준편차...)

모평균 (population mean) - z분포, t분포 사용

모분산 (population variance) - chi제곱분포(1개의 변수), F분포(2개의 변수) 사용

- 모분산 추정으로 모집단의 변동성과 퍼짐성 확인

- 임의 추출한 n개의 표본에 대한 추정은 자유도가 n-1인 카이제곱분포로 추정 가능 

 

정규분포 (normal distribution) - 분포곡선이 좌우 대칭이며 하나의 꼭지 

- 정규분포가 아닌 분포도 중심극한정리(central limit theorem)에 따라 모분산 추정 가능 

 

Q. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료유형별 닭의 무계 데이터이다. summary 함수 결과에 대한 해석 중 옳지 않는 것은? 

더보기

weight의 중간값은 261.3이다. 

*weight의 중간값 = median = 258

weight의 평균 = mean = 261.3

data( ) 데이터 불러오기 

summary( ) 기초통계정보 불러오기 

- 연속형 데이터일 경우: 평균(mean), 중간값(median), 등

- 범주형 데이터일 경우: 그룹에 대한 카운트(count)

range( ) 최소값, 최대값 

 

Q. 사회연결망분석(Social Network Analysis, SNA)에서 중심성을 파악하는 방법으로 옳지 않은 것은? 

더보기

링크중심성 (link centrality) 

*연결,근집,매개,고유벡터 중심성

링크는 존재 x

사회연결망분석(SNA)이란? 개인과 집단들 간의 관계를 링크로 모델링하여 위상구조와 확산/진화 과정을 분석하는 방법론 

- 분석 기법 종류: 중심성, 밀도, 구조적 틈새, 집중도

 

중심성 분석기법 4가지: 

- 연결중심성 (degree centrality): 한 점에 직접적으로 연결된 점들의 합

- 근집중심성 (closeness centrality): 각 노드 간 직간접 거리 합산

- 매개중심성 (betweenness centrality): 네트워크 내 한점이 담당하는 매개자 혹은 중개자 역할의 정도

- 위세중심성/고유벡터중심성 (eigenvector centrality): 연결된 노드의 중요성에 가중치를 둬 중심성을 측정하는 방법 

 

Q. 다차원척도법에 대한 설명으로 알맞은 것은? 

더보기

고차원의 데이터를 저차원 데이터로 축소하는 방법이므로 독립변수들 간 다중공선성 문제를 해결할 수 있다.

*두개의 변수 관계를 하나의 관계로 줄이며 다중속선성 해결

*오답예시)

"여러 변수들의 데이터를 서로 상관성이 높은 변수들의 선형결합으로 만들어 변수들은 요약, 축소하는 기법이다." -> PCA 주성분분석

"개체들의 유사성(거리)을 이용하는 점에서 군집분석과 동일하다." -> 군집분석과 목표가 다름

다차원척도법(Multidimensional Scaling)이란? 객체간 근접성(proximity)을 시각화하는 통계기법

- 다변량분석

- 차원축소기법

- 유사성과 비유사성을 측정하여 근접성 

비계량적 다차원척도법 - 서열형 변수 일 때 사용

 

Q. 혼합분포군집 모형에서 최대가능도 (Maximum Likelihood Estimation)와 관련 있는 알고리즘은? 

더보기

EM알고리즘 

혼합분포군집 (mixture distribution clustering) - 모형기반 군집모델, 비지도학습, 확률분포를 도입하여 군집 수행, 이상치 자료에 민감

- EM(Expectation-Maximization) 알고리즘: 혼합분포군집의 수 찾기, 최대가능도를 찾아 확률기반으로 추정

 

계층적 군집분석 - 군집의 개수를 제일 나중에 선정하는 방법

비계층적 군집분석 - 군집의 개수를 먼저 선정하고 모형을 개발 (k-means)

 

Q. 다음은 4개의 데이터 변수를 가진 데이터프레임 USArrests에 주성분분석을 적용해서 얻은 결과이다. 제 1주성성분분석을 구하는 식으로 옳은 것은?

더보기

(0.536xMurder)+(0.583xAssault)+(0.278xUrbanPop)+(0.543xRape)

 

*R코드 설명: 

dataset의 변수 총 4개 (murder, assault, urbanpop, rape)가 있음. 

Comp.1 = 변수를 4개에서 1개로 축소한 것

이 때 cumulative proportion이 0..62 -> 전체의 62%를 설명한다는 뜻 

주로 cumulative proportion이 85%이상인 경우를 선택하여 사용 

$loadings는 각 변수가 가질 수 있는 가중치를 각 성분별로 출력

PCA(Principal Component Analysis) 주성분분석 - 차원을 축소할 때 사용하는 알고리즘 (변수를 줄이는 것)

1주성분분석 식: Comp.1의 각 loadings 값과 그 데이터의 값을 곱한 것을 전부 더하는 식

 

Q. 다음은 Wage 데이터의 t검정 결과에 대한 해석이다. 분석결과에 해석으로 옳지 않은 것은? 

더보기

유의수준 0.05일 때 귀무가설은 기각되지 않는다. 

*유의수준일 때 귀무가설 기각, 대립가설 채택.

*R 코드 설명: 

t.test(Wage$wage, mu=100) wage변수 평균 급여가 100인지를 검증하는 것 

자유도 df=2999

자유도 (n-1) 를 사용하기 때문에, 3000개의 데이터를 사용함

95% confidence interval 유의수준은 5%

신뢰구간 110 ~ 113

평균 111

t검정 - 평균차이를 검증 할 때 사용

t.test( ) 표본 하나의 평균차이(분포)를 검증 할 때 사용

- e.g. 나이 분포가 1~100이 존재하는데, 나이 50에 대해서만 검증할 때 one-sample t-test 사용

유의수준 중간 영역에 있으면 귀무가설 (null hypothesis) 채택

유의수준 영역에 있으면 대립가설 (alternative hypothesis) 채택, 귀무가설 기각

 

Q. 연관분석에 대한 설명으로 옳지 않은 것은? 

더보기

시차연관분석은 원인과 결과로 해석되지 않는다. 

*시차연관분석은 시계열적 관점으로 연관분석하는 것, 시간적 연관성 

연관분석 - 지지도, 신뢰도, 향상도

- 조건반응(if-then)으로 표현되어 결과를 이해하기 쉬움

- 적절한 품목 세분화가 필요, 너무 상세 x (segmentation)

- 거래량이 적은 품목은 제외

 

Q. 인공신경망모델에 대한 설명 중 옳지 않은 것은? 

더보기

은닉층 노드와 뉴런 수는 자동으로 설정되며 은닉층이 많을수록 예측력이 우수하다. 

*노드와 뉴런 수가 설정되어야 함. 

인공신경망모델 - 인간두뇌의 학습과정을 뉴런과 시냅스의 상호작용을 연산과정으로 간주하고, 이를 재현한 분류와 예측 모델

- 장점: 복잡한 비선형 관계 모델링과 대용량 데이터 처리

- 모델해석 어려움(블랙박스), 초기 가중치 설정 어려움

 

Q. 통계적 가설검정에 대한 설명으로 적절하지 않은 것은? (귀무가설에 대한 파트)

더보기

p-value(유의확률)이 작을수록 귀무가설을 지지하는 것으로 해석한다. 

*p-val이 작을수록 대립가설을 지지함. 

제1종오류 - 참을 거짓으로 판단할 때 발생 (사실인 귀무가설을 기각했을 때)

제2종오류 - 거짓을 참으로 판단할 때 발생

유의수준 - 귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류의 허용정도

 

Q. 5개의 관측치를 가진 데이터셋에서 각 관측치 사이의 유클리드거리를 계산한 행렬이다. 최단연결법으로 계층적 군집분석을 사용할 때 첫 번째 단계에서 형성되는 군집과 a와의 거리는?

더보기

3.2

*가장 짧은 거리 = 2.2

첫번째 단계에서 형성되는 군집 (d,e)

a와 가장 가까운 거리 = 3.2

계층적군집화 - n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

최단연결법 - n*n행렬에서 가장 가까운 거리

 

Q. 신경망모델에서 입력 받은 데이터를 다음 층으로 어떻게 출력할지를 결정하는 함수는? 

더보기

활성화함수 

신경망 구성: 입력층 (input), 은닉층 (hidden), 출력층 (output)

활성화함수 - 입력층에서 출력층으로 갈 때 사용하는 함수 

 

Q. 텍스트 마이닝에 대한 설명으로 옳지 않은 것은? 

더보기

평가지표로 재현율과 정밀도가 사용할 수 없다. 

*비정형데이터도 평가지표 사용할 수 있음

 

텍스트 마이닝 - 텍스트(음성, 문서)를 컴퓨터가 이해할 수 있는 형태로 변환 (정제, 전처리 과정)

- 비정형데이터마이닝 (구조x, 스키마x)

- 의미 있는 정보을 추출하고 이해하기 위한 기술

- 패턴, 트렌드, 감정 분석 가능

 

Q. 데이터 탐색 단계에서 고려해야 할 사항으로 가장 적절하지 않은 것은? 

더보기

결측값을 확인하고 결측값이 있을 경우 제거하는 것이 바람직하다. 

*결측값을 무조건 제거하는 것 보단, 대치기법을 사용하여 최대한 활용하는 것이 바람직.

데이터 탐색 단계 - 그래프, 요약 기법 사용, 수치 정보, 패턴 이해하는 과정 

- 변수들간의 상관관계, 연관성 분석 -> 유의미한 변수 식별, 다중공선성 확인

- 데이터의 일관성 검토 -> 이상값? 잘못된값? 확인

 

Q. 부트스트랩을 통해 한 샘플이 뽑힐 확률이 1/d라고 했을 때, 샘플 추출을 d번 진행하였을 때 어떤 샘플이 한번도 뽑히지 않을 확률은? 

더보기

(1-1/d)^d

*뽑힐 확률 = 1/d

한번도 뽑히지 않을 확률 = 1-1/d

샘플 추출을 d번 진행 = (1-1/d)^d

붓스트랩(bootstrap) - 주어진 자료에서 단순랜덤 복원추출하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법 (중복데이터를 허용함)

 

Q. 사회연결망분석에서 연결망을 표현하는 분석방법으로 옳지 않은 것은? 

더보기

k-mean

*집단을 데이터셋에서 구분하는 군집 기법 

사회연결망분석 방법: 네트워크 그래프, 클러스터링, 영향력 분석

 

Q. 시계열모델에 대한 설명으로 옳은 것은? 

더보기

계절성을 갖는 비정상시계열은 계절차분을 이용해 정상시계열로 바꿀 수 있다. 

*오답예시)

"이동평균모델(MA)은 정상성을 만족하기 위한 조건이 필요하다."

시계열모델 (time series) - 불규칙적인 시계열 패턴을 규칙적으로 변환하여 패턴을 분석해 예측

확률적 시계열모델의 진화: 자기회귀분석모델(AR) -> 이동평균모델(MA) -> 자기회귀 이동평균모델 (ARMA) -> (ARIMA)

AR: 현재 & 과거

MA: 현재 & 과거의 오차관계 

ARMA: 합친것 

ARIMA: 차분(integrate)

 

정상성 - 평균과 분산이 일정

백색 잡음 - 시계열 분석에서 오차항을 의미 

 

Q. ARMA(2,0)에 대한 설명으로 옳지 않은 것은? 

더보기

PACF는 절단되고, ACF는 증가한다. 

*PACF절단, ACF감소

*ARMA(2,0) AR=2차, MA=0(포함x)이라는 뜻

현재시점의 값이 과거 2개의 값을 이용하여 자기회귀적으로 예측됨

PACF (partial acf) 부분 자기상관함수 - 어느 시점에서 절단점이 생김

ACF 자기상관함수 - 빠르게 감소

 

Q. 다중공선성(Multicollinearity)에 대한 설명으로 옳지 않은 것은? 

더보기

다중공선성이 발생하는 독립변수들은 표본의 크기가 관계없이 발생하게 된다. 

*표본의 크기가 클수록 다중공선성 발생 확률이 높아짐

다중공선성 - 독립변수간에 유사성때문에 일어나는 문제점

- 해결하기 위해서 독립변수를 제거하거나 줄이기

- 분산팽창요인(VIF) 값이 10을 넘으면 다중공선성의 문제가 있는 것으로 판단

- 표본수가 증가해도 VIF에서 결정계수는 크게 변하지 않음

 

Q. 텍스트 마이닝에 대한 설명으로 옳지 않은 것은? 

더보기

비구조화된 텍스트에서 구조화된 데이터로 변환하는 방법을 코퍼스라 한다. 

*코퍼스 Corpus - 말뭉치 

구조화된 단계로 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태

텍스트 마이닝에서 감정분석 (문장에서 긍정, 부정단어 계산)

 

Q. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 옳지 않은 것은? 

더보기

결정계수는 -1~1사이에 값을 갖는다. 

*0과 1 사이

결정계수 (coefficient of determination R^2) 0 =< R =< 1

- 높을수록 측정된 회귀식의 설명력이 높아짐

- 총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타냄

- 종속변수의 변동 중 독립변수로 설명되는 비율 

 

Q. 회귀분석에서 유의성 검정을 위한 분산분석표의 설명으로 옳지 않은 것은? 

더보기

오차항의 분산 불편추정량(unbiased estimate)은 MSR값이다. 

*MSE값이다

분산분석 Analysis of Variance (ANOVA) - 두개 이상의 평균을 동시에 비교할 때 

분산분석표: 요인, 제곱합, 자유도, 평균제곱, F값, p 

- 회귀제곱합 (MSR/SSR): 모형이 설명하는 부분

- 오차제곱합 (MSE/SSE): 모형이 설명하지 못하는 부분 

- SSE + SSR = 총제곱합(총변동)

- F값: 회귀분석의 값이 유의미한지 판단하기 위해 찾는 값

- 평균제곱: 각 변동의 제곱합을 해당 변동의 자유도로 나눈 값, 해당 변동의 분산 추정치 

변동요인 - 종속변수의 변동을 설명하는 요소들, 회귀식, 오차 등으로 구분표기

자유도 - 해당 변동의 추정에 사용된 독립적인 정보의 수를 나타냄

 



37회 기출 단답형 문제 

 

[ADsP] 37회 기출 단답형 문제 풀이 + 개념정리 (1,2,3과목)

*ADsP 37회 시험 기출문제 기반 풀이와 내용정리입니다. "답"을 열어 답과 풀이를 확인하고, 아래에 키워드와 개념을 학습하세요. *전부 단답형 문제입니다. Q. "데이터의 가공 및 상관관계 간 이해

doodlie.tistory.com