상관분석이란?
- 상관계수 이해하기
- 피어슨 상관계수
- 스피어만 상관계수
- 공분산
- R 프로그래밍으로 보는 예시
상관계수(r) 이해하기
- 두 변수(x,y)의 상관관계를 알아보기 위해 상관계수(correlation coefficient)를 이용하는 분석방법
- 상관계수 r은 -1~1의 범위를 갖고 있는 수치이며, 두 변수의 관령성 정도를 나타냄
- r = 0 일 때, 상관관계 존재 x
- r = 1에 가까울수록 양(+)의 상관이 강함
- r = -1에 가까울수록 음(-)의 상관이 강함
- 상관분석의 가설 검정
- 귀무가설: 상관계수가 0이다.
- 대립가설: 상관계수가 0이 아니다.
- t-test를 통해 얻은 p-value 값이 0.05이하이면, 대립가설 채택. (0.05 이상이면, 귀무가설 채택)
- 상관분석 유형 2가지: 피어슨 & 스피어만
- 피어슨 상관계수는 선형적(linear)인 관계만 나타냄
- 스피어만 상관계수는 비선형적(non-linear)관계도 나타냄
피어슨 (Pearson) 상관계수
- 등간척도(interval), 비율척도(ratio) 변수 사용
- 선형적인 관계만 측정 가능
- 연속형 변수, 정규성 가정
- 대부분 많이 사용되는 유형
- 피어슨 상관계수 (r) 공식: x,y의 공분산을 편차의 곱으로 나눈 값
- *cov(X,Y)는 공분산(Covariance)을 의미함
스피어만 (Spearman) 상관계수
- 서열척도(ordinal) 변수 사용
- 선형적, 비선형적 관계 나타냄
- 변수에 대해 순위를 매긴 값으로 상관관계 측정: 순서 일치 = 1, 순서 반대 = -1
- 순위상관계수(로우) 사용
공분산(Covariance) 이란?
- 두 확률변수 x,y의 방향의 조합 (선형성)
- 공분산의 부호가 +이면 양의 방향성, -이면 음의 방향성을 가짐
- x,y가 독립이면 (independent), cov(x,y)=0 (공분산은 0이다)
- 공분산 공식:
R 프로그래밍으로 보는 상관분석
예시_"mtcars" datasets
data("mtcars")
a <- mtcars$mpg
b <- mtcars$hp
cov(a,b) #공분산
cor(a,b) #상관계수
cor.test(a,b,method="pearson")
상관분석시행
결과해석
- 상관계수 = -0.776인것으로 보아, mpg와 hp는 강한 음(-)의 상관관계가 있음을 알 수 있다
- p-val<0.05보다 작기 때문에 대립가설 채택
- 즉, mpg와 hp가 상관관계가 있다고 할 수 있음
'데이터분석자격증 ADsP > Part 3 데이터 분석 R' 카테고리의 다른 글
[ADsP] 데이터마이닝 - 분류모형 평가지표 (오분류표, ROC Curve, 이익도표, 카파) (24) | 2024.02.22 |
---|---|
[ADsP] 데이터마이닝 - 분류분석 (인공신경망 모형 ANN) (24) | 2024.02.21 |
[ADsP] 데이터마이닝 - 분류분석 (앙상블 모형, K-NN, SVM) (14) | 2024.02.19 |
[ADsP] 데이터마이닝 - 연관분석 (Association Analysis) 장바구니 분석 (13) | 2024.02.19 |
[ADsP] 데이터마이닝 - 분류분석 (로지스틱회귀, 의사결정나무) + R코드 실습 (13) | 2024.02.18 |