본문 바로가기
데이터분석자격증 ADsP/Part 3 데이터 분석 R

[ADsP] 통계분석 - 상관분석 (Correlation Analysis)을 통한 다변량 분석

by doodlie 2024. 2. 20.

상관분석이란?
- 상관계수 이해하기
- 피어슨 상관계수
- 스피어만 상관계수
- 공분산
- R 프로그래밍으로 보는 예시 

상관계수(r) 이해하기

  • 두 변수(x,y)의 상관관계를 알아보기 위해 상관계수(correlation coefficient)를 이용하는 분석방법
  • 상관계수 r-1~1의 범위를 갖고 있는 수치이며, 두 변수의 관령성 정도를 나타냄
    • r = 0 일 때, 상관관계 존재 x 
    • r = 1에 가까울수록 양(+)의 상관이 강함
    • r = -1에 가까울수록 음(-)의 상관이 강함 
  • 상관분석의 가설 검정 
    • 귀무가설: 상관계수가 0이다.
    • 대립가설: 상관계수가 0이 아니다
    • t-test를 통해 얻은 p-value 값이 0.05이하이면, 대립가설 채택. (0.05 이상이면, 귀무가설 채택)

 

  • 상관분석 유형 2가지: 피어슨 & 스피어만 
    • 피어슨 상관계수는 선형적(linear)인 관계만 나타냄 
    • 스피어만 상관계수는 비선형적(non-linear)관계도 나타냄 

 

피어슨 (Pearson) 상관계수

  • 등간척도(interval), 비율척도(ratio) 변수 사용
  • 선형적인 관계만 측정 가능  
  • 연속형 변수, 정규성 가정
  • 대부분 많이 사용되는 유형 
  • 피어슨 상관계수 (r) 공식: x,y의 공분산을 편차의 곱으로 나눈 값

  • *cov(X,Y)공분산(Covariance)을 의미함 

스피어만 (Spearman) 상관계수 

  • 서열척도(ordinal) 변수 사용 
  • 선형적, 비선형적 관계 나타냄 
  • 변수에 대해 순위를 매긴 값으로 상관관계 측정: 순서 일치 = 1, 순서 반대 = -1
  • 순위상관계수(로우) 사용 

공분산(Covariance) 이란? 

  • 두 확률변수 x,y의 방향의 조합 (선형성)
  • 공분산의 부호가 +이면 양의 방향성, -이면 음의 방향성을 가짐 
  • x,y가 독립이면 (independent), cov(x,y)=0 (공분산은 0이다)
  • 공분산 공식

R 프로그래밍으로 보는 상관분석 

예시_"mtcars" datasets

data("mtcars")
a <- mtcars$mpg
b <- mtcars$hp
cov(a,b) #공분산 
cor(a,b) #상관계수 
cor.test(a,b,method="pearson")

 
상관분석시행

결과해석

  • 상관계수 = -0.776인것으로 보아, mpg와 hp는 강한 음(-)의 상관관계가 있음을 알 수 있다 
  • p-val<0.05보다 작기 때문에 대립가설 채택 
  • 즉, mpg와 hp가 상관관계가 있다고 할 수 있음