본문 바로가기
Data Analysis/Statistics

상관관계 분석에 대한 전체적인 정리 - 이제 피어슨 상관계수 말고 다른것도 사용해보자

by Hagrid 2024. 8. 12.
반응형

상관관계 분석은 두 변수 간의 관계를 파악하는 중요한 방법입니다. 상관관계는 두 변수 간의 연관성 정도를 나타내며, 데이터의 성격에 따라 다양한 상관계수를 사용할 수 있습니다. 아래에서는 데이터 타입별로 주요 상관관계 분석 방법과 그 특징에 대해 설명합니다.

1. 연속형 데이터

연속형 데이터는 실수로 표현될 수 있으며, 두 변수 모두 연속형일 때 사용할 수 있는 상관계수는 다음과 같습니다.

a. 피어슨 상관계수 (Pearson Correlation Coefficient)

  • 정의: 두 연속형 변수 간의 선형적 관계를 측정합니다.
  • 범위: -1에서 1 사이의 값을 가지며, 1은 완전한 양의 선형 관계, -1은 완전한 음의 선형 관계, 0은 선형 관계가 없음을 의미합니다.
  • 가정: 데이터는 정규분포를 따라야 하며, 두 변수 간의 관계는 선형적이어야 합니다.

b. 스피어만 상관계수 (Spearman's Rank Correlation Coefficient)

  • 정의: 두 변수 간의 순위(rank)에 기반한 비선형적인 관계를 측정합니다.
  • 범위: -1에서 1 사이의 값을 가지며, 값이 클수록 강한 관계를 의미합니다.
  • 특징: 피어슨 상관계수와 달리 비선형 관계도 탐지할 수 있으며, 데이터가 정규분포를 따를 필요가 없습니다.

c. 켄달의 타우 (Kendall's Tau)

  • 정의: 두 변수 간의 순위 관계를 기반으로 한 상관계수로, 순위의 일치와 불일치를 계산합니다.
  • 범위: -1에서 1 사이의 값을 가지며, 스피어만 상관계수보다 노이즈에 덜 민감합니다.
  • 특징: 작은 표본에서 더 안정적이며, 비선형 관계에 대해서도 강력합니다.

2. 범주형 데이터

범주형 데이터는 명목형 또는 순서형 데이터를 포함하며, 이때 사용할 수 있는 상관계수는 다음과 같습니다.

a. 파이 상관계수 (Phi Coefficient)

  • 정의: 두 명목형 변수 간의 관계를 측정합니다. 특히 두 변수 모두 이분형(bivariate)일 때 사용됩니다.
  • 범위: -1에서 1 사이의 값을 가지며, 0은 독립성을, 1 또는 -1은 강한 상관관계를 의미합니다.
  • 특징: 교차표(contingency table)를 사용하여 계산됩니다.

b. 크래머의 V (Cramér's V)

  • 정의: 두 명목형 변수 간의 관계를 측정하지만, 변수가 이분형이 아닐 때 사용됩니다.
  • 범위: 0에서 1 사이의 값을 가지며, 값이 클수록 관계가 강함을 의미합니다.
  • 특징: 파이 상관계수의 일반화된 형태로, 여러 범주를 가진 명목형 변수에도 적용 가능합니다.

c. 적률 상관계수 (Point-Biserial Correlation Coefficient)

  • 정의: 한 변수는 이분형이고 다른 변수는 연속형일 때 사용됩니다.
  • 범위: -1에서 1 사이의 값을 가지며, 피어슨 상관계수와 동일한 해석을 가집니다.
  • 특징: 연속형 변수와 이분형 변수 간의 상관관계를 측정합니다.

3. 혼합형 데이터

혼합형 데이터의 경우, 한 변수는 연속형이고 다른 변수는 범주형일 때 사용할 수 있는 상관계수는 다음과 같습니다.

a. 점-양상 상관계수 (Point-Serial Correlation Coefficient)

  • 정의: 범주형 변수가 2개의 범주만 가질 때, 즉 이분형 변수와 연속형 변수 간의 상관관계를 측정합니다.
  • 특징: 이분형 변수를 0과 1로 변환하여 피어슨 상관계수를 계산하는 방식입니다.

b. 정준 상관 분석 (Canonical Correlation Analysis, CCA)

  • 정의: 두 세트의 변수 간의 상관관계를 분석하는 방법으로, 각 세트는 연속형 또는 범주형 데이터를 포함할 수 있습니다.
  • 특징: 여러 변수 간의 관계를 탐구하며, 다변량 데이터에 적용 가능합니다.

4. 순서형 데이터

순서형 데이터는 순서가 있는 범주형 데이터를 말하며, 사용할 수 있는 상관계수는 다음과 같습니다.

a. 스피어만 상관계수 (Spearman's Rank Correlation Coefficient)

  • 앞서 설명한 것처럼, 순서형 데이터에 잘 맞는 상관계수입니다.

b. 켄달의 타우 (Kendall's Tau)

  • 마찬가지로, 순서형 데이터 간의 순위 상관관계를 측정할 때 유용합니다.

이와 같이 상관관계 분석은 데이터의 성격에 따라 적절한 방법을 선택하는 것이 중요합니다. 각 상관계수는 특정 상황에서만 의미가 있으므로, 데이터의 분포, 척도, 관계 유형 등을 고려하여 적절한 상관계수를 선택하는 것이 필요합니다.

 

상관관계 분석 방법을 데이터 타입별로 정리한 표

 

데이터 타입 상관계수 설명 범위 특징
         
연속형-연속형 피어슨 상관계수 (Pearson) 두 연속형 변수 간의 선형적 관계를 측정합니다. -1 ~ 1 데이터는 정규분포를 따라야 하며, 선형적 관계를 가정합니다.
  스피어만 상관계수 (Spearman) 두 변수 간의 순위(rank) 기반 비선형적 관계를 측정합니다. -1 ~ 1 비선형 관계도 탐지 가능, 정규분포 가정 필요 없음.
  켄달의 타우 (Kendall's Tau) 두 변수 간의 순위 관계 기반 상관계수, 순위의 일치와 불일치를 계산합니다. -1 ~ 1 작은 표본에서 안정적, 노이즈에 덜 민감합니다.
범주형-범주형 파이 상관계수 (Phi) 두 명목형 변수 간의 관계를 측정, 특히 이분형 변수에 적합합니다. -1 ~ 1 교차표(contingency table)를 사용하여 계산합니다.
  크래머의 V (Cramér's V) 두 명목형 변수 간의 관계 측정, 변수가 이분형이 아닐 때 사용합니다. 0 ~ 1 여러 범주를 가진 명목형 변수에 적용 가능합니다.
  적률 상관계수 (Point-Biserial) 한 변수는 이분형, 다른 변수는 연속형일 때 사용합니다. -1 ~ 1 이분형 변수와 연속형 변수 간의 상관관계 측정.
혼합형 점-양상 상관계수 (Point-Serial) 범주형 변수가 2개의 범주만 가질 때 사용, 이분형 변수와 연속형 변수 간의 상관관계를 측정합니다. -1 ~ 1 이분형 변수를 0과 1로 변환하여 피어슨 상관계수를 계산.
  정준 상관 분석 (CCA) 두 세트의 변수 간의 상관관계를 분석, 각 세트는 연속형 또는 범주형 데이터를 포함할 수 있습니다. - 여러 변수 간의 관계를 탐구하는 다변량 분석에 적합합니다.
순서형-순서형 스피어만 상관계수 (Spearman) 두 변수 간의 순위 기반 비선형적 관계를 측정합니다. -1 ~ 1 순서형 데이터에 잘 맞으며, 비선형 관계도 탐지 가능.
  켄달의 타우 (Kendall's Tau) 두 변수 간의 순위 관계 기반 상관계수, 순위의 일치와 불일치를 계산합니다. -1 ~ 1 순서형 데이터 간의 관계 측정에 유용합니다.

 

반응형

댓글