티스토리 뷰

상관도(Correlation)

  • 두 변수 간의 관련성 또는 연관성을 나타내는 개념
  • 두 변수가 함께 변화하는 경향이 있는지를 알려줌.
  • 일반적으로 산점도(Scatter plot)를 통해 시각화

상관 계수(Correlation coefficient)

  • 두 변수 간의 선형적인 관련성을 수치적으로 나타내는 지표
  • 주로 피어슨(Pearson) 상관계수가 사용되며, 다른 종류로는 스피어만(Spearman), 켄달(Kendall) 등이 있음.
  • 피어슨 상관계수는 -1부터 +1까지의 범위를 가지며, 0에 가까울수록 관련성이 없고, 절대값이 클수록 강한 선형적인 관련성을 나타냄.

 

상관 분석(Correlation analysis)

  • 데이터 간의 관련성을 파악하기 위해 사용되는 분석 방법
  • 주로 변수들 사이의 선형적인 연결을 확인하고 설명하기 위해 사용됨

 

상관 분석 시 주의할 점은, "상관은 인과(causation)를 의미하지 않는다"라는 웬디 웜스리 교수의 말처럼 단순한 원인-결과 관계를 추론할 수 없다는 사실이다.

 

아래에 최근 3년 동안의 코스피 지수와 코스닥 지수의 상관 관계를 분석한 예시를 보여준다.

[그림1]은 최근 3년가 일별 코스피 지수 종가와 코스닥 지수 종가를 나타내는 그래프이다.

상관 계수는 0.922로 나왔으며, 거의 동일하게 변동했음을 알 수 있다.

 

[그림1] 코스피 지수와 코스닥 지수의 상관 계수 : 0.922

[그림2]는 각 지수에 대해 전일 대비 변동률(종가 기준)를 나타낸 그래프이다.

지수에 대한 상관 계수보다는 약간 낮은 0.825로 나타났으며,

양 지수의 변동률이 약간의 차이가 났음을 의미하지만, 0.8이상인 점을 감안하면 거의 동일하게 변동한다는 것을 알 수 있다.

[그림2] 전일 대비 변동률에 대한 상관 계수 : 0.825

반응형