본문 바로가기
상관관계 분석에 대한 전체적인 정리 2 - 각각 예시 코드와 차트로 알아보자 (피어슨 , 스피어만, 켄달 타우 - 연속형 데이터끼리 ) 피어슨 상관계수  Pearson Correlation Coefficient# 피어슨 상관계수 분석에 대한 예시 데이터를 생성하고 분석합니다.# 다양한 예시 데이터를 생성np.random.seed(42)data1 = {'X': np.random.normal(0, 1, 100), 'Y': np.random.normal(0, 1, 100)}data2 = {'X': np.random.rand(100), 'Y': np.random.rand(100)}data3 = {'X': np.linspace(0, 100, 100), 'Y': np.linspace(0, 100, 100) + np.random.normal(0, 10, 100)}data4 = {'X': np.random.normal(0, 1, 100), 'Y': n.. 2024. 8. 12.
상관관계 분석에 대한 전체적인 정리 - 이제 피어슨 상관계수 말고 다른것도 사용해보자 상관관계 분석은 두 변수 간의 관계를 파악하는 중요한 방법입니다. 상관관계는 두 변수 간의 연관성 정도를 나타내며, 데이터의 성격에 따라 다양한 상관계수를 사용할 수 있습니다. 아래에서는 데이터 타입별로 주요 상관관계 분석 방법과 그 특징에 대해 설명합니다.1. 연속형 데이터연속형 데이터는 실수로 표현될 수 있으며, 두 변수 모두 연속형일 때 사용할 수 있는 상관계수는 다음과 같습니다.a. 피어슨 상관계수 (Pearson Correlation Coefficient)정의: 두 연속형 변수 간의 선형적 관계를 측정합니다.범위: -1에서 1 사이의 값을 가지며, 1은 완전한 양의 선형 관계, -1은 완전한 음의 선형 관계, 0은 선형 관계가 없음을 의미합니다.가정: 데이터는 정규분포를 따라야 하며, 두 변수 .. 2024. 8. 12.
01 - 인과추론 입문 (Introduction To Causality)(CausalInferenceLab/Causal-Inference-with-Python) 데이터 과학은 예전과 같지 않아요 데이터 과학자는 Harvard Business Review에 따르면, 21세기 가장 매력적인 직업으로 선정되었습니다. 10년 동안 데이터 과학자는 세간의 주목을 받아왔는데요, AI 전문가들은 스포츠 스타와 맞먹는 수준의 급여를 받았습니다. 명성과 부를 찾기 위해, 수많은 젊은 전문가들이 "데이터 과학" 타이틀을 최대한 빨리 얻기 위한 골드러시(Gold Rush)에 열광적으로 뛰어들었으며, 이러한 데이터 과학 열풍(Hype)으로 새로운 산업들이 생겨났습니다. 하나의 수학 공식을 따로 볼 필요 없이, 다양하고 놀라운 지도 방법(Teaching method)을 을 통해, 여러분을 데이터 과학자로 만들어 줄 수 있습니다. 컨설팅 전문가들은 회사가 데이터의 잠재력을 깨울 수 있다.. 2022. 12. 30.
비모수 검정 - 크루스칼 왈리스 검정 Kruskall-Wallis test. R: kruskal.test 셋 이상의 그룹 간에 평균 차이가 있는지 알아볼 때 모수적 방법으로는 분산분석(ANOVA)이 있고, 비모수적 방법으로는 크루스칼 왈리스 검정(Kruskal-Wallis test)이 있습니다. 분산분석(ANOVA) 집단의 평균들이 멀리 떨어져 분산이 크면 클수록 집단간의 평균들이 서로 다르기 때문이다. 집단 평균들 간의 분산이 클수록 그리고, 집단 내 분산이 작아질수록 평균의 차이가 분명해진다. 이러한 평균 제곱 간의 비 (집단 간 평균 제곱 / 집단 내 평균 제곱)를 검정통계량 F라 하며, 이 차이가 통계적으로 유의한지를 분석함으로써, 평균이 모두 같다는 귀무가설을 검증하게 된다. 유의성 검증 결과 F값이 임계치 p 값 보다 작을 경우 귀무가설이 채택되고, 모두 같다는 결론에 이르게 되고, 반대일 경우,.. 2022. 12. 27.
상관계수의 종류(Point-Biserial, Biserial Correlation, etc.) 상관계수의 종류(Point-Biserial, Biserial Correlation, etc.) Pearson r: 피어슨 상관계수 x: 연속형 y : 연속형일때 사용 / 두개의 수치값들의 집합이 있을 때 즉 , 두 수치값들이 서로 관련이 있냐 ? 라고 물어보면 대답할때 사용한다. 우리반 학생들 수학도 잘하고 영어도 잘하는게 상관이 있냐 ? 혹은 수학이랑 물리랑 상관이 있냐 ? 이러한 질문에 답할때 사용한다. 두 변수의 결합은 정규분포일 것이라는 가정이 포함 엄밀하게 피어슨 상관계수는 두 변수가 정규분포여야 한다는 전제를 두지는 않지만 피어슨 상관계수는 정규분포에서 가장 잘 작동하도록 설계되었다 그러므로 이상치에 매우 민감하다 편차의 곱들이 정규분포를 따르지 않으면 오해석을 만드는 이상치(outlier)에.. 2022. 12. 22.
반응형