机器学习数学基础:30.Pearson相关系数及t检验教程
Pearson相关系数及t检验教程
·
Pearson相关系数及t检验教程
一、定义与原理
Pearson相关系数
Pearson相关系数(记为ρX,Y\rho_{X,Y}ρX,Y)用于衡量两个变量XXX和YYY之间线性相关的强度与方向,取值范围在−1-1−1到111之间。公式为ρX,Y =cov(X,Y)σXσY =E[(X−μX)(Y−μY)]σXσY\rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}\ =\frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}ρX,Y =σXσYcov(X,Y) =σXσYE[(X−μX)(Y−μY)],其中cov(X,Y)\text{cov}(X,Y)cov(X,Y)是协方差,反映两个变量的总体误差;σX\sigma_XσX、σY\sigma_YσY分别是XXX和YYY的标准差,衡量变量的离散程度;μX\mu_XμX、μY\mu_YμY分别是XXX和YYY的均值。值为正表示正相关,为负表示负相关,绝对值越接近111,线性相关越强;接近000,线性相关越弱。
t检验
在Pearson相关系数的应用中,t检验用于检验总体中两个变量是否真的存在线性相关关系。因为样本计算出的相关系数可能受到抽样误差的影响,通过t检验可以判断基于样本得到的相关关系在总体层面是否具有统计学意义。
二、计算步骤
计算Pearson相关系数
- 准备数据:收集两个变量XXX和YYY的nnn组观测值(x1,y1),(x2,y2),⋯ ,(xn,yn)(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)(x1,y1),(x2,y2),⋯,(xn,yn)。
- 计算均值:μX =1n∑i =1nxi\mu_X \ = \frac{1}{n}\sum_{i \ = 1}^{n}x_iμX =n1∑i =1nxi,μY =1n∑i =1nyi\mu_Y \ = \frac{1}{n}\sum_{i \ = 1}^{n}y_iμY =n1∑i =1nyi。
- 计算协方差:cov(X,Y) =1n∑i =1n(xi−μX)(yi−μY)\text{cov}(X,Y)\ =\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)(y_i - \mu_Y)cov(X,Y) =n1∑i =1n(xi−μX)(yi−μY)。
- 计算标准差:σX =1n∑i =1n(xi−μX)2\sigma_X\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)^2}σX =n1∑i =1n(xi−μX)2,σY =1n∑i =1n(yi−μY)2\sigma_Y\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(y_i - \mu_Y)^2}σY =n1∑i =1n(yi−μY)2。
- 计算相关系数:将协方差和标准差代入公式ρX,Y =cov(X,Y)σXσY\rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}ρX,Y =σXσYcov(X,Y)。
进行t检验
- 建立假设
- 原假设H0H_0H0:总体的相关系数ρ =0\rho \ = 0ρ =0,即总体中两个变量之间不存在线性相关关系。
- 备择假设H1H_1H1:总体的相关系数ρ≠0\rho\neq 0ρ=0,即总体中两个变量之间存在线性相关关系。
- 计算t统计量:公式为t =rn−21−r2t\ =\frac{r\sqrt{n - 2}}{\sqrt{1 - r^{2}}}t =1−r2rn−2,其中rrr为计算得到的Pearson相关系数,nnn为样本数量。
- 确定临界值:根据给定的显著性水平α\alphaα(常用0.050.050.05)和自由度df =n−2df \ = n - 2df =n−2,查阅ttt分布表得到临界值tα/2(n−2)t_{\alpha/2}(n - 2)tα/2(n−2)。
- 做出决策
- 如果∣t∣>tα/2(n−2)\vert t\vert>t_{\alpha/2}(n - 2)∣t∣>tα/2(n−2),则拒绝原假设H0H_0H0,认为总体中两个变量之间存在线性相关关系。
- 如果∣t∣≤tα/2(n−2)\vert t\vert\leq t_{\alpha/2}(n - 2)∣t∣≤tα/2(n−2),则不能拒绝原假设H0H_0H0,即没有足够证据表明总体中两个变量之间存在线性相关关系。
三、实例演示
研究每周运动时间XXX(小时)和体重减少量YYY(千克)的关系,选取666名参与者的数据:
| 参与者 | XXX | YYY |
|---|---|---|
| 1 | 3 | 1 |
| 2 | 5 | 2 |
| 3 | 4 | 1.5 |
| 4 | 6 | 2.5 |
| 5 | 2 | 0.5 |
| 6 | 7 | 3 |
计算Pearson相关系数
- 均值:μX =3+5+4+6+2+76 =4.5\mu_X\ =\frac{3 + 5 + 4 + 6 + 2 + 7}{6}\ =4.5μX =63+5+4+6+2+7 =4.5,μY =1+2+1.5+2.5+0.5+36 =1.75\mu_Y\ =\frac{1 + 2 + 1.5 + 2.5 + 0.5 + 3}{6}\ =1.75μY =61+2+1.5+2.5+0.5+3 =1.75。
- 协方差:cov(X,Y) =(3−4.5)×(1−1.75)+(5−4.5)×(2−1.75)+(4−4.5)×(1.5−1.75)+(6−4.5)×(2.5−1.75)+(2−4.5)×(0.5−1.75)+(7−4.5)×(3−1.75)6≈1.375\text{cov}(X,Y)\ =\frac{(3 - 4.5)\times(1 - 1.75)+(5 - 4.5)\times(2 - 1.75)+(4 - 4.5)\times(1.5 - 1.75)+(6 - 4.5)\times(2.5 - 1.75)+(2 - 4.5)\times(0.5 - 1.75)+(7 - 4.5)\times(3 - 1.75)}{6}\approx1.375cov(X,Y) =6(3−4.5)×(1−1.75)+(5−4.5)×(2−1.75)+(4−4.5)×(1.5−1.75)+(6−4.5)×(2.5−1.75)+(2−4.5)×(0.5−1.75)+(7−4.5)×(3−1.75)≈1.375。
- 标准差:σX =(3−4.5)2+(5−4.5)2+(4−4.5)2+(6−4.5)2+(2−4.5)2+(7−4.5)26≈1.87\sigma_X\ =\sqrt{\frac{(3 - 4.5)^2+(5 - 4.5)^2+(4 - 4.5)^2+(6 - 4.5)^2+(2 - 4.5)^2+(7 - 4.5)^2}{6}}\approx1.87σX =6(3−4.5)2+(5−4.5)2+(4−4.5)2+(6−4.5)2+(2−4.5)2+(7−4.5)2≈1.87,σY =(1−1.75)2+(2−1.75)2+(1.5−1.75)2+(2.5−1.75)2+(0.5−1.75)2+(3−1.75)26≈0.94\sigma_Y\ =\sqrt{\frac{(1 - 1.75)^2+(2 - 1.75)^2+(1.5 - 1.75)^2+(2.5 - 1.75)^2+(0.5 - 1.75)^2+(3 - 1.75)^2}{6}}\approx0.94σY =6(1−1.75)2+(2−1.75)2+(1.5−1.75)2+(2.5−1.75)2+(0.5−1.75)2+(3−1.75)2≈0.94。
- 相关系数:r =1.3751.87×0.94≈0.78r\ =\frac{1.375}{1.87\times0.94}\approx0.78r =1.87×0.941.375≈0.78。
进行t检验
- 计算ttt统计量:t =0.786−21−0.782≈2.84t\ =\frac{0.78\sqrt{6 - 2}}{\sqrt{1 - 0.78^{2}}}\approx2.84t =1−0.7820.786−2≈2.84。
- 设显著性水平α =0.05\alpha \ = 0.05α =0.05,自由度df =6−2 =4df \ = 6 - 2 \ = 4df =6−2 =4,查ttt分布表得t0.025(4) =2.776t_{0.025}(4)\ =2.776t0.025(4) =2.776。
- 因为∣2.84∣>2.776\vert 2.84\vert>2.776∣2.84∣>2.776,拒绝原假设H0H_0H0,认为总体中每周运动时间和体重减少量之间存在线性相关关系。
四、注意事项
- 数据要求:Pearson相关系数理想情况是变量服从正态分布,样本量足够大时对非正态有一定稳健性。同时,t检验的有效性也依赖于数据的正态性假设。
- 关系性质:Pearson相关系数仅衡量线性相关,若变量间存在非线性关系,可能得出错误结论。
- 因果关系:相关不代表因果,两个变量相关可能是受其他未考虑因素的影响。
更多推荐




所有评论(0)