相关系数分析(相关系数很小但是p值显著)

相关系数分析(相关系数很小但是p值显著)

相关系数分析(相关系数小,但P值显著)

第一次接触皮尔逊相关系数是在概率论与数理统计的课本上。后来从事数据分析挖掘工作,经常用来评估两组数据之间的相关性,于是找到了皮尔逊相关系数。其实还有一个相关系数,斯皮尔曼相关系数和肯德尔相关系数。

在这三个相关系数中,spearman和kendall属于秩相关系数,又称“秩相关系数”,是反映秩相关程度的统计分析指标。今天就不介绍了。

今天,我们来谈谈常用的皮尔逊相关系数。

利用数学公式,皮尔逊相关系数等于两个变量的协方差除以两个变量的标准差。我们先来看看公式:

Pearson是一个介于-1和1之间的值,用来描述两组线性数据一起变化和移动的趋势。

当两个变量的线性关系增强时,相关系数趋于1或-1;

当一个变量增加时,另一个变量也增加,说明它们正相关,相关系数大于0;

如果一个变量增加,另一个变量减少,说明两者负相关,相关系数小于0;

如果相关系数等于0,则它们之间不存在线性相关。

皮尔逊相关系数在python中的实现:

1.numpy库中的实现:

相关系数的对角矩阵

2.它是在scipy中实现的,主要是在stats包中。

结果是一个元组,第一个元素是相关系数,第二个是p值。p值越小,相关程度越显著。

3.用在熊猫身上,用于日常数据处理。当然,这是不可或缺的。

获得的也是相关系数数据。

皮尔逊相关系数的适用范围:

当两个变量的标准差不为零时,定义相关系数。皮尔逊相关系数适用于:

1.两个变量之间是线性关系,都是连续数据。

2.这两个变量的总和是正态分布,或接近正态的单峰分布。

3.两个变量的观测值是成对的,每对观测值是相互独立的。

以上就是由优质生活领域创作者 嘉文社百科网小编 整理编辑的,如果觉得有帮助欢迎收藏转发~