statistics常用函数

统计函数在数据分析和科学计算中非常重要,Python 的 statistics 模块提供了一些常用的统计函数,用于计算数据集的中心趋势、散布度和相关性等。以下是一些常用的 statistics 模块函数及其解释、数学公式以及代码示例:

1. 中心趋势

平均值 (mean)

计算数据集的算术平均值。 数学公式:
$$ \text{mean} = \frac{\sum_{i=1}^{n} x_i}{n} $$
其中,$ x_i $ 是数据集中的第 $ i $ 个数据点,$ n $ 是数据点的数量。

中位数 (median)

计算数据集的中位数。

数学公式:

如果数据集长度 $ n $ 是奇数:中位数是排序后的中间值。

如果数据集长度 $ n $ 是偶数:中位数是排序后中间两个值的平均值。

众数 (mode)

计算数据集的众数(出现频率最高的值)。

2. 分布特征

调和平均数 (harmonic_mean)

计算数据集的调和平均数。 数学公式:
$$ \text{harmonic mean} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}} $$
其中,$ x_i $ 是数据集中的第 $ i $ 个数据点,$ n $ 是数据点的数量。

几何平均数 (geometric_mean)

计算数据集的几何平均数。

数学公式:
$$ \text{geometric mean} = \sqrt[n]{x_1 \cdot x_2 \cdot \ldots \cdot x_n} $$
其中,$ x_i $ 是数据集中的第 $ i $ 个数据点,$ n $ 是数据点的数量。

3. 散布度

总体方差 (pvariance)

计算数据集的总体方差。 数学公式:
$$ \text{population variance} = \frac{\sum_{i=1}^{n} (x_i – \mu)^2}{n} $$
其中,$ \mu $ 是数据集的均值,$ n $ 是数据点的数量。

样本方差 (variance)

计算数据集的样本方差。 数学公式:
$$ \text{sample variance} = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1} $$
其中,$ \bar{x} $ 是数据集的样本均值,$ n $ 是数据点的数量。

总体标准差 (pstdev)

计算数据集的总体标准差,是总体方差的平方根。 数学公式:
$$ \text{population standard deviation} = \sqrt{\text{population variance}} $$

样本标准差 (stdev)

计算数据集的样本标准差,是样本方差的平方根。 数学公式:
$$ \text{sample standard deviation} = \sqrt{\text{sample variance}} $$

4. 相关性和回归

样本协方差 (covariance)

计算两个数据集的样本协方差。 数学公式:
$$ \text{sample covariance} = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{n-1} $$
其中,$ \bar{x} $ 和 $ \bar{y} $ 分别是两个数据集的样本均值,$ n $ 是数据点的数量。

皮尔逊相关性系数 (correlation)

计算两个数据集的皮尔逊相关性系数。 数学公式:
$$ \text{Pearson correlation coefficient} = \frac{\text{sample covariance}(x, y)}{\text{stdev}(x) \times \text{stdev}(y)} $$

一元线性回归函数 (linregress)

计算两个数据集之间的线性回归模型,返回斜率、截距、相关系数等信息。

示例和打印结果

下面是一个完整的示例,演示了如何使用 statistics 模块中的函数,并打印出各项统计结果:

这些函数展示了如何使用 statistics 模块进行数据分析,包括计算中心趋势、分布特征、散布度、相关性和回归分析等。每个函数的数学公式和相应的打印结果也显示了它们的应用和计算结果。

\(\)