统计学基础

11.1 统计学概述

定义

  • 统计学是研究数据收集、分析、解释和呈现的科学。它帮助我们从样本数据中得出关于总体的结论。

统计学的主要分支

  • 描述统计:对数据进行汇总和描述,包括计算均值、方差等。
  • 推断统计:从样本数据中推断总体特性,包括假设检验、估计等。
  • 回归分析:研究变量之间的关系,包括线性回归和非线性回归。

11.2 描述统计

数据类型

  • 定性数据:描述类别或类型,例如性别、颜色。
  • 定量数据:描述数量或测量值,例如身高、体重。

集中趋势测量

  • 均值(Mean):数据的平均值。计算公式为: [ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i ]
  • 中位数(Median):将数据按升序排列后中间的值。如果数据量为偶数,中位数是中间两个值的平均数。
  • 众数(Mode):数据中出现次数最多的值。

离散程度测量

  • 方差(Variance):数据与均值之间差异的平方的平均数。计算公式为: [ \text{Var}(X) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 ]
  • 标准差(Standard Deviation):方差的平方根,表示数据的离散程度。计算公式为: [ \text{SD}(X) = \sqrt{\text{Var}(X)} ]
  • 极差(Range):数据的最大值与最小值之差。计算公式为: [ \text{Range} = \max(X) - \min(X) ]

分布图

  • 直方图(Histogram):展示数据分布的图表,将数据分成区间并绘制每个区间的频数。
  • 箱线图(Box Plot):展示数据的四分位数及异常值,包括中位数、上四分位数(Q3)、下四分位数(Q1)和极值。

11.3 推断统计

估计

  • 点估计(Point Estimation):用样本统计量来估计总体参数。例如,用样本均值来估计总体均值。
  • 区间估计(Interval Estimation):给出一个区间,该区间有一定的置信水平包含总体参数。常见的是置信区间(Confidence Interval)。

假设检验

  • 原假设(Null Hypothesis, ( H_0 )):假设样本数据与假设模型一致。
  • 备择假设(Alternative Hypothesis, ( H_1 )):假设样本数据与假设模型不一致。
  • p值(p-value):在原假设为真的情况下,得到观测数据或更极端数据的概率。若 p值小于显著性水平(通常为 0.05),则拒绝原假设。
  • 类型I错误与类型II错误
    • 类型I错误:错误地拒绝了原假设。
    • 类型II错误:错误地接受了原假设。

常见检验

  • t检验(t-test):用于比较两个样本均值是否有显著差异。包括单样本 t 检验、独立样本 t 检验和配对样本 t 检验。
  • 卡方检验(Chi-Square Test):用于检验分类数据的分布是否与预期分布一致。
  • 方差分析(ANOVA):用于比较三个或更多组样本均值是否有显著差异。

11.4 回归分析

简单线性回归

  • 模型:描述一个因变量 ( Y ) 与一个自变量 ( X ) 之间的线性关系: [ Y = \beta_0 + \beta_1 X + \epsilon ] 其中,( \beta_0 ) 是截距,( \beta_1 ) 是斜率,( \epsilon ) 是误差项。

  • 最小二乘法(Least Squares Method):用于估计回归系数 ( \beta_0 ) 和 ( \beta_1 ),通过最小化观测值与预测值之间的平方差来进行。

多元线性回归

  • 模型:扩展到多个自变量的情况: [ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon ] 其中,( X_1, X_2, \ldots, X_p ) 是多个自变量。

回归分析的应用

  • 预测:使用回归模型对未来数据进行预测。
  • 变量选择:确定哪些自变量对因变量有显著影响。

11.5 统计分析的应用

数据探索

  • 通过统计分析探讨数据的特征、趋势和模式。

实验设计

  • 设计实验以收集数据并进行有效分析,包括随机化、对照组设置等。

质量控制

  • 使用统计方法监控和改进生产过程,确保产品质量。

市场分析

  • 分析市场数据,以支持决策,例如消费者行为分析、市场趋势预测等。

统计学是理解数据和从数据中得出结论的工具。掌握统计学基础知识可以帮助进行数据分析、科学研究和决策制定。