统计学基础 - Hello Economics

统计学基础

11.1 统计学概述

定义

统计学是研究数据收集、分析、解释和呈现的科学。它帮助我们从样本数据中得出关于总体的结论。

统计学的主要分支

描述统计：对数据进行汇总和描述，包括计算均值、方差等。
推断统计：从样本数据中推断总体特性，包括假设检验、估计等。
回归分析：研究变量之间的关系，包括线性回归和非线性回归。

11.2 描述统计

数据类型

定性数据：描述类别或类型，例如性别、颜色。
定量数据：描述数量或测量值，例如身高、体重。

集中趋势测量

均值（Mean）：数据的平均值。计算公式为： [ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i ]
中位数（Median）：将数据按升序排列后中间的值。如果数据量为偶数，中位数是中间两个值的平均数。
众数（Mode）：数据中出现次数最多的值。

离散程度测量

方差（Variance）：数据与均值之间差异的平方的平均数。计算公式为： [ \text{Var}(X) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 ]
标准差（Standard Deviation）：方差的平方根，表示数据的离散程度。计算公式为： [ \text{SD}(X) = \sqrt{\text{Var}(X)} ]
极差（Range）：数据的最大值与最小值之差。计算公式为： [ \text{Range} = \max(X) - \min(X) ]

分布图

直方图（Histogram）：展示数据分布的图表，将数据分成区间并绘制每个区间的频数。
箱线图（Box Plot）：展示数据的四分位数及异常值，包括中位数、上四分位数（Q3）、下四分位数（Q1）和极值。

11.3 推断统计

估计

点估计（Point Estimation）：用样本统计量来估计总体参数。例如，用样本均值来估计总体均值。
区间估计（Interval Estimation）：给出一个区间，该区间有一定的置信水平包含总体参数。常见的是置信区间（Confidence Interval）。

假设检验

原假设（Null Hypothesis, ( H_0 )）：假设样本数据与假设模型一致。
备择假设（Alternative Hypothesis, ( H_1 )）：假设样本数据与假设模型不一致。
p值（p-value）：在原假设为真的情况下，得到观测数据或更极端数据的概率。若 p值小于显著性水平（通常为 0.05），则拒绝原假设。
类型I错误与类型II错误：
- 类型I错误：错误地拒绝了原假设。
- 类型II错误：错误地接受了原假设。

常见检验

t检验（t-test）：用于比较两个样本均值是否有显著差异。包括单样本 t 检验、独立样本 t 检验和配对样本 t 检验。
卡方检验（Chi-Square Test）：用于检验分类数据的分布是否与预期分布一致。
方差分析（ANOVA）：用于比较三个或更多组样本均值是否有显著差异。

11.4 回归分析

简单线性回归

模型：描述一个因变量 ( Y ) 与一个自变量 ( X ) 之间的线性关系： [ Y = \beta_0 + \beta_1 X + \epsilon ] 其中，( \beta_0 ) 是截距，( \beta_1 ) 是斜率，( \epsilon ) 是误差项。
最小二乘法（Least Squares Method）：用于估计回归系数 ( \beta_0 ) 和 ( \beta_1 )，通过最小化观测值与预测值之间的平方差来进行。

多元线性回归

模型：扩展到多个自变量的情况： [ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon ] 其中，( X_1, X_2, \ldots, X_p ) 是多个自变量。

回归分析的应用

预测：使用回归模型对未来数据进行预测。
变量选择：确定哪些自变量对因变量有显著影响。

11.5 统计分析的应用

数据探索

通过统计分析探讨数据的特征、趋势和模式。

实验设计

设计实验以收集数据并进行有效分析，包括随机化、对照组设置等。

质量控制

使用统计方法监控和改进生产过程，确保产品质量。

市场分析

分析市场数据，以支持决策，例如消费者行为分析、市场趋势预测等。

统计学是理解数据和从数据中得出结论的工具。掌握统计学基础知识可以帮助进行数据分析、科学研究和决策制定。