本文最后更新于:2024年5月7日 下午

置信度和置信区间是统计学概念,本文介绍相关内容。

点估计

我们经常需要获取某个分布的参数,当样本空间特别大或者不方便统计所有样本时,常常会用部分样本来估计系统参数,这个方法称作点估计。常用的点估计方法:

  • 用样本均值估计总体均值

  • 用样本方差估计总体方差

  • 用样本的分位数估计总体分位数

  • 用样本的中位数估计总体中位数

置信度和置信区间

当我们通过在分布上采集样本来估计分布的模型参数时,由于误差的存在,必定无法获取到分布真正的参数值,但是可以给出一定范围和置信程度。

对于需要估计的量,我们可以估算出一个区间,但是估算的准不准呢?准确度又有多大呢?我们把这个估算的区间的准确度(可信度)称为置信度。比如说我有 95% 的把握估计我高考分数是 600-650,这里的置信区间就是 [600,650],置信度就是 95%。

计算置信区间的置信度

  • 首先我们需要明确需要求解的问题,获取对该变量的观测样本
  • 根据中心极限定理,当数据量足够大时,来自独立同分布的样本的和近似服从高斯分布,在大多数情况我们可以假设误差服从均值为 0 的正态分布
  • 此时我们假设样本服从正态分布,那么求得样本的均值作为分布均值的估计,样本方差乘以 $\frac{n}{n-1}$作为分布方差的无偏估计
  • 那么我们获取了分布模型、参数,那么以均值为中心,可以向两边划定置信区间
  • 将置信区间的正态分布 pdf 积分起来,得到的就是真值落在这个范围内的概率
  • 常用的置信区间就是以 $\sigma$ 记录的
    • 距离均值 $μ$ 左右 1 $\sigma$ 置信区间,数值分布在$(μ-σ,μ+σ)$中的概率为 0.6826
    • 距离均值 $μ$ 左右 2 $\sigma$ 置信区间,数值分布在$(μ-2σ,μ+2σ)$中的概率为 0.9545
    • 距离均值 $μ$ 左右 3 $\sigma$ 置信区间,数值分布在$(μ-3σ,μ+3σ)$中的概率为 0.9973
  • 即真值有 99.73% 的概率集中在 $(μ-3σ,μ+3σ)$ 这也称作 三西格玛准则

参考资料



文章链接:
https://www.zywvvd.com/notes/study/probability/confidence-level/confidence-level/


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

置信度和置信区间
https://www.zywvvd.com/notes/study/probability/confidence-level/confidence-level/
作者
Yiwei Zhang
发布于
2023年2月19日
许可协议