随机变量 - 统计学核心方法及其应用
随机变量概述
统计学的本质是从具有不可预测性的数据中提取信息,随机变量则是为这种可变性建立模型的数学工具. 在每一次观测中,随机变量随机取不同的值. 我们无法提前预测随机变量的精确取值,但是可以对可能的取值做出概率性的刻画. 也就是说,我们可以描述随机变量的取值的分布. 本章简要回顾应用随机变量时所涉及的专业知识,以及一些常用的结果.
累积分布函数
随机变量(r.v.) 的累积分布函数(c.d.f.)是满足下式的函数
:
即, 给出了
的取值小于或等于
的概率. 显然,
, 并且
是单调函数. 该定义的一个有用的结论是,如果
是连续函数,那么
在 [0, 1] 上呈均匀分布:它取 0 和 1 之间任意值的概率是相等的. 这是因为
(如果 是连续函数),那么后者是 [0, 1] 上的均匀随机变量的累积分布函数.
定义累积分布函数的反函数为 . 当
为连续函数时,
正是
在一般意义下的反函数.
通常叫作
的分位函数. 如果
在 [0, 1] 上呈均匀分布,那么
的分布就是
的累积分布函数
. 对于可计算的
,在给定均匀随机偏差的产生方式的前提下,上述定义给出了任意分布下的随机变量的生成方法.
令 为 0 和 1 之间的一个数.
的
分位数是一个数值,
小于或等于该值的概率是
,即
. 分位数有广泛的应用,其中一个应用是验证
是否是累积分布函数为
的随机变量的观测值. 将
按顺序排列,把它们作为“观测分位数”. 这些点和理论上的分位点
共同绘制的图叫作分位数—分位数图. 如果观测值来自于累积分布函数为
的分布, 那么得到的 QQ 图应该接近直线.
概率函数与概率密度函数
在很多统计学方法中,描述随机变量取某个特定值的概率的函数比累积分布函数更有用. 为了探讨这类函数,首先需要区分取离散值(例如非负整数)的随机变量和取值为实数轴上的区间的随机变量.
对于离散型随机变量 ,概率函数(又叫概率质量函数)
是满足下式的函数:
显然,0,并且因为
的取值一定存在,所以对
的所有可能取值(记为
)求和可得
.
对于连续型随机变量 ,因为它所有可能的取值有无限个,所以取任意特定值的概率一般是 0,因此,概率函数对连续型随机变量不适用. 取而代之的是概率密度函数
,它给出了
在
附近的单位区间内取值的概率,即
. 更加正式的定义是,对任意常数
,
显然, 必须满足
且
. 注意,
,因此如果
存在,那么
. 附录 A 给出了一些常用的标准分布的概率函数或概率密度函数.
除特别注明外,后续几节主要考虑连续型随机变量,用适当的求和代替积分, 可以得到等价的对离散型随机变量适用的结果. 为了简洁起见,约定当自变量不同时,概率密度函数不同(例如, 和
表示不同的概率密度函数)
随机向量
从单次观测中很难得到有用的信息. 有效的统计分析需要多重观测和同时处理多元随机变量的能力. 因此,我们需要概率密度函数的多元形式. 二维的情形能够充分阐释所需的概念,因此考虑随机变量 和
.
设 是
平面上的任意区域,
和
的联合概率密度函数
是满足下式的函数:
因此, 在
的取值是
平面上单位面积的概率. 设
是包含点
的面积为
的小区域,那么
. 同单变量的概率密度函数一样,
是非负的,并且在
上的积分值为 1.
例图 1-1 给出了下式中的联合概率密度函数的图像.
该概率密度函数下的两个概率值的估计如图 1-2 所示.
边缘分布
继续沿用 和
的例子,忽略其中一个变量,
或
的概率密度函数可以通过
来计算. 在给定
的条件下,
的概率密度就是
的边缘概率密度函数. 由概率密度函数的定义显然可以得到
的定义同理.
条件分布
假设已知 取定值
,那么关于
的分布,我们有什么结论?因为
和
的联合概率密度函数是
,所以在给定
的条件下,我们预计 x 的密度与
成正比,即
其中 是常数. 如果
是一个概率密度函数,那么它一定能够取到积分值 1. 因此
其中 表示
取
时的边缘密度. 因此我们有:
定义如果 和
的联合概率密度函数是
,那么在
的条件下,
的条件密度是
(1.3)
假设 .
注意,当 取定值
时,这是随机变量
的概率密度函数. 在意义明确的前提下,为了简洁起见, 可以用
代替
. 显然,在给定
时,
的条件分布有类似的定义:
. 联合概率密度函数和条件概率密度函数之间的关系如图 1-3 所示.
在统计学中,常常利用 将联合概率密度替换为条件概率密度,但当维数超过 2 时,结论不能直接推广. 以下是 3 个较为常用的例子.

时间:2019-01-04 00:24 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]机器学习基础图表:概念、原理、历史、趋势和算法
- [机器学习]分析了 600 多种烘焙配方,机器学习开发出新品
- [机器学习]2021年的机器学习生命周期
- [机器学习]物联网和机器学习促进企业业务发展的5种方式
- [机器学习]机器学习中分类任务的常用评估指标和Python代码实现
- [机器学习]机器学习和深度学习的区别是什么?
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]年终总结:2021年五大人工智能(AI)和机器学习(ML)发展趋势
相关推荐:
网友评论: