非独立联合概率分布和Copula理论
注:更好的阅读体验可移前往 wiki
非独立联合概率分布
在本科阶段的概率论课程中,通常会涉及到非独立联合概率分布的内容,但侧重点往往在于分析已知分布,而不是从零开始构造复杂的非独立分布。
二元正态分布
这是本科阶段最核心的非独立分布案例。课程会讲解如何通过相关系数
- 如果
和 是独立的标准正态分布,通过线性变换(如 )可以构造出具有特定相关性的联合分布。 - 你会学习到其联合概率密度函数(PDF),其中相关系数
直接决定了分布的形状和变量间的线性相关性。
边缘分布与条件分布的乘积
这是构造非独立分布最直观的方法,也是本科必考点:
通过给定一个变量的边缘分布和另一个变量相对于它的条件分布,就可以构造出联合分布。
随机变量的函数变换 (Jacobian 矩阵)
选择两个相互独立的随机变量
建立变换关系:定义两个函数
计算反函数:将
根据概率密度变换公式,构造出的
其中
实例:从独立分布构造非独立分布
假设我们有两个独立的标准正态分布变量
步骤 1:定义变换(线性组合构造相关性)
设定一个相关系数
- (这里
同时包含了 和 ,因此 和 必然相关)
步骤 2:反解变量
步骤 3:计算 Jacobian 行列式
步骤 4:写出最终的联合分布
因为
代入
整理后,这就是标准的二元正态分布密度函数。
超矩形
当
应用:
- 测度论:勒贝格测度
- 计算几何:空间索引(k-d 树, R 树)、正交范围查询、碰撞检测(AABB 理论)
C-体积
C-体积定义为概率分布函数在多维空间中对一个超矩形所定义的概率质量
一维情况: 如果
二维情况: 对于矩形
这个公式的逻辑是:取大矩形的右上角值,减去上方和左方的多余部分,由于左下角部分被减了两次,所以要加回来一次(容斥原理)。
对于
其中,顶点
- 如果
的分量个数是偶数,则符号为正 ( )。 - 如果
的分量个数是奇数,则符号为负 ( )。
Copula的定义
一个
- 边界性(Grounded): 如果任何一个参数
,则 。
- 边缘均匀性(Uniform Margins): 如果除了
以外的所有参数都为 1,则函数值等于 。
- d-递增性(d-increasing): 对于任意超矩形
(其中 ),该矩形上的 -体积是非负的。 - 这保证了它对应的概率密度函数是非负的。
与普通联合CDF的区别:
- 普通联合 CDF:描述的是具体的观测值(如:身高
和体重 )同时发生的概率。 - Copula:描述的是分位数(如:身高处于前
且体重处于前 )同时发生的概率。 Copula相当于去除量纲后的联合CDF
Sklar 定理
令
反之亦然,如果
其中
Copula 出现前后对比
目标: 构建一个双变量分布
- 边缘分布:
和 都要服从指数分布(即 )。 - 相关性:两者要有很强的正相关性(比如
)。
我们来看看在 Copula 理论普及之前和之后,数学家是如何完成这个任务的,以及推导过程有何不同。
Copula 出现之前
方法:硬凑公式
在 Sklar 定理成为主流工具之前,数学家如果想让边缘分布保持指数分布,通常采用FGM (Farlie-Gumbel-Morgenstern) 构造法。
他们的思路是:在独立分布
假设我们希望联合分布
其中
代入指数分布
验证边缘分布:
为了保证这个公式合法,必须验证当
计算相关系数
经过计算(中间过程放在附录),对于 FGM 分布,相关系数
数学悲剧发生了:
为了保证
这意味着:
结论: 在旧的数学框架下,你费尽心机凑出的这个公式,最高只能描述 0.25 的相关性。
Copula 出现之后
方法:模块化组装
现在我们有了 Sklar 定理。我们不再需要去凑一个整体公式,而是像搭积木一样。
选择组件:
- 积木 A (边缘分布):
, - 积木 B (Copula): 我们选一个能描述强相关的 Copula,比如 Clayton Copula(甚至可以描述
的情况):
根据 Sklar 定理
这就结束了!这就是我们要的解析式。
对比:概率密度函数 (PDF) 的推导
为了让你感受微积分层面的差异,我们对比一下求 概率密度函数 (PDF)
传统方法
你必须对那个复杂的、硬凑出来的整体大公式直接求偏导。如果公式本身很丑(为了满足边缘条件凑得很复杂),求导过程会是一场噩梦,而且很容易出错。
Copula 方法
利用链式法则,PDF 的公式是通用的、解耦的:
其中
这一公式的物理意义极强:
:这是假设两者独立时的概率密度。 :这是一个修正系数(权重)。- 如果某处
,说明这里发生的概率比独立时更高(正相关区域)。 - 如果某处
,说明这里发生的概率比独立时更低。
- 如果某处
常见的 Copula 家族结构
椭圆 Copula (Elliptical Copulas)
这类 Copula 来源于椭圆分布(如正态分布、t分布)。它们保留了相关系数矩阵的概念。
- Gaussian Copula (高斯 Copula):
是相关系数为 的二元标准正态分布函数。 是标准正态分布的逆函数。- 特点: 没有尾部相关性(极端情况下变量趋于独立)。
- t-Copula:源于多元 t-分布。
- 特点:具有尾部相关性(Tail Dependence)。即使相关系数为0,在极端值时也可能表现出相关,这在金融危机建模中至关重要。
阿基米德 Copula (Archimedean Copulas)
这类 Copula 不是从分布函数推导出来的,而是通过一个生成元函数 (Generator Function)
一般形式:
其中
常见的阿基米德 Copula 包括:
- Clayton Copula: 下尾相关性强(适合模拟大跌时一起跌的市场)。
- Gumbel Copula: 上尾相关性强。
- Frank Copula: 对称依赖结构。
尾部依赖
这是学习 Copula 结构时必须掌握的一个指标。它衡量的是:当一个变量出现极端值时,另一个变量也出现极端值的概率。
定义下尾依赖系数
- 对于 Gaussian Copula,
(除非 )。 - 对于 Clayton Copula,
。
这意味着如果用 Gaussian Copula 去模拟金融危机,你会严重低估风险,因为你忽略了极端的共同崩溃概率。
附录
一个经典FGM问题
这是一个经典的 Farlie-Gumbel-Morgenstern (FGM) 分布族的一个特例。
在这个问题中,边缘分布是标准的指数分布。我们可以通过以下步骤计算相关系数
1. 确定边缘分布 (Marginal Distributions)
首先,我们需要找出
令
同理,
可以看出,
对于标准指数分布:
- 期望 (Mean):
- 方差 (Variance):
- 标准差:
2. 计算联合概率密度函数
联合概率密度函数
通过对给定的
3. 计算
相关系数公式为:
由于已知
我们需要计算
将
这个积分可以拆分为两部分:
第一部分 (独立项):
第二部分 (交叉项):
由于
利用积分公式
- 对于第一项 (
): - 对于第二项 (
):
所以:
因此,第二部分的值为:
合并两部分:
4. 最终结果
计算协方差 (Covariance):
计算相关系数 (Correlation Coefficient):
结论:
注意:为了保证