统计距离
在统计学、概率论和信息论中,统计距离量化了两个统计对象之间的距离。统计对象可以是两个随机变量,两个概率分布或样本,或者一个独立样本点和一个点群之间的距离,或者更加广泛的样本点。
统计距离很多情况下不是由度量诱导的,它们不一定是对称的。一些统计距离也被称为统计区别度(statistical divergence)。
专用术语
各种统计距离常常有许多名称。有时名称的相似性容易引起误解,有时不同作者或不同时期一些术语的意义也不尽相同。常见的有统计偏差(deviation),区分度(discriminant),区别度(divergence),对比函数(contrast function),度量等。信息论中也称为交叉熵(cross entropy),相对熵(relative entropy),discrimination information, information gain等。
度量距离
给定一个集合 X,,其上的度量距离是一个非负实值函数 d : X × X → R 对任意的 X中的 x, y, z,这个函数满足如下条件:
- d(x, y) ≥ 0 (非负性)
- d(x, y) = 0 if and only if x = y
- d(x, y) = d(y, x) (对称性)
- d(x, z) ≤ d(x, y) + d(y, z) (次可加性 / 三角不等式).
广义距离
许多统计距离不满足度量距离的要求。不满足正定性的常常被称为伪度量,不满足对称性的通常被称为准度量,不满足三角不等式被称为半度量。 只满足上述(1)和(2)条件的统计距离被称为区别度(divergence)。
例子
f-区别度:KL区别度(相对熵), Hellinger区别度,全变差距离;
仁义熵;
延森-香浓区别度。