相互資訊
在概率論和資訊論中,兩個隨機變數的相互資訊(mutual Information,MI)度量了兩個變數之間相互依賴的程度。具體來說,對於兩個隨機變數,MI是一個隨機變數由於已知另一個隨機變數而減少的「資訊量」(單位通常為位元)。相互資訊的概念與隨機變數的熵緊密相關,熵是資訊論中的基本概念,它量化的是隨機變數中所包含的「資訊量」。
MI不僅僅是度量實值隨機變數和線性相關性(如相關係數),它更為通用。MI決定了隨機變數的聯合分佈與和的邊緣分佈的乘積之間的差異。MI是點相互資訊(Pointwise Mutual Information,PMI)的期望。克勞德·香農在他的論文A Mathematical Theory of Communication中定義並分析了這個度量,但是當時他並沒有將其稱為「相互資訊」。這個詞後來由羅伯特·法諾[1]創造。相互資訊也稱為資訊增益。
相互資訊的定義
設隨機變數是空間中的一對隨機變數。若他們的聯合分佈是,邊緣分佈分別是和,那麼,它們之間的相互資訊可以定義為:
其中,為KL散度(Kullback–Leibler divergence)。注意,根據KL散度的性質,若聯合分佈等於邊緣分佈和的乘積,則,即當和相互獨立的時候,觀測到Y對於我們預測X沒有任何幫助,此時他們的相互資訊為0。
離散變數的相互資訊
離散隨機變數 X 和 Y 的相互資訊可以計算為:
其中 p(x, y) 是 X 和 Y 的聯合概率質素函數,而 和 分別是 X 和 Y 的邊緣概率質素函數。
連續變數的相互資訊
其中 p(x, y) 當前是 X 和 Y 的聯合概率密度函數,而 和 分別是 X 和 Y 的邊緣概率密度函數。
如果對數以 2 為基底,相互資訊的單位是bit。
直觀上,相互資訊度量 X 和 Y 共用的資訊:它度量知道這兩個變數其中一個,對另一個不確定度減少的程度。例如,如果 X 和 Y 相互獨立,則知道 X 不對 Y 提供任何資訊,反之亦然,所以它們的相互資訊為零。在另一個極端,如果 X 是 Y 的一個確定性函數,且 Y 也是 X 的一個確定性函數,那麼傳遞的所有資訊被 X 和 Y 共用:知道 X 決定 Y 的值,反之亦然。因此,在此情形相互資訊與 Y(或 X)單獨包含的不確定度相同,稱作 Y(或 X)的熵。而且,這個相互資訊與 X 的熵和 Y 的熵相同。(這種情形的一個非常特殊的情況是當 X 和 Y 為相同隨機變數時。)
相互資訊是 X 和 Y 的聯合分佈相對於假定 X 和 Y 獨立情況下的聯合分佈之間的內在依賴性。 於是相互資訊以下面方式度量依賴性:I(X; Y) = 0 若且唯若 X 和 Y 為獨立隨機變數。從一個方向很容易看出:當 X 和 Y 獨立時,p(x,y) = p(x) p(y),因此:
此外,相互資訊是非負的(即 ; 見下文),而且是對稱的(即 )。
與其他量的關係
相互資訊又可以等價地表示成
其中 和 是邊緣熵,H(X|Y) 和 H(Y|X) 是條件熵,而 H(X,Y) 是 X 和 Y 的聯合熵。注意到這組關係和併集、差集和交集的關係類似,於是用Venn圖表示。
在相互資訊定義的基礎上使用琴生不等式,我們可以證明 I(X;Y) 是非負的,因此 。這裏我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細推導:
上面其他性質的證明類似。
直觀地說,如果把熵 H(Y) 看作一個隨機變數於不確定度的量度,那麼 H(Y|X) 就是"在已知 X 事件後Y事件會發生"的不確定度。於是第一個等式的右邊就可以讀作「將"Y事件的不確定度",減去 --- "在基於X事件後Y事件因此發生的不確定度"」。
這證實了相互資訊的直觀意義為: "因X而有Y事件"的熵( 基於已知隨機變數的不確定性) 在"Y事件"的熵之中具有多少影響地位( "Y事件所具有的不確定性" 其中包含了多少 "Y|X事件所具有的不確性" ),意即"Y具有的不確定性"有多少程度是起因於X事件;
舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性。
所以具體的解釋就是: 相互資訊越小,兩個來自不同事件空間的隨機變數彼此之間的關聯性越低; 相互資訊越高,關聯性則越高 。
注意到離散情形 H(X|X) = 0,於是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我們可以制定」一個變數至少包含其他任何變數可以提供的與它有關的資訊「的基本原理。
相互資訊也可以表示為兩個隨機變數的邊緣分佈 X 和 Y 的乘積 p(x) × p(y) 相對於隨機變數的聯合熵 p(x,y) 的相對熵:
此外,令 p(x|y) = p(x, y) / p(y)。則
注意到,這裏相對熵涉及到僅對隨機變數 X 積分,表達式 現在以 Y 為變數。於是相互資訊也可以理解為相對熵 X 的單變數分佈 p(x) 相對於給定 Y 時 X 的條件分佈 p(x|y) :分佈 p(x|y) 和 p(x) 之間的平均差異越大,資訊增益越大。
連續相互資訊的量化
對連續型隨機變數量化的定義如下:
量化後的隨機變數:
。
則,
廣義而言,我們可以將相互資訊定義在有限多個連續隨機變數值域的劃分。
令為連續型隨機變數的值域,, 其中為劃分所構成的集合,意即。
以量化連續型隨機變數後,所得結果為離散型隨機變數,
。
對於兩連續型隨機變數X、Y,其劃分分別為P、Q,則其相互資訊可表示為:
。
參見
註釋
- ^ Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418.
參考文獻
- Cilibrasi, Rudi; Paul M.B. Vitan´ yi. Clustering by compression (PDF). IEEE Transactions on Information Theory. 2005, 51 (4): 1523–1545. doi:10.1109/TIT.2005.844059.
- Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in Henry Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
- Church, Kenneth Ward; Hanks, Patrick. Word association norms, mutual information, and lexicography (PDF). Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989.[永久失效連結]
- Guiasu, Silviu. Information Theory with Applications. McGraw-Hill, New York. 1977. ISBN 978-0070251090.
- Li, Ming; Paul M.B. Vitan´ yi. An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. February 1997. ISBN 0-387-94868-6.
- Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1–10.
- David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online)
- Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
- Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
- Witten, Ian H. & Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam. 2005 [2015-04-02]. ISBN 978-0-12-374856-0. (原始內容存檔於2020-11-27).
- Peng, H.C., Long, F., and Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (8): 1226–1238 [2015-04-02]. doi:10.1109/tpami.2005.159. (原始內容存檔於2009-05-22).
- Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008, 77 (1). arXiv:0707.3642 .
- Wells, W.M. III; Viola; P.; Atsumi; H.; Nakajima; S.; Kikinis; R. Multi-modal volume registration by maximization of mutual information (PDF). Medical Image Analysis. 1996, 1 (1): 35–51 [2015-04-02]. PMID 9873920. doi:10.1016/S1361-8415(01)80004-9. (原始內容 (PDF)存檔於2008-09-06).