第二章 Shannon信息论述评

上传人:m**** 文档编号:170537416 上传时间:2022-11-21 格式:DOCX 页数:17 大小:148.42KB
收藏 版权申诉 举报 下载
第二章 Shannon信息论述评_第1页
第1页 / 共17页
第二章 Shannon信息论述评_第2页
第2页 / 共17页
第二章 Shannon信息论述评_第3页
第3页 / 共17页
资源描述:

《第二章 Shannon信息论述评》由会员分享,可在线阅读,更多相关《第二章 Shannon信息论述评(17页珍藏版)》请在装配图网上搜索。

1、第二章 Shannon 信息论述评Shannon 信息论建立在随机事件统计理论的基础上 1 。为此,我们先简述基于频率论解释的概率理论, 下一章再阐述更广意义的概率理论 2。这里 Shannon 信息 论只是取其要义,我们尽可能使用浅显易懂的方式叙述,以照顾不熟悉 Shannon 理 论的读者。本章还含有对经典信息理论的评论,熟悉 Shannon 理论的读者也不妨选 看。2.1 基于频率解释的概率论 概率论诞生于赌博问题,这里我们也且用掷骰子为例来说明什么是概率。 一个骰子可能呈现的数字是 1,2,3,4,5,6 中的一个。一般情况下,每个数字出现的几率大致相等;比如你掷 N = 600下,1

2、出现的次数 N大约为100下。设为110 下,则 110/600 叫做 1 出现的几率(或数学几率)。当掷的次数无穷多时,这个几 率就无穷地接近 1/6, 1/6 就是 1 出现的概率,即P (X = 1) = 1/6其中X表示随机变量,对于本例它的取值范围是集合 A =123,4,5,6,即Xe A。 设一般情况下,A = Xj, x2,.,xm,按频率论解释,概率 P (X=x/被定义为:实验次 数N为无穷大时,X = X.的次数N.和N之比的极限;即iiP(X=x=tmNi/N(2.1.1) 按照现代概率论,只要某种测度符合概率的公理化定义,它就构成概率测度。这 一公理化定义是:设Q是一

3、集合,它的一些子集构成Borel域0,存在一个映射P: 00,1 ,它满足条件(1) p g)=1;(2) 对于任一 A.e0,有 0 WP(A.)W 1;(3) 若 A. 和 Aj 互不相交,.j则称 P 为0 上的概率测度。其中 (3)被称为概率的可加性要求。 按照这一定义, 除了基于频率论解释的概率, 还存在其他类型的概率 (见第三章 )。下面我们简单地用P(xi)表示P(X= X.)。对于掷骰子,因为下式P =P (2) = . = P (6) = 1/6成立,所以我们称 X 是等概率事件。如果骰子中放了铅,重心不在骰子中心,则上 式将不再成立,各数字将不再是等概率事件。但是无论如何,

4、总有(2.1.2)上式又叫归一化条件。再设yu b = 歹厂y?yn。我们称P (X. y.) = P (X = x. Y = y.)i j i j为 x. 和 y. 的联合概率。根据定义有.刊对=三只工)(2.1.3)flOj)=孚玖齐七)(2.1.2) 我们定义 P(x.I 儿戸P(X. y.)/ P(yj).j(2.1.3) 是给定条件 y. 时 x . |的条件概率 ; 同理 条件概率.P(y.I x.) = P(x., y.)/ P(x.).i(2.1.4) 由(2.1.5) 和(2.1.6) 得P(x.I y戸P(x.)P(y.lx.)/ P(yj).j(2.1.5) 这就是著名的

5、 Bayes 公式。若P(y. Ix.) = P(y.),则意味着Y = y.和X = x.无关,这时P(x., y尸P(x.) P(y.). . . .以上各种概率都是归一化的。当 AB 为连续事件,比如为 0 1 (实数区间)时,P(x.)和P(y.)就变为p(x)和p(y)(大写P变为小写p) , p(x)和p(y)不再表示概率, .而是表示概率密度。 p(x,y) 等同理。这时有pO) = pOI QpO%(2.1.8)其他类推。2.2 经典通信模型Shannon 信息论中的通信模型如图 2.2.1 所示。如果把编译图221 Shannon通信模型码部分并入信道,则该模型如图 2.2.

6、2 所示。我们且讨论信源离散时的情况。这时图 2.2.2 可以具体地变为图 2.2.3 。图2.2.3中从x.到y.的箭头表示X = x.时Y = y.发生的条件概率是P(y.丨x.)。我们i jijj i用P(Y I X)表示m行n列的条件概率矩阵,因为它是物理信道的抽象,信息论中也称 之为信道。图 222 简化的 Shannon 通信模型图 2.2.3 有噪声通信模型2. 3经典信息量公式和Kullback信息公式为了便于讨论,我们从单个事件之间的信息量公式出发,然后推导出 Shannon 互 信息公式和 Shannon 熵公式。经典理论中,信息量是对减少的不确定性的度量。它的数学表示通常

7、被写为畔丹)=吗(2. 3 .1)其中I(x., y.)是y.提供的关于x.的信息量;P(x.)是x.的先验i j j i i i概率,P(xi I y.)是x.的后验概率(给定y.时)。log表示对数,可以是自然对数(以 e 为底),这时信息量单位是 nat; 也可以是以 2 为底,这时信息量的单位是 bit 或 比特。信息论中一般用 bit 。注意:上式所求信息是一系列 X和Y发生后,回过头来看y.提供关于x.的信息, .而不是某一次y.提供的关于x.的信息。因为如果某次x.不相应y.出现时,就不会有 . . . .这样的信息。这就是为什么 Shannon 奠基性论文中没有该公式而且也不谈

8、单个信号的信息。后面我们将看到,仅当我们考虑预测和检验,并且xi 确实相应预测 yj 发生ij时,上式才能用于单个信号比如语句“明天有雨”或电压表读数“ 230 伏” 的信息的度量。而经典信息论不考虑预测信息。上式也可以写成心丹)*嵩七諾环(2.3.2)等式右边两项分别表示先验不确定性和后验不确定性。若后验不确定性为0,则公式变为)=如6尺耳)(2.3.3)据 Bayes 公式可得(2.3.4 )这表明两个事件相互提供的信息量必然相等。若两事件相互无关,则P(xi I y/二P(xi)且 P(y. I xi) = P(y.), I(xi; yj) = 0。这显然合理。值得注意的是,I (x.;

9、 y.)也可能是负的。下面举个例子看经典信息量的计算。 ij例2.3.1假设A,B是互不相容事件集合;X e A =x1 ,从而有码 tn=-曲血 o当信源和信宿皆连续时,互信息仍然存在,为也心鬻dxdy(2.5.3)其中p(x,y)为联合概率密度,p(y I x)是条件概率密度。Hr(Y)和H,YIX)可从H,X)类 推。对于连续信源,虽然I(X;Y)仍有意义,但是Hr(Y)和Hr(YIX)等皆无实际意义且可 能为负值。2.6 信道容量和信道编码Shannon 定义了两个重要函数:信道容量和保真度信息率1,5 。关于后者的理论后来又有所发展,并且保真度信息率被改称为信息率失真(informa

10、tion rate distortion )6。信道容量和信息率失真分别是通信的数量和质量指标。如果把通信 系统和生产系统相类比,则信道容量就相当于生产能力,而信息率失真就相当于给 定产品质量要求时,单位产品所需要的最少劳动量。首先我们介绍信道容量。给定信道P(Y I X),信源H(X)不同,互信息I(X;Y)也不同。信道容量被定义为:给定信道P(Y I X)时,改变信源P(X)使得互信息I(X;Y)达最大, 这个最大值就是信道容量。设 P C是所有可能的信源构成的集合,则信道容量 C的 数学定义是C=mI(X-Y)(2.6.1) 信道容量告诉我们不要期望用有限容量的信道传递过量的信息。 求信

11、道容量的具 体方法在经典信息论中有详细讨论 ; 下面我们只简要介绍一下连续高斯信道即 有正态分布叠加噪声的信道的容量。设X e A = B = (- g,+ g),叠加性噪声Z是均值为0,方差(或功率)为的 高斯变量,则输出为Y= X+Z,并且(2.6.2)兀右巧=码(0 +Hxp(y|iogXFl说询(2.6.3)可以证明,在输出功率 P 的限制下,H(Y)在Y为正态分布时有最大值;这时I(X;Y) wor也有最大值:(2.6.4)其中 Pwi 是输入功率。上式表示,和输入功率相比,噪声功率越小,信道容量越大。wiShannon信道编码定理告诉我们,给定信道时,只要传递的信息小于C,我们总可

12、以通过在原信源和信道之间加一个编码环节作某种编码,使得在信道输出端无失 真地译出信源信号的概率无穷地接近于1。编码的目的实际上就是使信源和信道相匹配。2.7 Shannon 熵的编码意义使用电报通信的早期,人们用长短不同的信号表示所要传递的字母A,B,C,. 。设长短信号分别用 0,1 表示,则一个字母可用一个 0-1 码,比如 001 表示。后来发现, 用较短的0-1码表示经常出现的字母,比如E,而用较长的0-1码表示较少出现的字母,比如X,这样就能在传递相同电文的情况下所用0-1码的总长度最短,或每个字母所用平均码长最短。然而,要想不失真地,即在H(X I Y) = 0的情况下,传递电报电

13、文,平均码长最多能缩短到多少呢? Shannon 理论告诉我们,这个平均码长 的极限就是H(X)(即H(X)的bit数)。本节和下一节都假设信源信号前后无关或信源是无记忆的。下面我们用一个例子来说明H (X)的编码意义。它来自文献7 。例 2.7.1 假定信源可以输出 8 个独立的消息:A,B,C,D,E,F,G,H ;它们出现的概率、各种编码以及相应的平均码长 c 如表 2.7.1 所 示。表2.7.1几种编码的平均码长cxiABCDEFGHP (i)0.1 0.180.40.050.060.10.07 0.04H(X)=2.55等长码000001011010110111101100c=3.

14、00Fano 码10001001110110110111001111 c=2.64Haffman码01100110001001010000010000011 c=2.61表中结果显示,采用适当的编码方法可使平均码长 c接近H(X)。如果把相继的几 个字母当作一个字来编码,平均码长会无限地接近 H(X)。可见Shannon熵有其客观 性。2.8 限失真编码和信息率失真论保真度信息率之所以被改称为信息率失真,主要是因为 Shannon 的“保真度”是用失真度来定义的。在广义信息论中,通信质量被认为是由主观信息量的相对多少 来确定的,不仅和失真,也和逼真(或信号的意义)有关,我们将用“保质(量 )

15、信息率”一词取而代之。我们先看限失真编码问题。设信源发出X.时,信道输出y.;则y.可能在不同程度上失真。我们用 d.u( 0,+i j j ijR)表示y.相对于x.的失真量,则Y相对于X的平均失真量为.兀5=耳耳PgyX(2.8.1)d.是怎么来的?在经典信息论中, 它是主观人为定义的。当X和y.皆是数字时,(2.8.2)常用的定义是 7d. =f( 1 y. x. 1 )i. . if 是只增不减函数。比如d. = (y. x.) 2 i. . i下面举例说明降低失真要求可以大大缩短平均码长。例 2.8.1 设有二元信源,A = B = 0,1 , P(x/ = P(x2)= 1/2,

16、fO,i = j厂&A我们把信源信号四个分为一组,编译码如表 2.8.1 所示。表 2.8.1 有失真编码组号信源信号编码译码10001000000111001000001210101011001011100110103011101100101111110011141100110110000100111100第一行是说 0001 和 0000 等四组码同样用 00 编码,译码同样得 0001; 其他类推。 较 之无失真编码,如此编码使平均失真量由0升到(3/16) a = 0.188 a,而平均码长则降低到 2/4 = 0.5。现在问:给定信源和限失真 D,平均码长最短能达多少?Shannon

17、 离散无记忆信源限失真编码定理告诉我们,这一极限就是保真度信息率或信息率失真。设D是所要求的平均失真上限,P D是所有使d(X,Y)WD的信道的集合,则信息 率失真被定义为(2.8.3)之所以说信息率而不说信息是因为I( X; Y)在这里表示的是单位符号传递的信息。求R(D)函数的一般方法是在一些限制条件下,利用拉氏( Largrange )乘子法, 改变P(Y I X)(反映编译码方法改变),求I(X;Y)的极小值。下面即是。已知(2.8.4)(2.8.5)(2.8.6)其中5 =孕咖他|功令P(yjI x.)的泛函歹-血-角迟n珀(2.8.7)再令F对所有P(yx.)的偏导数为0,得尺丹I

18、忑)=只丹凤)(2.8.8)由上式和 (2.8.6) 得(2.8.9)最后得 R ( D ) 函数的参量表示 :2.8.10 a )可以证明dR/dD = s。s(2.8.10 b)是函数R(D)的斜率,它的物理意义是增加单位失真量时信息率 R 的增量。因为 R 随 D 减小而增大,所以 s 为负值。对于连续信源有类似结论。现以二元信源为例说明失真函数d对称情况下R(D)函数的计算及其性质;5. 6节还将讨论它在广义信息论中的形式。设二元信源和失真如例2.8.1 ,最后推导出(2.8.11 a)(2.8.11 b)R(D)函数如图2.8.1所示。图中假设 P(xl) = P(x2), H(X)

19、= lbit 。图示实线表明, 要想减小D,必须增大R;当D = 0时,R = 1 bit ,表示无失真地传递信号需要1 bit的互信息。图 2.8.1 二元信源失真对称时的 R(D )函数其中虚线部分是按式 (2.8.1) 画出来的,由于经典理论不考虑谎言信息或负信息 所以虚线部分不好理解,经典信息论中对此也避而不谈。看过本书后面保质信息率 的讨论可以理解。例2.8.3设有连续信源和信宿 A = B = (,+ 00),信源呈正态分布,失真函数为 方差,即d (x,y ) = (y x)2时,s (D)和R (D)函数为(详见】5 ):(2.8.12)图2.8. 2显示了,当D近于0时,R(

20、D)为无穷大。这说明对于连续信源,失真 不可避免。当D二”鼻时,R(D) = 0 ;这表示,若允许失真等于 y和x的方差,无须 信息传递,不管 X 取何值,输出 Y 一律等于 X 的均值即可。图2.8.2正态变量信源在均方误差准则下的R(D)函数率失真函数告诉我们在 D 的限制下,信号单位符号最少需要传递多少信息;然而它并没有告诉我们怎样对信源编码才能真地在D的限制下,使I(X;Y)近于R(D)。这是一个复杂问题。一种较为有效的方法是矢量空间法8。这种方法是,把一组 n个信源信号看作是 n 维矢量空间中的一点,把该空间化成若干块,每一块用一个点 来代表,即编成同一个码传送,并且译码译成同样的

21、n 个信号。例 2.8.2 就采用了这 种方法,不过平均码长0.5和极限值R(3/16) = 0.304还有差距;增大n可以使平均码 长更短。R(D)函数的反函数D(R)为给定信息率R时,失真d(X,Y)的最小值,也有其优化 通信意义。如果dij不是y.相应x.时产生的失真量,而是价值损失,则 D就表示价值损失限 ij j i制, R(D) 就表示限价值损失时的最小信息率 5。2.9 Shannon信息论的局限性Shannon 或经典信息论局限性具体表现在 :不便于度量语义信息、感觉信息、信源 信道可变时的信息以及单个信号的信息。作为数据压缩理论依据的率失真理论也远 不完善。究其原因,乃是因为

22、它只考虑信号传递,而不考虑信号的意义或观察者对 信号意义的理解;或者说,它只考虑客观信息,而不考虑主观信息。由于不考虑意 义问题,它也就不会考虑意义的模糊性或事件之间的相似性 ; 不考虑预测和事实检 验,从而不能度量单个语句、感觉或测量信号的信息。我们先看忽略意义或语义所导致的种种困难。如果允许我们总结经验知识并赋信号以意义,则即使信源信道可变,我们也可以 根据经验知识或信号的意义推测实际发生的X,从而获得信息(见 4.2节)。因为Shannon 理论避免考虑意义,信源信道可变时的信息就无法度量。如果按照 Shannon 理论度量语言提供的信息,则信息只和语句及事件的概率和条 件概率有关,和语

23、义或人对语言的理解无关。若某气象台总是把有雨报成无雨,把 无雨报成有雨,而另一气象台总是作正确预报,按 Shannon 公式,两者提供的信息 量是同样的。而实际上,一个人如听信了错的预报,他对事实就更加无知,因而他 得到的信息量就应该是负的。再比如,一个读数不正确的温度表,或一杆斤两不正确的秤,如按 Shannon 理论 度量信息,则它们和正常的表或秤提供的信息一样多,而实际上提供的信息更少, 甚至是负的。控制系统中的信号,比如根据雷达测量数据所做的飞机位置的预测,也是有意义 的,控制的依据就是信号的意义。由于经典理论的局限性,涉及意义的信息无法度量,因而预测评价就只能用失真量,比如用均方差作

24、为尺度。按照常识,失真时信息就少,不失真时信息就多;失真量应能通过信息量得到反映 ; 常识还告诉我们,把偶然事件预测正确和把必然事件预测正确,两者应有不同 的评价。后面我们看到用广义信息或语义信息作为评价尺度不仅可以反映失真,而 且可以给更精确、更大胆的预测以更高的评价。当然,作为客观信息测度, Shannon 信息量也有其重要意义。但是,现实生活中 我们更关心主观信息的多少。Shannon 理论要求集合 B 中皆为互不相容事件。 然而,对于语言来说, 两个语句, 比如“天将下雨”和“天将下大雨”,作为 B 中元素,从符号的角度来看是互不相 容的,但是它们的意义可能是相容的,比如后者蕴含前者,

25、后者出现等价于两者同 时出现。这种情况使得用 Shannon 理论解决语义信息问题更加不可能。对于感觉或 测量信息也有类似情况。我们再看忽略模糊性或元素之间的相似性所导致的种种困难。Shannon 理论要求两个事件 x 和 x 要么完全相同,要么完全不同。若相同的元 ij素构成一个子集,则这些子集构成集合 A 的一个划分。由于这一原因,用 Shannon 公式度量语义信息就只能象 Carnap 等人所做的那样; 度量连续信源的自信息就必须 在 A 中强行分类。而现实中,集合 A 中的事件往往是不同程度上相互类似的。关于语义信息,比如,“青年人”所指的人就构成一个模糊集合,我们无法给出 青年人和

26、非青年人的明确界线。常识告诉我们,一方面,语言的模糊性会减少信息; 另一方面,使用模糊语言是一种保守策略,可以减小失真危险。而 Shannon 理论无 法得出这些结论。再看感觉信息。比如,有一系列波长连续或相似的单色光构成信源集合 A ,显 然人眼实际获得的信息和它的分辨率有关,而分辨率又是模糊的。按 Shannon 理论 求 X 的自信息,我们得将色光强行分类 , 这样,很相似的色光可能被划入不同的类别, 而不很相似的色光反而会被划入同一类别 ,这至少在理论上是不合理的。并且,由于 分辨率模糊性造成的不确定性被忽略了,模糊性导致的信息损失也就被忽略了。关于测量信息有类似情况。统计物理学熵的度

27、量也有类似问题。正是因为不考虑事件之间的相似性,才使得连续信源的 Shannon 熵、相对熵及相 对条件熵要么无穷大,要么可能为负值,从而不具有实际意义。第二章参考文献Journal 1 Shannon C E. A mathematical theory of communication , Bell System Technical 27(1948),379-429 , 623-656 2陈克艰上帝怎样掷骰子,四川人民出版社,1987 3 Kullback S. Information and Statistics , John Wiley & Sons Inc. , New York , 19594 孟庆生.信息论,西安交通大学出版社,19865周炯磐 信息理论基础,人民邮电出版社,1983 6 Berger T. Rate distortion theory, Englewood Cliffs,N.J.:Prentice-Hall , 19717 英 罗斯,钟义信等译. 信息与通信理论,人民邮电出版社, 19788 张宏基编著.信源编码(修订本),人民邮电出版社, 1987

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!