最大熵原理与应用课件

上传人:29 文档编号:173249226 上传时间:2022-12-09 格式:PPT 页数:138 大小:2.26MB
收藏 版权申诉 举报 下载
最大熵原理与应用课件_第1页
第1页 / 共138页
最大熵原理与应用课件_第2页
第2页 / 共138页
最大熵原理与应用课件_第3页
第3页 / 共138页
资源描述:

《最大熵原理与应用课件》由会员分享,可在线阅读,更多相关《最大熵原理与应用课件(138页珍藏版)》请在装配图网上搜索。

1、u 最大熵原理来最大熵原理来u 最大熵测量最大熵测量u 熵集中原理熵集中原理 u 最小交叉熵原理最小交叉熵原理u 最大熵原理应用最大熵原理应用 最大熵原理最大熵原理 起源于统计力学起源于统计力学 1957年,统计物理学家年,统计物理学家Jaynes根据信息根据信息熵的概念提出了一个熵的概念提出了一个利用部分信息确定随机利用部分信息确定随机变量集合概率分布变量集合概率分布的方法,称为最大熵原理的方法,称为最大熵原理。最大熵原理最大熵原理4 信息论提供了一个基于部分知识建立概率分布的构造信息论提供了一个基于部分知识建立概率分布的构造性准则,并导致被称作最大熵估计的一种统计推断方法。性准则,并导致被

2、称作最大熵估计的一种统计推断方法。这是根据给定信息得到的最小可能偏差的估计。这是根据给定信息得到的最小可能偏差的估计。如果把统计力学看成统计推断的一种形式,而不是一种如果把统计力学看成统计推断的一种形式,而不是一种物理学理论,那么就会发现通常的计算原则,从确定分物理学理论,那么就会发现通常的计算原则,从确定分割函数开始,都是最大熵原理的直接结果。割函数开始,都是最大熵原理的直接结果。最大熵原理最大熵原理5 统计力学的所有已知结果,无论是平衡统计力学的所有已知结果,无论是平衡的还是不平衡的,基本上都是最大熵原的还是不平衡的,基本上都是最大熵原理推导出的结果理推导出的结果。最大熵原理最大熵原理基本

3、思想基本思想:求满足某些约束的信源事件概率分布时,应求满足某些约束的信源事件概率分布时,应使得信源的熵最大使得信源的熵最大 可以使我们依靠有限的数据达到尽可能客观可以使我们依靠有限的数据达到尽可能客观的效果的效果 克服可能引入的偏差。克服可能引入的偏差。最大熵原理最大熵原理一般的最大熵原理应用于良好定义的一般的最大熵原理应用于良好定义的假设空间和无噪情况且不完整的数假设空间和无噪情况且不完整的数据的推断问题。据的推断问题。8最大熵原理应用于多个领域最大熵原理应用于多个领域:信号检测与处理信号检测与处理 自然语言处理自然语言处理 生物医学生物医学 环境水利环境水利 气象学气象学 经济学经济学最大

4、熵原理的描述最大熵原理的描述:在寻找满足某些约束的概率分布时,在寻找满足某些约束的概率分布时,选择满足这些约束具有最大熵的概率分布。选择满足这些约束具有最大熵的概率分布。约束所提供的信息是不完整的,称作部分信息约束所提供的信息是不完整的,称作部分信息;部分信息有若干种形式部分信息有若干种形式:随机变量矩的约束随机变量矩的约束 概率分布形状的约束概率分布形状的约束 熵 其中,约束iniippHlog1niip11(),1,niriiip gxa rm()iipPXx 满足约束达到最大熵的概率分布 其中11exp(),1,rmirirpZgxin011exp()exp()rnmriirZgx01(

5、)mrirrgxipemrrraZH1maxln 证 求有约束极值 待定常数01111log(1)(1)()nniiiiimnririrriLpppp gxa mii,1,0,0/ipL)(exp11mririxgZprmrxgriiZ1)(1)exp(0Z)exp(rr)(exp11nimrirrxgZ nimrxgrir11)(nimrxgrmkxgkniirririkxga11)(1)(1)(123()1/2,()()1/4XXXp ap ap a123()2/3,()()1/6YYYp bp bp b()()()H XYH XH Y1/31/61/61/12 1/24 1/241/12

6、 1/24 1/24 Information:1/3 of kangaroos have blue eyes,and 1/3 of kangaroos are left-handed Problem:On the basis of this information alone,estimate what proportion of kangaroos are both blue-eyed and left-handed()()()H XYH XH Y()(1/3)H XH()(1/3)H YH()()()H XYH XH Y1 1(,)1/93 3p xred yleft Solution u

7、ses a single variable,0 x 1/3 but how to choose?Common sense says x=1/9(i.e.no correlation of attributes)Is there some function of the pi which when maximised yields this preferred solution?The Kangaroo Problem:2 x 2 Truth TableNormalisation:p1+p2+p3+p4=1Constraints:p1+p2=1/3;p1+p3=1/3 例例1 做做1000次抛掷

8、骰子的试验,求抛掷点次抛掷骰子的试验,求抛掷点数的平均值。数的平均值。解解 由于抛掷次数很多,所以各点出现的频率由于抛掷次数很多,所以各点出现的频率近似等于出现的概率。假定在每次抛掷后,骰近似等于出现的概率。假定在每次抛掷后,骰子子6个面中的每一个面朝上的概率都相同,即个面中的每一个面朝上的概率都相同,即为为1/6。这里我们利用了。这里我们利用了“不充分理由原理不充分理由原理”,因为除知道骰子有,因为除知道骰子有6个面外,我们没有其他个面外,我们没有其他任何别的信息。任何别的信息。抛掷点数的平均值:抛掷点数的平均值:m=(1+2+3+4+5+6)/6=3.5。#例例1(续续)做做1000次抛掷

9、骰子的试验后得知抛掷点数次抛掷骰子的试验后得知抛掷点数的平均值为的平均值为4.5,求骰子各面朝上的概率分布。,求骰子各面朝上的概率分布。解 骰子的各面朝上的概率是不均匀的。除概率的归骰子的各面朝上的概率是不均匀的。除概率的归一性外,我们知道的信息仅有平均值,这对于确定一性外,我们知道的信息仅有平均值,这对于确定6个面的概率是不完整的信息,必须利用最大熵原理。个面的概率是不完整的信息,必须利用最大熵原理。平均值的约束写为平均值的约束写为5.465432654321pppppp计算得计算得6151413121161514131211654325.46637.2644925.161514131211

10、1iiip3475.0,2398.0,1654.0,1142.0,0788.0,0543.0(),(654321pppppp所求分布为计算所求分布为计算 一快餐店出售一快餐店出售4种套餐:、鱼、鸡种套餐:、鱼、鸡肉、面条和豆腐,单价分别为肉、面条和豆腐,单价分别为8元、元、3元、元、2元和元和1元。在某月通过调查得知,元。在某月通过调查得知,该快餐店套餐的总营业额为该快餐店套餐的总营业额为25万元,万元,共有共有10万人次来就餐。试利用最大熵万人次来就餐。试利用最大熵原理求本月原理求本月4种套餐所占的销售份额。种套餐所占的销售份额。2鱼、鸡肉、面条和豆腐四种销售份额分别记鱼、鸡肉、面条和豆腐四

11、种销售份额分别记 为:为:1234,pppp41lo giiiHpp 2约束为约束为12341pppp123483225/10pppp解得解得 83211183211118322.51.835917581183211110.1011p31283211110.2478p21383211110.2964p1483211110.3546p 信源的熵满足badxxpxph)(ln)(badxxp1)()()brrap x gx dxamr,2,1,达到最大值的概率密度 其中 最大熵为)(exp)(11mrrxgZxprdxxgxpeZmrrbar)(1mrrraZh1maxln1212111()()(

12、)(|)(|)NNNHXHY YYHYHYYHYYY为使试验次数最少,需要每次试验的熵最大为使试验次数最少,需要每次试验的熵最大一般性假币称重鉴别问题:设有n 枚硬币,其中仅有一枚假币,在已知或未知假币与真币之间重量关系两种条件下,通过用无砝码天平称重的方法鉴别假币,求所需的最少称重次数。在每次天平称重时,天平的两端应放置相同数目的硬币,会出现3种称重结果:平衡(假币未参与称重),左倾(天平左端重),右倾(天平右端重);每次天平称重所获得的最大信息量为(称重结果等概率)命题命题1:设有 n()枚硬币,其中有一假,且知其较轻或较重;那么,发现假币的最少称重次数k满足:1log/log3knk 1

13、33kkn命题命题2:设有n()枚硬币,其中有一假,且满足:这些硬币分成两组A、B;A有a枚,B有b枚,a+b=n;若假币属于A,则其较轻;若假币属于B,则其较重;那么,发现假币的最少称重次数k满足:133kkn1log/log3knk命题命题3:设有n()枚硬币,其中有一假,但不知轻重,还有另外的一枚真币;那么,称k次就能发现假币。1(31)/2(31)/2kkn命题命题4:设有 n()枚硬币,其中有一假,但不知轻重;那么,称k次就能发现假币。1(33)/2(33)/2kkn 将硬币编号:1,2,3,4,5,6,7,8,9,10,11,12。三次称重安排如下:称重 左盘 右盘 其它 1 1,

14、2,3,4 5,6,7,8 9,10,11,12 2 1,6,7,8 5,10,11,12 9,2,3,4 3 5,6,10,2 9,7,11,3 1,8,12,4 称重结果:0:平衡,1:左倾,-1:右倾,3次称重安排可表示成矩阵形式(矩阵上一行是硬币序号):其中,每行为称重安排,1:放左盘,-1:放右盘,0:不放。每一列为检测结果,检测结果对应的硬币序号为假币。如果结果与上面符合,则对应重量为重,如果结果不包含在上述表中,则1、-1互换,得到的重量为轻。例如,若称重结果为110则1号为假币,且重量较重;若称重结果为1-1 0,1与-1交换为-110,则8号为假币,且重量较轻。1234567

15、89101112111111110000100011110111011011101110 熵集中定理熵集中定理熵集中定理是最大熵原理的依据。熵集中定理是最大熵原理的依据。可以证明,具有最大熵的概率分布具可以证明,具有最大熵的概率分布具有最多的实现方法数,因此更容易被有最多的实现方法数,因此更容易被观察到,而且是满足某些条件的分布观察到,而且是满足某些条件的分布所产生的熵绝大部分在最大熵附近。所产生的熵绝大部分在最大熵附近。假设做N次随机实验,每次实验有n个结果,每种结果出现的次数为 ,设每种结果出现的概率为 ,那么当N足够大时,有 。因此,实现某种特殊的概率集合 的方法数为 熵集中定理熵集中定

16、理)!()!(!),(11nnNpNpNppWipiiNpN),1,nipiiN斯特灵公式:熵集中定理熵集中定理NeNNN)(2!HppWNiiiNlogloglim1NHAeW 方法数最多的分布最容易观测到方法数最多的分布最容易观测到 方法数与熵呈指数关系方法数与熵呈指数关系 对应最大熵的分布最容易观测到对应最大熵的分布最容易观测到 熵的另一种含义:表征某种分布实现方法熵的另一种含义:表征某种分布实现方法数的多少,熵大则表明方法数大。当试验数的多少,熵大则表明方法数大。当试验次数足够多时,熵等于方法数的对数被试次数足够多时,熵等于方法数的对数被试验总数除。验总数除。满足约束的一组概率所产生的

17、熵在如下范围:满足约束的一组概率所产生的熵在如下范围:其中其中 max1max),(HppHHHn 熵集中定理熵集中定理)1(22FHNk当当N足够大时,足够大时,渐近为维数渐近为维数为为k(=n-m-1,n为信源符号数,为信源符号数,m为约束方程个数),置信度为为约束方程个数),置信度为1-F的的 分布。通常,在很高的分布。通常,在很高的置信度的条件下,置信度的条件下,的值很小。的值很小。2HN2H 许多专家学者从不同的角度和侧面研究许多专家学者从不同的角度和侧面研究和定义信息。据说到目前为止已有上百种信和定义信息。据说到目前为止已有上百种信息的定义或说法。息的定义或说法。例如,例如,“信息

18、是事物之间的差异信息是事物之间的差异”,“信息是物质与能量在时间与空间分布的不均信息是物质与能量在时间与空间分布的不均匀性匀性”,“信息是收信着事先不知道的东西信息是收信着事先不知道的东西”等等。等等。求置信度求置信度95%和和99.99%时信源熵的范围。时信源熵的范围。根据题意,根据题意,为自由度为自由度6-1-1=4的的 分布,分布,查表,查表,(1)在置信度在置信度95%条件下条件下,得,得,信源熵的范围:信源熵的范围:1.609 H 1.614(奈特奈特)。#(2)在置信度在置信度99.99%条件下条件下,得,得,信源熵的范围:信源熵的范围:1.602 H 1.614(奈特奈特)。#2

19、,488.92HN00474.0H012.0)9999.0(124NHHN2 信息与物质、能量相同的特征信息与物质、能量相同的特征:信息可以产生、消失、携带、处理信息可以产生、消失、携带、处理和量度和量度。信息与物质、能量不同的特征信息与物质、能量不同的特征:信息可共享,可无限制地复制。信息可共享,可无限制地复制。几种重要的最大熵分布几种重要的最大熵分布1满足均值约束的分布是指数分满足均值约束的分布是指数分布。布。例例2 连续信源连续信源X的取值区间为的取值区间为0,),均值),均值E(X)=,求达到最大熵求达到最大熵的的X的分布密度和相应的最大熵。的分布密度和相应的最大熵。01()xp xe

20、/1(),0 xp xex)log(maxeh 2满足均值和均方值约束的分布满足均值和均方值约束的分布是高斯分布。是高斯分布。3满足几何平均值约束的分布是幂满足几何平均值约束的分布是幂律分布。律分布。4 5 幂律分布幂律分布 xxp)(泊松分布泊松分布 个体尺度在特征尺度附近变化很小,平均值能表征整个群体特性分布。幂律分布幂律分布。个体尺度在很宽的范围内变化,跨越多个数量级。积累概率分布“长尾”泊松分布 幂律分布19世纪的意大利经济学家世纪的意大利经济学家Pareto研究研究了个人收入的统计分布了个人收入的统计分布,发现少数人的收入发现少数人的收入要远多于大多数人的收入,要远多于大多数人的收入

21、,80/2080/20 法则法则个人收入个人收入X不小于某个特定值不小于某个特定值x的概率与的概率与x的常数次幂亦存在简单的反比关系,即的常数次幂亦存在简单的反比关系,即为为Pareto定律。定律。自然界与社会生活中存在很多幂律分布现自然界与社会生活中存在很多幂律分布现象。象。1932年,年,Zipf在研究英文单词出现的频在研究英文单词出现的频率时率时,发现如果把单词出现的频率按由大到发现如果把单词出现的频率按由大到小的顺序排列小的顺序排列,则每个单词出现的频率与它则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,的名次的常数次幂存在简单的反比关系,这种分布就称为这种分布就称为Zip

22、f定律。定律。)对给定熵函数和概率密度求满足最大熵的约束 已知熵:概率分布:求:iniippHlog1ip(),1,niriiip gxa rm 已知 和 求badxxpxph)(ln)()px()()brrap x gx dxamr,2,1,均匀分布 指数分布:高斯分布:01()p xeba/1()xp xe0()xpx d x0()xpx d x220()()xpx d x22()21()2xp xe 拉普拉斯分布:伽玛分布 1(1)ln()()()axaxxaap xexe10()xpx d x20ln()xpx d x|/1()2xpxe|()xpxd x Pareto分布 贝塔分布

23、(1)1(1)ln()()xxp xexln()x px d x11(1)ln(1)ln(1)11()(1)(,)(,)mnmxnxp xxxeBeta m nBeta m n110ln()xpx d x120ln(1)()xpx d x.最小交叉熵原理最小交叉熵原理dxxqxpxpQPDba)()(log)()|(barradxxgxp)()(mr,2,1badxxp1)()(exp)()(10mrrxgxqxpr 交叉熵法交叉熵法 在信息处理中,往往要求一个概率密度接近在信息处理中,往往要求一个概率密度接近另一个目标概率密度,而目标概率密度的参另一个目标概率密度,而目标概率密度的参数未知的

24、。这样,将(数未知的。这样,将(12.3.2)式作为目标)式作为目标概率密度,为含有参数的概率密度,写成,概率密度,为含有参数的概率密度,写成,可以通过改变可以通过改变u使交叉熵最小。由于使交叉熵最小。由于仙农建立了三项基本技术的理论基础仙农建立了三项基本技术的理论基础信息论是前两项技术的理论基础信息论是前两项技术的理论基础 最大熵谱分析最大熵谱分析 信号功率谱的估计通常要通过计算相关信号功率谱的估计通常要通过计算相关函数来实现。常规的谱估计方法要将信号函数来实现。常规的谱估计方法要将信号的样值序列进行适当截短,即利用在有限的样值序列进行适当截短,即利用在有限时间内的样值计算相关函数,然后进行

25、功时间内的样值计算相关函数,然后进行功率谱的估计。如果所使用的时间段太长,率谱的估计。如果所使用的时间段太长,就不能保证信号的平稳性,而使用的时间就不能保证信号的平稳性,而使用的时间段太短,就会降低功率谱的分辨率。段太短,就会降低功率谱的分辨率。Burg提出最大熵谱估计提出最大熵谱估计:在所计算的自相关函数的约束下,把使信在所计算的自相关函数的约束下,把使信源熵率最大的功率谱作为估计的结果。源熵率最大的功率谱作为估计的结果。一个限带高斯连续信源的熵由它的功率谱一个限带高斯连续信源的熵由它的功率谱所决定,而通过计算得到的信号的自相关函数所决定,而通过计算得到的信号的自相关函数序列就是功率谱的约束

26、。最大熵谱估计就是求序列就是功率谱的约束。最大熵谱估计就是求在此约束下使熵率达到最大的信号的功率谱。在此约束下使熵率达到最大的信号的功率谱。设设 对所有对所有i,那么,满足上面约束的最大熵率随机过程那么,满足上面约束的最大熵率随机过程 是是如下形式的如下形式的p阶高斯马尔科夫过程:阶高斯马尔科夫过程:其中,其中,为独立同分布为独立同分布 ,且,且 的的选择满足上面的约束。选择满足上面的约束。注:未假定:零均值,高斯和广义平稳注:未假定:零均值,高斯和广义平稳(),0,ii kkE x xkp ix1piki kikxa xziz2(0,)N2,paa 熵率熵率 Yule-Walker方程方程*

27、21log(2)2he 1,1,piki kkRa Rip201pkkkRa R 熵率熵率:自相关函数序列就是功率谱的约束自相关函数序列就是功率谱的约束:令令最大熵谱估计就是使最大熵谱估计就是使J最大的谱,令最大的谱,令得得11()log(2)log()24WWh XeS f dfW()()exp(2)WWR kS fjfk t dfpkp11log(2)log()()24pWkWkpJeS f dfR kW0()JSf1()exp(2)pkkpS fjfk t2221()1pjfktkkSfa e 经典谱估计(非参数法)经典谱估计(非参数法)相关法相关法:Blackman-Turkey,:B

28、lackman-Turkey,(间接法(间接法)周期图法周期图法(periodogram):(periodogram):(直接法)直接法)BartlettBartlett提出提出,Welch ,Welch 改进改进 现代谱估计现代谱估计(参数法)参数法)AR谱估计谱估计 MA谱估计谱估计 ARMA谱估计谱估计 最大熵最大熵(maximun entropy)谱估计谱估计 最大似然最大似然(maximum-likelihood)谱估计谱估计 AR谱估计谱估计 模型模型 自相关法,自相关法,Yule-Walker法法 协方差法协方差法 Burg 法法(最大熵法最大熵法)()1/()ppnenAzy

29、自相关法,自相关法,Yule-Walker法法 保证稳定保证稳定 加窗加窗 精度差精度差120()minNppnen 协方差(协方差(Covariance)法)法 存在稳定性问题存在稳定性问题 不加窗不加窗 精度高精度高12()minNpnpen Burg法法 计算反射系数计算反射系数 保证稳定保证稳定 精度高精度高 122()()minNppnpenen AR谱估计谱估计 经典方法(经典方法(BARTLETT)Yule-Walker法法 ML法法 Burg 法法(最大熵法最大熵法)(见比较图)(见比较图)最小交叉熵谱估计可以看成考虑到一个先验估计的 自相关函数另一种延伸方式;在谱估计时,使被

30、估计的过程和先验估计之间的交叉熵最小;如果先验估计是平坦谱,那么最小交叉熵谱估计就归结为最大熵谱估计。设概率密度p属于某概率集合P,该集合是已知的,但p本身未知,q为先验密度,同时还有p满足的约束条件。最小交叉熵谱估计的原理就是:在所有满足约束的密度中,选择与先验密度q交叉熵最小的概率密度p。由于利用了先验信息,最小交叉熵谱估计比最大熵谱估计的性能有改善。最大熵建模及其在自然语言处理中应用最大熵建模及其在自然语言处理中应用 1.最大熵建模基本原理最大熵建模基本原理 建模就是构造一个精确表示随机过程行为的随机模型,估计在给定上下文x条件下输出y 的概率p(y|x),其中x为模型的输入,y为输出。

31、为设计一个适合某种过程的模型,需要对该过程的行为进行一段时间的观察,收集样本值作为训练数据。设训练样本集有N对样本值,表示为(x1,y1),(x2,y2),(xN,yN)。定义两种分布,一是经验分布,就是通过训练数据得到的分布;二是模型分布,就是信源实际的分布。训练集合中数据对的分布称为经验分布,定义为 在训练集合中出现的次数 通常,一个特殊的数据对要么不出现,要么出现多次。最大熵建模就是以训练数据为依据,用最大熵原理构造一个产生训练样本经验分布 的统计模型,这里估计的是条件概率1(,)(,)p x yx yN(,)p x y(,)p x y 建模的一个重要步骤就是从训练数据中提取特征。特征或

32、特征函数指的是x与y之间存在的某种特定关系,可以用一个输出为0或1的二值函数(或示性函数)表示。特征实际上是一种映射:其中,。,A为y的符号集,表示一个可能的类集合;B为x的符号集,为上下文集合。)1,0(:ifBA 对于一个特征(x0,y0),定义特征函数:其他且若0 xy1),(00,00 xyyxfyx 实际上,特征函数的定义与所解决的问题有关。以文本分类问题为例。假设有4类文本:政治、经济、体育和文艺。每个词在不同类的文本中出现的概率是不同的,特别是具有代表性的词类。例如,“货币”一词经常出现在经济类的文本中,而“比赛”一词经常出现在体育类的文本中。对于一个特征(“球”,“运动”),其

33、中“球”属于上下文集合,“运动”属于类集合,其特征函数定义为:其他0出现 运动”且“球”在x中1),(,“运动球yifyxf 用经验分布对特征求平均是有用的统计量,表示为 用模型 对f 的期望值为 其中,为训练样本中x的经验分布。yxpyxfyxpfE,),(),()(yxpyxfxypxpfE,),()|()()()|(xyp)(xp 我们令经验分布特征平均值与模型分布特征平均值相同,即要求对每一个特征有,或 称为约束方程或简称约束。当样本数足够多时,可信度高的特征的经验概率与期望概率是一致的。)()(fEfEppyxyxfxypxp,),()|()(yxyxfyxp,),(),(定义P表示

34、所有满足(12.4.15)约束的条件概率分布的集合,即,条件熵表示为|)|(xyppP,2.1),()(nifEfEipipyxxypxypxppH,)|(log)|()()(QPp*最大熵建模就是:从满足约束条件的集合P中,选择具有 最大熵的分布 ,即 这是一个求有约束优极值化问题,)(maxarg*pHpPpPp*应用拉格朗日乘子法,引入拉格朗日乘子,得),(exp)()|(1yxfxZxypiii结论:结论:最大熵建模的解最大熵建模的解p*满足:满足:(1)(2)(3)(4)是惟一的。是惟一的。QPp*)(maxarg*pHpPp)(maxarg*pLppQp*p 最大熵建模在简单情况可

35、以求出解析解,例如有一、最大熵建模在简单情况可以求出解析解,例如有一、二个约束情况。但一般情况最大熵问题没有显式解,二个约束情况。但一般情况最大熵问题没有显式解,求参数必须借助数值解法。有些实际问题,有时可求参数必须借助数值解法。有些实际问题,有时可能有上千个约束条件,计算量和花费的时间巨大,能有上千个约束条件,计算量和花费的时间巨大,必须使用有效的算法。必须使用有效的算法。一个专门用于最大熵问题的就是由一个专门用于最大熵问题的就是由Danroch 和和Rateliff于于1972年提出了一个称为年提出了一个称为GIS(Generalized Iterative Scaling Algorit

36、hm)的算法,该算法要求特征为非负值,的算法,该算法要求特征为非负值,没有解析解,收敛速度较慢。没有解析解,收敛速度较慢。D.Pietra等改进了原有的求解算法,降低了求解等改进了原有的求解算法,降低了求解的约束条件,提出了的约束条件,提出了IIS(Improved Iterative Scaling Algorithm)算法,增加了算法的适用算法,增加了算法的适用性,性,IIS算法是目前最大熵参数求解中的常用算法。算法是目前最大熵参数求解中的常用算法。最大熵统计模型的优缺点最大熵统计模型的优缺点 最大熵建模方法有很多优点:最大熵建模方法有很多优点:(1)与极大似然估计结果同,所建立的模型是唯

37、)与极大似然估计结果同,所建立的模型是唯一的;一的;(2)最大熵统计模型可以灵活地设置约束条件。)最大熵统计模型可以灵活地设置约束条件。通过约束条件的多少可以调节模型对通过约束条件的多少可以调节模型对 未知数据的适应度和对已知数据的拟合程度;未知数据的适应度和对已知数据的拟合程度;(3)通常性能优于其他方法。)通常性能优于其他方法。最大熵统计模型的缺点:最大熵统计模型的缺点:(1)运算量大;)运算量大;(2)存在过拟合问题,通常在求极值时需加入先)存在过拟合问题,通常在求极值时需加入先验随机函数进行平滑。验随机函数进行平滑。1最大熵建模在自然语言处理中的应用 最大熵建模已成功应用到自然语言处理

38、的许多方面,其中包括:单词聚类(S.Pietra)机器翻译(A.L.Berger)统计属性-值文法(S.Abney)句子边界检测,词类标注(Ratnaparkli,1998)自适应统计语言建模(Rosenfeld,1996)组块分析(Osborne,2003;Koeling,2003)垃圾邮件过滤(Zhang,2003)名实体识别(A.Borthwick)最大熵原理在经济学中的应用最大熵原理在经济学中的应用 前面指出物理学中的波耳兹曼分布是一个指数分布前面指出物理学中的波耳兹曼分布是一个指数分布。推导该定律的基本依据是能量守恒定律。因此,。推导该定律的基本依据是能量守恒定律。因此,我们可以推断

39、,在一个大系统中任何守恒的量都应我们可以推断,在一个大系统中任何守恒的量都应该具有指数概率分布。在物理学中指数该具有指数概率分布。在物理学中指数Boltzmann-Gibbs分布和封闭经济系统中的货分布和封闭经济系统中的货币的平衡分布具有类似性,与能量类似,在一个封币的平衡分布具有类似性,与能量类似,在一个封闭经济体中,货币在经济代理商之间的相互作用中闭经济体中,货币在经济代理商之间的相互作用中在局部是守恒的,所以货币也遵循在局部是守恒的,所以货币也遵循Boltzmann-Gibbs分布,其等效温度等于平均每个代理商的货分布,其等效温度等于平均每个代理商的货币量币量。财富不但包含货币还包含物质财富,所以财富不但包含货币还包含物质财富,所以不守恒,一个早期的研究者不守恒,一个早期的研究者Vilfledo Pareto在在19世纪末发现,在一个人口均世纪末发现,在一个人口均匀分布的地理范围内,人们之间的财富的匀分布的地理范围内,人们之间的财富的分布按一个幂律分布,因此这种分布经常分布按一个幂律分布,因此这种分布经常称做称做Pareto分布。下面利用最大熵原理推分布。下面利用最大熵原理推导和分析封闭的经济体中货币和财富的分导和分析封闭的经济体中货币和财富的分布。布。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!