超参数的意义

上传人:lis****211 文档编号:116123947 上传时间:2022-07-04 格式:DOCX 页数:4 大小:33.88KB
收藏 版权申诉 举报 下载
超参数的意义_第1页
第1页 / 共4页
超参数的意义_第2页
第2页 / 共4页
超参数的意义_第3页
第3页 / 共4页
资源描述:

《超参数的意义》由会员分享,可在线阅读,更多相关《超参数的意义(4页珍藏版)》请在装配图网上搜索。

1、超参数的意义,并提供某种方法在数据中估计它的标量值。6.1解释通常意义上,狄利克雷超参数对多项式参数有平滑影响。通过降低和的值,减少LDA中的平滑影响,最终会导致更加直接的话题关联,因而和将变得更加稀疏。由,控制的/的稀疏性说明模型倾向于赋予每个话题较少的词项,又一次影响模型在数据中已有的话题数量。这意味着为了发现词语同属一个话题,词语之间的“相似”度需要很高(即是它们在不同的上文中共现的频繁程度1)。对于稀疏话题,如果K值更高,模型会与数据更加匹配,因为模型将会最大限度地将多个话题赋予一个词项。这就是模型的学习K值,例如不带参数的贝叶斯方法TJB+06的其中一个原因,K值强烈地依赖于超参数。

2、由|.对控制的稀疏度意味着模型倾向于用更少的话题刻画文档。当超参数、话题数量和模型行为之间的关系是相互的,它可形成具有特定性质的模型,以及对数据的内在特点进行分析。模型质量的试探性,报道性,良好性(见下章,用于分析方法),|,曲,并且汙订lGStO4。另一方面,给定话题数量K,从数据中学习和可以用于提高模型质量(指的是估计方法的目标),更进一步说,超参数估计可以揭示建模数据集的特定属性。比i估计可以指示不同文档的(潜在)语义是相当程度的不同,并且对Qi的估计暗示了一般性的共现词语组有多大。但是,估计超参数的解释并不总是简单的,对文档内容的特定群集的影响尚未得到彻底调查。6.2抽样了解了很多从数

3、据中学习狄利克雷参数向量门的方法,但很遗憾目前还不存在正确的闭合解。最精确的方法是迭代近似方法。MinkOO对此进行了全面的概述。事实上,学习狄利克雷参数的最好办法是使用吉布斯采样(参考等式79)已经得到的结果。例如话题相关性的计数统计信息而不是多项式参数|和八,对它们进行积分分析。这说明超参数的最佳估计是狄利克雷多项式分布的参数(参考等式52)。对于对称的狄利克雷分布,对于LDA更加普遍,在吉布斯采样中运行良好的和估计,却在文字里并未明确的说明。因此这里推荐使用的贝叶斯方法。狄利克雷分布没有减小运算的共轭先验分布,因此不会选择先验。但是,与狄利克雷处理常常一起使用的先验分布是gamma分布,

4、-冃在了狄利克雷分布上。对于的吉布斯采样的全条件可通过以下方式得到:(86)(87)塑士论-1严心)其中,使用等式74中的网前用含有gamma分布的参数:形状&和标量。这些参数可以通过关于可能的区间/和門的先验知识进行选择。某个具体的参数集合是引用”先验,EsWe95中表示的:;|/::!:.:;I/(它在=0处有一个奇异值,因此在实际的实现中,参数是趋于零的集合,例如血IONGS+06)O相似的,:的全条件可以通过等式70得到:等等。潜在话题常常来源于高阶的共现,例如与共现的門与共现代表着h和直接的次阶共现关系,ocnA(几+0)占AvO?)J(89)注意两个分布k;?和氏規,;直接含有LD

5、A吉布斯采样的统计参数。可以使用蒙特卡洛模拟的方法从这些分布中采样,从而计算i和的值。例如:自适应舍选抽样(ARSGiWi92),一个从任何log密度抽样的方法得到,山思丿y,它是提供给这些分布的一个参照。6.3高效估计作为抽样的替代品,存在一种高效的非迭代方法,能够通过狄利克雷精度匚二F找到;的最大似然估计。它基于适合于狄利克雷分布密度的距和多项式参数的距MinkOO。在坍塌的LDA吉布斯采样中,参数不能够被直接访问,而是使用了点估计,可以通过比率的模型统计量获得。使用MinkOO的结果,我们得到:1寺E血丘右E叩一已血卩(90)(91)E确諾自蟲这个估计方法能够比任何迭代方法或者基于抽样的

6、方法更快捷,如果满足条件:,-二-,得到的超参数值比真实的参数值要小10%(显著地过低)。如果不满足,估计将剧烈下降2。7分析话题模型话题模型,如潜在话题与观测到的实体之间的LDA估计的软关系,例如词语、文档,但是在模型扩展时也包括作者等。这些关系是很多与信息处理和语言建模相关操作的基础。在本节中,我们举出几个使用给定语料的话题结构的方法,从而在(1)估算中看不见的文件(正在查询)的话题结构,(2)估计隐含的已估计话题聚类的质量,(3)根据已估计的参数,推断新的关联关系,例如,词语、文档、作者之间的相关性。为此,使用了LDA的示例,其中提供了有关当前文档中已有的话题信息一一参数集合以及与这些话

7、题相关的术语一一参数集合厂。7.1查询查询抽样。一个查询仅仅是一个简单的词向量II,在给定查询的词向量1和LDA模型1(0切亡从和丄)=讯血用的情况下,通过估计话题壬的后验分布找到已知文档的匹配文档。,与等式83中的可预测似然法的正确词项相同,并与等这就是为什么这个方法不能被应用到中,其中,而不是卜1-OLDA模型中的查询是指查询与检索文档相关的操作。在话题模型中,有两种方法对结果文档实施排序:(1)通过相似度分析,(2)通过可预测似然法。两种方法都依赖于对查询文档或文档的话题估计。式85中的丿办相同。为了找到一个全新文档的必要数量,我们能够使用Hofm99或SSR+04的方法来排他性地运行关

8、于新文档的推理算法,与等式79类似。首先,我们通过随机给词语分配话题来初始化算法,然后循环地进行吉布斯采样更新(针对局部词语椀的i)使用等式84和等式85,等式92中的公式也能够与模型的参数和*联系起来。另外,对等式中的采样进行简化,可以忽略与查询吒L话题-词项关联关系。因此讯二匚蠢出向二;:加。这里使用了贝叶斯法则和非条件文档和话题概率I代肚心玄;门岀,并且:-=二心;二,因为怦Sm张二九川。:p(力二&|囱二匚己4诩十;艺fif)-叩+肚气+为咗e十攻I必=旳+戏+0-1唐+-1其中,新变量表示词项t和话题k在未发现的文档中出现的次数。这个等式提供了一个完美的吉布斯后验采样的工作实例:在随

9、机选取中,并不可能聚类的的和;的贡献比较出现,高度估计的词语-话题关联将支配多项式集。结果,经过从分布中重复进行抽样,并更新川灯,话题-词语关联集合传播到文档-话题关联。注意狄利克雷超参数的平滑影响。应用等式85,得到未知文档的话题分布:(93)这个查询过程适用于未知文档的完全集合,通过:跨越的未知文档实现。相似度排序。在相似度方法中,查询文档的话题分布被估计,并且与合适的相似度衡量允许排序。当话题的分布与行的形式相同,我们能够将查询与语料库中的文档进行比较。一个简单的度量方法是Kullback-Leibler散度KuLe51,它由两个离散随机变量X和Y定义,其具体表达式如下:NDkl(XY)

10、=Ep(x=n)|log2P(X=1)-bg2p(Y=n)(94)/i=iKL散度能够被解释为交叉爛刊抑打=呼和)x熵(X)=-乙脸之间形成的区别。例如,知识Y增加到知识X中的信息。因此,仅仅当分布X和Y相等时,KL散度才等于零。但是KL散度不是一个适合的距离度量,因为它并不对称。因此一个平滑的,对称的拓展Jensen-Shannon距离被逐渐采纳:DMY)=!|0kl(X|M)+DklWIIM)】(95)其中平均值M=+F)l可预测似然排序。排序的第二种方法是计算由查询生成的语料库中文档的可预测似然值924Arip(阮屁)-风1曰Op(说1%)(96)/?(;=灿)/X忏/p(z=k)4p(z胡臥)(97)(98)其中,是文档布斯采样。通常来说,等行审查。m的长度,是语料库中与话题k相关联的词语数,它们都用于吉98是话题向量之间的带权重标量乘积,并对短文档和强话题进

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!