搜索引擎中的查询纠错方法

上传人:无*** 文档编号:151840638 上传时间:2022-09-14 格式:PPT 页数:32 大小:597KB
收藏 版权申诉 举报 下载
搜索引擎中的查询纠错方法_第1页
第1页 / 共32页
搜索引擎中的查询纠错方法_第2页
第2页 / 共32页
搜索引擎中的查询纠错方法_第3页
第3页 / 共32页
资源描述:

《搜索引擎中的查询纠错方法》由会员分享,可在线阅读,更多相关《搜索引擎中的查询纠错方法(32页珍藏版)》请在装配图网上搜索。

1、 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 拼写纠错 拼写纠错是一个首先判断拼写正确性,最后对错误的拼写给出其正确形式的过程。查询拼写纠错 针对搜索引擎查询的拼写纠错,这里简称查询纠错。查询纠错的意义 据统计,输入英文搜索引擎的查询中有10-15%含有拼写错误Cucerzan 2004。在中文搜索引擎中,包含拼写错误的查询的比例更高,错误种类更多。查询纠错问题的特殊性 查询的长度较短,导致无法使用基于上下文的纠错方法。查询中包含大量动态变化的新词,导致查询的拼写正确性很难判断。例如:naboo、aznar、shrek 查询纠错的一般过程 查询预处理 拼写正确性判断 候选集

2、合生成 候选评分 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 查询的类型 中文查询 英文查询 拼音查询 混合查询 预处理流程 中文与英文字母拆开 中文交中文查询纠错处理 英文字母交拼音纠错处理 是拼音的还原成最有可能的中文查询 不是拼音的交英文查询纠错处理拼写错误查询拼写错误查询纠错结果纠错结果方法方法中国娱伦监督网中国舆论监督网中文纠错baomazhuanmai宝马专卖拼音纠错avri lavigneavril lavigne英文纠错猛牛niunai蒙牛牛奶中文+拼音 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 不进行正确性判断(中文纠错)将查询本身加

3、入候选集合 参与候选集合评分 认为正确的查询应该在其候选集合中评分最高 基于置信词典进行判断(英文纠错)置信词典构建时利用的资源 传统词典 维基百科 百度百科 搜索引擎查询日志 问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 通过字型相似度生成候选集合 编辑距离(四种编辑操作)是一般采用的衡量英文单词间字型相似度的方法 在英文纠错中,我们扩展了传统编辑距离中的编辑操作,增加了4种新的编辑操作,并且训练出了每种编辑操作的权重 将字型相似度在一定阈值范围内的查询加入候选集合 扩展后的编辑操作列表 操作1:插入一个字符;操作2:删除一个字符;操作3:替换一个字符;操作4:交换相邻两个

4、字符的位置;操作5:一个字符与其位置靠后且相隔一个字符位置的字符交换位置;操作6:一个字符与其位置相邻且靠后的两个字符交换位置;操作7:两个相邻字符与其位置相邻且靠后的一个字符交换位置;操作8:对于操作1-7中的生成的候选形式,利用操作1-7进行第二轮候选生成,若第二轮生成的候选形式的错误倾向性大于一定阈值,则叠加操作为一个编辑操作。权重训练时的限制 若候选的第一字母与查询不同,该候选在字形相似度计算的时候会有相应的惩罚(惩罚与查询的长度成正比)。通过语音相似度生成候选集合 英文可以使用Double Metaphone等衡量语音相似度的方法 中文主要是利用拼音串之间的编辑距离衡量语音相似度 拼

5、音串间的编辑距离计算需要考虑模糊音的因素 将语音相似度在一定阈值范围内的查询加入候选集合 中文纠错在生成候选时还需要满足拼音规则 模糊音表1:模糊音错别字分类类别类别说明说明举例举例平舌音/翘舌音拼音开始声母:cch,ssh,zzh,(“入党自愿书”,“入党志愿书”)前鼻音/后鼻音拼音最末韵母:anang,eneng,ining(”圣斗士新矢”,“圣斗士星矢”)方言口音拼音开始声母:Ln,fh,rl,kg(”摩托诺拉”,“摩托罗拉”)问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 语言模型与错误模型 P(c|q)=P(q|c)P(c)语言模型P(c)错误模型P(q|c)错误倾向

6、性特征 某查询q的错误倾向性是将其所有错误形式的查询频次加和 查询返回结果网页数 查询是否为网页标题 查询是否为URL 字型相似度Dist(q,c)语音相似度Sound(q,c)查询频次Count(c)查询词的错误倾向性ErrTend(c)查询返回结果网页数ResultPage(q)查询是否为网页标题 查询是否为URL Dist(q,c)Sound(q,c)Count(q)-Count(c)Result(q)-Result(c)ErrTend(q)-ErrTend(c)Count(c)/Count(all)问题描述 查询预处理 正确性判断 候选集合生成 候选评分 测试 在不同查询频次范围内的准

7、确度Table 3.Accuracy for the whole datasets种类种类范围范围1范围范围2范围范围3范围范围4英文查询91.06%94.48%93.64%93.73%对于phrase类型的查询纠错的效果种类种类范围范围1范围范围2范围范围3范围范围4英文查询96.70%97.69%92.38%90.93%70.00%75.00%80.00%85.00%90.00%95.00%100.00%1234初始操作8新编辑距离错误倾向性总 对3087个英文查询效果进行横向比较纠错系统纠错系统精度精度百度93.3%谷歌86.8%我们88.5%Thank you!Thank you!Questions or comments?Questions or comments?

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!