个性化检索中的相似用户群的获取与更新

上传人:仙*** 文档编号:34108081 上传时间:2021-10-20 格式:DOC 页数:52 大小:2.10MB
收藏 版权申诉 举报 下载
个性化检索中的相似用户群的获取与更新_第1页
第1页 / 共52页
个性化检索中的相似用户群的获取与更新_第2页
第2页 / 共52页
个性化检索中的相似用户群的获取与更新_第3页
第3页 / 共52页
资源描述:

《个性化检索中的相似用户群的获取与更新》由会员分享,可在线阅读,更多相关《个性化检索中的相似用户群的获取与更新(52页珍藏版)》请在装配图网上搜索。

1、个性化信息检索摘要下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化检索中的重要研究子课题,相似用户群的建立与更新的任务是,通过对用户检索和浏览历史的分析,建立兴趣相似的用户群,并随着用户信息和检索领域的变化对相似用户群进行更新。相似用户群的建立与更新任务面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对相似用户群系统进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,将相似用户群划分为一个独立的子任务,并利用开发的语

2、料标注辅助系统,为其建立了标准评测集,使得可以对相似用户群的系统进行公正的评价和比较。在相似用户群的研究中,由于用户间共同评价过的网页较少,数据稀疏成为限制相似用户群建立效果的重要问题,因此,本文对相似用户群建立的研究主要集中在解决数据稀疏问题上。本文提出了基于相关性模型的相似用户群建立方法,采用相关性模型,利用相似领域中的相似用户,对当前领域中的用户查看数据进行扩充,以解决数据稀疏问题。同时,根据实际情况,随着领域的不同对相似用户群不断进行更新,以使相似用户群的建立更加准确。实验语料为标注者针对天网100G语料进行的检索行为和标注的答案,评测指标采用错检率、漏检率和系统性能损耗代价。此方法的

3、性能在测试语料集上比baseline方法提高了7.12%,说明基于相关性模型的相似用户群方法可以很好地解决数据稀疏,同时由于利用用户群兴趣挖掘单个用户兴趣,防止了用户兴趣判断的偏差,提高相似用户群建立的效果。关键词个性化检索;协作过滤;相似用户群;相关性模型AbstractAn important characteristic of next generation search engine is personalization. Personalized Information Retrieval (PIR) focuses on users. It captures users inter

4、est in different kinds (explicit, implicit interest and interest of similar users). These information of users are integrated and used to improve the result of information retrieval system.The establishment and update of similar users cluster is an important subtask of personalized information retri

5、eval. Its task is to establish clusters of similar users by analyzing users retrieval and browsing history. The clusters will also be updated with the change of users information and retrieval areas. The problem in this task is the lack of tasks division and standard evaluation dataset. Therefore, t

6、his paper defines four subtasks of PIR, which include the establishment and update of similar users cluster. The establishment standard evaluation dataset makes it possible to evaluate and compare the systems of user clustering. The data sparseness limits the performance of user clustering because w

7、eb pages rated by different users are rare. Therefore, the research of this paper focuses on solving the problem of data sparseness. This paper proposes a user clustering method based on relevance model. It uses users data in similar domains to expand the data of users in current domain by relevance

8、 model. The users clusters will also be updated with the change of retrieval domains. The retrieval information and labeled answers of users are used to establish the experimental dataset. The evaluation matrix includes false alarm rate, miss alarm rate and cost of detection. In the experiment, user

9、 clustering based on relevance model improves the result of baseline system by 7.12%. This result proves that the proposed algorithm can alleviate the problem of data sparseness. Whats more, mining users interest by its cluster can decrease the false information in users models and improve the resul

10、t of precision of user clustering. KeywordsPersonalized Information Retrieval;Collaborative Filtering; User Clustering; Relevance Model不要删除行尾的分节符,此行不会被打印47- -目录摘要IAbstractII第1章 绪论11.1 课题背景11.2 课题的研究目的和意义21.2.1 课题的研究目的21.2.2 课题的研究意义21.2.3 相似用户群研究的应用31.3 国内外相关研究41.3.1 相似用户的判断41.3.2 解决数据稀疏问题的研究71.4 本章小

11、结8第2章 个性化检索任务划分及评测92.1 个性化检索的任务划分92.1.1 用户新兴趣发现92.1.2 用户兴趣跟踪112.1.3 相似用户群建立122.1.4 个性化检索142.2 语料标注的辅助系统142.2.1 系统介绍142.2.2 正确答案记录172.2.3 语料规模182.3 相似用户群的评测182.3.1 评测机制182.3.2 评测方法192.4 本章小结19第3章 用户兴趣发现与跟踪213.1 用户新兴趣发现213.1.1 基于向量空间模型的新兴趣发现方法213.1.2 基于TextTiling的新兴趣发现方法223.1.3 实验结果及分析243.2 用户兴趣跟踪253.

12、2.1 实验方法253.2.2 实验结果及分析253.3 本章小结26第4章 基于相关性模型的数据扩充方法研究274.1 话题跟踪研究简介274.2 相关性模型284.3 基于向量空间模型的相关性模型284.4 基于话题核心与新颖部分的话题跟踪294.4.1 话题核心的构建304.4.2 利用改进相关性模型调整话题的新颖部分304.4.3 话题模型的构建314.5 实验及结果分析314.5.1 实验语料及评测机制324.5.2 实验结果324.6 本章小结34第5章 基于相关性模型的相似用户群研究355.1 相关研究355.2 基于相关性模型的相似用户群建立385.2.1 用户数据扩充385.

13、2.2 用户相似度计算395.3 实验及结果分析395.3.1 实验语料405.3.2 实验结果分析405.4 本章小结42结论43参考文献44攻读学位期间发表的学术论文48哈尔滨工业大学硕士学位论文原创性声明49哈尔滨工业大学硕士学位论文使用授权书49哈尔滨工业大学硕士学位涉密论文管理49致谢50千万不要删除行尾的分节符,此行不会被打印。在目录上点右键“更新域”,然后“更新整个目录”。打印前,不要忘记把上面“Abstract”这一行后加一空行第1章 绪论1.1 课题背景由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。搜索引擎是最普遍的辅助人们检索Web信息的工具

14、,比如传统的搜索引擎AltaVista、Yahoo和新一代的搜索引擎Google等。尽管商业搜索引擎已经取得了相当的成功。但要大部分搜索引擎是基于关键词匹配的方式进行检索的,导致检索结果中无关的网页过多并且没有考虑不同用户的个性差异和需要。由此可见,目前所广泛采用的信息检索技术无法满足不同背景、不同目的和不同时期的查询请求。举例来说,研究计算机和果树栽培的两个用户,在搜索 “苹果”时分别想查找“苹果电脑”和关于苹果栽培的知识。如果我们能够根据这两个用户的职业以及平时查询和浏览的内容为这两个用户建立不同的档案,就可以为他们返回不同的结果。个性化检索系统就是利用用户的注册信息以及浏览和查询历史等信

15、息挖掘和预测用户兴趣,从而结合用户当前的查询关键词,返回符合用户个人兴趣的检索结果。同时,物以类聚,人以群分,每个人都有自己的兴趣,而和他兴趣最接近的一些用户会组成一个用户群。比如有一些用户都对“飞碟”非常感兴趣,我们可以利用用户群在查询和浏览中的行为作为判断当前用户检索兴趣的依据,从而更加准确地把握用户的检索意图。因此,相似用户群的建立对提高个性化检索的性能有重要意义。同时相似用户群还可以用来预测用户的潜在兴趣,将用户可能感兴趣的信息推荐给用户。例如,某些用户都对“飞碟”有共同的兴趣,如果某一天出现了新闻“英国天空惊现UFO”,对“飞碟”感兴趣的很多用户都对这个新闻感兴趣,那么,系统就可以将

16、这则新闻推荐给这些用户。这就是利用相似用户的兴趣判断和预测单个用户的兴趣。利用这个原理进行个性化检索和信息推荐将能够更好地满足用户的个性需求。1.2 课题的研究目的和意义相似用户群建立的研究不仅对个性化检索和个性化推荐系统1有重要意义,而且具有重要的实际应用价值。1.2.1 课题的研究目的基于相似用户群的个性化信息检索的解决思路是协作过滤和信息社会化检索。主要方法是系统通过对用户按兴趣模式聚类来增强用户间的协同与协作。我们将从以下几个方面展开相关研究:(1) 相似用户群建立的评价以往研究中,由于缺乏有效评测系统,因此对相似用户群建立任务的性能缺乏公正的评价。本文将个性化检索划分成四个相对独立又

17、相互关联的子任务,相似用户群的建立作为独立的子任务,通过用户对每个检索对象提交的答案构建标准评测集,以便对相似用户建立的效果进行公正的评价。(2) 用户评价数据的扩充协作过滤中由于不同用户间评价过的网页较少,从而导致用户相似度计算的准确率不高。因此,如何解决数据稀疏问题,是一个重要研究课题。本文将利用用户对网页的点击代替用户的显式评价分数,同时基于改进的相关性模型,利用相似领域内相似用户的查看历史,对当前用户进行数据扩充,解决数据稀疏问题,提高相似用户群建立的效果。(3) 相似用户群建立策略以往的用户群建立工作大部分是对所有用户建立一个静态的相似用户群,但是实际中,用户在不同领域的兴趣是不同的

18、,因此在不同领域其相似用户群也是不一样的。本文探讨在每个领域中分别建立一个相似用户群,并对用户群进行动态的更新,以便使群内的用户兴趣尽可能一致。1.2.2 课题的研究意义相似兴趣用户群的建立主要可以起到以下几点作用:(1)提高个性化检索系统的性能。由于单个用户的查询和检索数据比较有限,而判断单个用户兴趣时常常会有偏差,导致对用户兴趣判断的错误累积现象。而通过用户群的整体兴趣判断单个用户的兴趣,可以防止用户兴趣判断的偏差。(2) 提高个性化信息推荐的效果。相似用户群建立后,可以将群中大部分用户感兴趣的信息推荐给其它用户,提供个性化推荐功能。评价问题是相似用户群建立中的重要问题。当前的很多研究都将

19、相似用户群建立的任务依附于其它任务中,缺少专门针对此任务的评测。本论文为相似用户群建立的任务构建合理的自动评测集语料以及对应的评测答案为后续针对此任务的研究奠定基础,对其它研究的评测方法也有重要的参考价值。1.2.3 相似用户群研究的应用相似用户群建立的研究,不仅具有重要的理论价值,而且有重要的实际应用价值。1.2.3.1 相似用户群在电子商务中的应用基于相似用户群的个性化服务方式通过对不同用户群体兴趣取向的挖掘和分析,制定适合此用户群体的产品的设计、开发以及市场营销策略。基于相似用户群的个性化电子商务具备如下优点:(1)面向群体用户,可以分析用户群体的兴趣,制定针对性的生产和销售策略。(2)

20、个性化电子商务具备自适应的学习机制,从而能够辅助电子商务系统识别商务趋势敏感变化并智能化地调整商品分配。1.2.3.2 相似用户群在电子政务中的应用电子政务主要应用于企业内部行政事务和业务企划的发布、数据和资源共享以及保密信息交互。基于相似用户群的个性化信息检索应用于电子政务的优点主要包括:(1)有益于企业高效快捷的内部管理。相似用户群建立起对应不同职能部门的相似用户群,自动挖掘与每个用户群管理和业务职能相关的信息。(2)海量数据的合理保存与维护,建立基于相似用户群对于海量资源的分类保存和快速精准的查询提供了良性平台。1.2.3.3 相似用户群在电子家务中的应用电子家务就是:“家庭事务的电子化

21、,旨在提高家庭管理的水平和效率,是信息化建设的重要目标。”。基于相似用户群的协作过滤可以记录家庭事务的核心需求,实时监控信息流,从而辅助电子家务系统智能化的信息推送,将用户从繁多的事务中解放出来。此外,相似用户群的建立还可以应用在数字图书馆23中,为用户提高个性化的检索和个性化推荐功能。1.3 国内外相关研究以往的相似用户群的研究主要集中在协作过滤领域。协作过滤4是指分析用户兴趣,在用户群中找到与指定用户的兴趣相同或相似的用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协作过滤分为基于模型和基于记忆的协作过滤。基于模型的协作过滤方法,通过挖掘数据之间的关系建

22、立需求模型,过滤后续的信息资源。其中常用的方法包括贝叶斯网络方法5、聚类的方法67和aspect model方法8。基于记忆的协作过滤主要通过用户对项目打分的差别找到相似的用户或项目,然后对用户的兴趣进行预测。基于记忆的协作过滤分为基于项目的协作过滤910和基于用户的协作过滤1112两种。基于项目的协作过滤系统的核心问题是检测两个项目之间的协作相似性,然后利用用户对相似项目的兴趣预测用户对未评价过的项目的兴趣。基于用户的协作过滤主要研究如何建立和应用相似用户群。比如,两名具备相似知识背景的用户ua和ub,在获取知识时采用不同特征集合构成Profile,相似的知识背景使得系统相信ua和ub具备相

23、同的需求趋向,从而将ua和ub感兴趣的反馈结果互相推送,以达到协作式的检索或过滤功能,如图1-1所示。用户(a)反馈集:反馈(a)(i)用户(a)背景信息(a)用户(b)反馈集:反馈(b)(j)反馈(b)(k)用户(b)背景信息(b)协作过滤模型反馈(a)(i)反馈(b)(j)反馈(b)(k)图1-1 协作过滤样例Figure 1-1 Sample of collaborative filtering1.3.1 相似用户的判断基于用户协作过滤的核心思想是根据用户评分的相似性获得活动用户的若干最近邻,也就是相似用户群的建立,然后通过这些最近邻对项目评分的加权和来预测活动用户对项目的评分。其步骤如

24、图1-2。所有用户与活动用户相似度计算选择近邻计算近邻用户对项目评分加权和图1-2 基于用户的协作过滤中用户对项目评分流程Figure 1-2 Process for users to rate items in user-based collaborative filtering通常基于用户的协作过滤采用最近邻方法。即对活动用户ua,获取按照相关度大小排列的相似“近邻”集13U=u1,u2,un,可以通过设置阈值控制U=u1,u2,un的规模。基于活动用户ua的近邻集U=u1,u2,un,用户ua对项目ti的评价定义为近邻集U中所有用户对项目ti评价指标的加权和,公式14如下: (1-1)其

25、中,w(ua,uk)为活动用户ua与uk的相似度;R(uk,ti)为uk对项目ti的评分;为uk对项目的平均评分;为当前活动用户ua先验的平均评分。用户间相似度计算成为决定协作过滤系统性能的一个主要方面,常用的用户间相似度如下: 余弦(Cosine)相似性余弦相似性115首先将用户对项目的评分映射为n维评价矢量ua=rel(ua,ti)|tiT,其中每一维代表用户对某一项目的评分,通常可以简化地将评分的取值范围设置为0,1,评分越高说明用户对项目的兴趣程度越高。用户之间的相似性通过评价矢量间的余弦夹角进行度量,其公式如下: (1-2)其中,分母部分是由两个评价向量的模乘积而成,其作用在于对余弦

26、相似性进行归一化。 相关(Correlation)相似性假设用户ua和ub共同评价过的项目集为I=t1,tn,相关相似性Csim(ua,ub)可以采用Person相关系数16进行度量。其公式如下: (1-3)其中,Csim(ua,ub)是用户ua和ub的相似度;R(ua,ti)与R(ub,ti)分别代表用户ua和ub对项目ti的评分;与分别代表用户ua和ub对其共有的项目集I=t1,tn的评价平均值;n为ua和ub共同评价过的项目总数。Person相关系数要求数据的分布条件满足连续的线性关系。在实际中往往预先设置评价的等级,用户按照等级对项目进行评价。这造成数据的分布趋向于离散,因此采用Spe

27、arman等级相关系数17衡量用户之间的相关相似性,公式如下: (1-4)其中,Rank(ua,ti)和Rank(ub,ti)代表用户ua和ub对ti的关注级别,比如“关注”、“一般”和“不关注”分别对应1、0.5和0;和代表ua和ub对公共项目集I=t1,tn评价的平均级别。余弦相似度计算法和相关相似性计算法提高了推荐项目的准确性,但是过分相似的用户共有的项目集规模相对很大,削弱了用户间可以互相推荐的未知项目空间。通常协作过滤系统可以采用项目的反流行度18为候选用户赋予权值,公式如下: (1-5)其中,n(ti)表示对项目ti评价过的用户总数,即项目ti的流行程度;m是先验的归一化参数。根据

28、公式(1-5),一个项目的流行程度越大,则其反流行度InvPop(i)越小,从而包含该项目的候选用户获得的权值越低。活动用户可以简化地选择经过反流行度加权后权值相对较高的用户作为邻居。但在实际应用中,又有用户与评分的稀疏性,导致协作过滤系统无法有效识别相似用户。1.3.2 解决数据稀疏问题的研究用户对项目的评价值可以构成一个用户-项目矩阵,由于用户对网页的的评价较少,导致此矩阵数据较稀疏1920。如图1-3所示。图1-3 用户-项目评价矩阵Figure 1-3 Matrix of user-item ratings数据稀疏问题导致用户相似度计算时很不准确。为了解决数据稀疏问题,许多相应算法被提

29、出。减少维度的方法致力于直接将用户-项目评价矩阵的维度降低。原理成分分析(PCA)技术21以及信息检索中的潜在语义索引技术2223也都被用来解决这个问题。清华大学24提出了将用户-项目矩阵进行转换从而计算用户间相似度的方法。降低维度的方法通过去除不重要的用户或项目达到减少数据稀疏的问题。关联检索技术25考虑用户和项目之间的关系,迭代地增强用户和相关项目之间的相似度。内容驱动的协作过滤方法2627增加额外的信息,将项目表示成为向量而计算他们之间的相似度。宾夕法尼亚大学28提出了对内容信息进行一体化的统一概率模型解决数据稀疏问题。协作过滤以及相似用户群建立也有了一些实际应用系统。其中,最为有名的是

30、Amazon网站的个性化推荐系统29,其利用协作过滤技术,将用户可能感兴趣的商品信息推荐给用户,节省用户搜索的时间并可以发掘用户潜在兴趣。与此类似的还有Google的个性化新闻推荐系统30。雅虎公司将相似用户群的研究应用到了个性化电影搜索网站中31。其根据当前用户所在的用户群信息预测用户对每个电影的兴趣,然后计算每个电影针对每个用户的个性化权威性,从而实现检索结果的个性化。1.4 本章小结本章先对个性化检索以及相似用户群研究的背景进行了介绍,介绍了现有检索系统的缺点,说明了此研究的必要性。然后,对相似用户群的研究目的进行了阐述,介绍了研究重点,分别是对用户数据的扩充、相似用户群建立的策略以及评

31、价方法,并对研究意义做了说明。之后,通过相似用户群在电子商务、电子政务和电子家务方面的应用,说明相似用户群研究的重要价值。最后对相似用户群建立的相关研究和应用进行了介绍。后续章节的安排如下:第二章详细说明个性化检索的任务划分以及相似用户群的评测方法,主要对个性化检索各个子任务进行了详细介绍,并介绍了对语料收集的辅助系统和其收集到的语料规模,最后对相似用户群的评测机制和方法进行了说明;第三章介绍用户新兴趣发现和兴趣跟踪的初步研究,这两个子任务是相似用户群建立的前序任务,因此本文对这两个子任务进行了初步研究;第四章探讨相关性模型在数据扩充中的作用并对其进行改进,相关性模型可以解决相似用户群中的数据

32、稀疏问题,因此本章对相关性模型进行了深入研究并提出了改进的相关性模型以便应用到相似用户群建立任务中;第五章提出基于相关性模型的相似用户建立与更新方法,本章利用相关性模型解决相似用户群的数据稀疏问题,并根据用户新兴趣发现和兴趣跟踪任务的结果,探讨利用相关领域中的相似用户扩充当前领域中用户的数据。第2章 个性化检索任务划分及评测作为个性化检索中的一个重要模块,相似用户群的建立的研究第一步是有合理的任务划分、明确的任务定义以及详细的入口和出口数据格式。以往对个性化检索以及相似用户群的研究因为没有明确的任务划分和评测方案,导致研究无法针对其中重要问题进行深入研究,并且各种研究的结果缺乏客观的评价。因此

33、,对个性化检索任务进行合理的划分并给出合理的评测方案,使得相似用户群的建立任务可以成为独立的研究,并且可以有机地融合到个性化检索任务中,是研究相似用户群的重要一步。2.1 个性化检索的任务划分个性化检索任务主要是挖掘单个和群体用户的兴趣,并利用用户兴趣对检索结果进行优化,使得检索结果更加符合用户的个性化需求。因此,个性化检索面临的主要问题是如何从用户的检索行为中发现并跟踪用户的兴趣,建立兴趣相似的用户群,以及利用挖掘的用户兴趣对检索结果进行优化。个性化检索的任务划分应该保证各任务之间具有相互独立性,并且各个任务解决的是个性化检索中最重要的问题,最终各个任务的有机组合可以构成一个初步的个性化检索

34、实用系统。基于以上的原则,本文将个性化检索划分为用户新兴趣发现、用户兴趣跟踪、相似用户群建立以及个性化检索四个子任务。下面就对四个子任务进行详细介绍。2.1.1 用户新兴趣发现用户使用搜索引擎时,会有比较明确的检索目的,而搜索过程实际是一个不断学习不断优化query,使其能够更好地描述自己的个性化需要,从而找到符合自己兴趣的结果的过程,这也是个性化检索所要解决的问题,也就是自动挖掘用户兴趣,从而自动返回符合用户兴趣的结果。例如,用户想观看一些关于计算机智能方面的电影,当他利用搜索引擎进行检索时,他的检索目的是计算机智能电影,如图2-1所示的检索过程。而由于刚开始不知道具体的电影名,他先输入了“

35、计算机智能电影”的检索关键词,然后,根据从结果中获得的信息,用户找到自己可能感兴趣的电影(例如“黑客帝国”),再输入精确的电影名以获得更加详细的关于电影的介绍等信息。在这个过程中,用户需要不断优化自己的query,从而最终搜索到自己想要的结果。但在用户不断优化query的过程中,他的检索对象一直没变,都是想检索关于计算机智能方面的电影。因此,前三个query的检索对象相同。之后,用户可能又想找到一家比较合适的电影院观看电影,也就是产生了一个新的检索兴趣,因此他又输入了“北京电影院”和“首都电影院票价”检索相关信息,这两个query属于相同的检索对象。图2-1 用户检索过程Figure 2-1

36、Process of users retrieving如果系统可以判断用户的检索对象,自动识别出用户新的检索兴趣的出现。则对每个query,可以找到与它检索对象相同的query,利用这些query中用户的行为判断用户对哪些信息感兴趣,哪些网页是用户真正需要的,这样就可以使得对用户隐式信息的利用更加准确。因此个性化检索任务中将用户新兴趣的发现作为一个独立任务,此任务的目的是对用户的query分析,发现用户新的检索需求,将检索对象相同的query划分为同一段落。此任务的入口数据是每个用户的query内容,系统返回的检索结果以及Snippet,用户查看的过的结果网页,对网页的浏览时间,用户对结果的翻

37、页信息。此任务的标准答案格式如图2-2。标准答案采用XML标签的形式,标签包围的是当前用户名,每个和标签中包含的是一个检索对象的信息,中内容是此检索对象的编号,中包含的是在此检索对象中用户输入的所有query内容。此标准答案由标注辅助系统生成,具体的产生方法见3.2节。用户新兴趣发现任务通过对给定入口数据进行处理,需要生成系统认为的query段落,然后通过系统判定的结果与标准答案进行对比可以对系统的性能进行评价,评价指标将采用话题检测与跟踪中的错检率和漏检率方法,具体的评测方法将和评测指标将在3.3节进行详细的介绍。 图2-2 用户新兴趣发现任务的标准答案图2-3用户兴趣跟踪任务的标准答案Fi

38、gure 2-2 Answer of new interest detectionFigure 2-3 Answer of users interest tracking2.1.2 用户兴趣跟踪由于用户经常会重复检索同一领域内的信息,而用户在同一领域内的兴趣相对较为固定,因此判定用户的哪些检索是在同一兴趣领域内对个性化检索也很重要。例如,如果用户较喜欢的运动是滑雪,那么在他平常的检索中就会经常检索关于滑雪方面的信息。如果系统可以将用户针对运动方面的检索关联起来,则可以建立用户在运动方面的兴趣模型。这样,当用户在后续再检索运动相关的信息时,系统就会根据用户在运动方面的兴趣模型对检索结果进行优化,

39、可以将结果中关于滑雪方面的网页位置提前,突出用户的个性化需要。由于用户新兴趣跟踪任务已经将相邻的query按照检索对象划分为query段落,因此用户兴趣跟踪任务主要目标是,找到所在领域相同的query段落。此任务在个性化检索中的作用是,可以为每个用户在不同兴趣领域内分别建立兴趣模型,从而更准确地挖掘和利用用户兴趣。同时,由于在不同领域内用户的相似用户也是不同的,因此在相似用户群的建立中,可以利用此任务划定兴趣领域,在每个兴趣领域分别建立兴趣相似的用户群。此任务的入口数据为每个用户的query,系统检索结果,用户查看的过的网页,浏览时间,翻页信息。同时第一个任务的标准答案,图2-2中按照检索对象

40、划分的用户query也是本任务的入口数据。本任务的标准答案如图2-3,记录的分别是每个query段落的相同领域的query段落编号。答案的标注以及评测方法将分别在3.2与3.3节介绍。2.1.3 相似用户群建立由于每个人都生活在一定的群体中,因此每个用户的兴趣也会与其它用户具有一定的相似性,兴趣相似的用户就会构成相似用户群。建立相似用户群对个性化检索和个性化推荐都有重要意义。例如,某个用户在音乐中比较感兴趣的是抒情歌曲,与他相同,也会有其他用户对抒情歌曲很感兴趣,这样在音乐的领域内这个群体的兴趣都是抒情歌曲。因此,因此这个群体的成员搜索歌曲相关的信息时,就可以将那首新出的抒情歌歌曲以及风格相似

41、的歌曲在检索结果中的位置提前,这样就可以根据群体的兴趣判定单个用户的兴趣。同时,如果新出一首较受欢迎的抒情歌曲,这个兴趣群体的一部分成员对这首歌曲的都比较感兴趣,那么就可以将这首歌曲推荐给这个群体中的其它成员。但是,由于在一个领域内的相似用户在其它领域内未必兴趣相似,因此相似用户群的建立应该是以领域为界限,在每个领域内分别建立相似用户群。例如,如果用户a在音乐方面的兴趣是抒情歌曲,而在体育方面兴趣是足球;用户b在音乐方面兴趣是抒情歌曲,但在体育方面兴趣是网球。这样a与b虽然在音乐方面兴趣相同,但在体育方面兴趣差别较大,因此需要在每个领域内分别建立相似用户群。相似用户群的建立任务,可以利用用户新

42、兴趣发现和用户兴趣跟踪的结果,将每个用户的query划分为query段落,之后通过第二个任务,找到用户间的兴趣领域相同的query段落,最后,在每个兴趣领域内分别计算用户之间的相似度,找到每个用户的相似用户,如图2-4所示。此任务的入口数据是图2-2与2-3中所示的用户新兴趣发现与兴趣跟踪的标准答案。系统需要在每个对应的query段落下对标注者找到相似用户。同时,用户之间的兴趣不具有传递性。例如a感兴趣的电影是“我是传奇”与“黑客帝国”,b的兴趣是“黑客帝国”与“阿甘正传”,c兴趣是“阿甘正传”与“肖申克的救赎”,用户a与b兴趣相似,b与c兴趣相似,但a与c兴趣不同。所以本任务中,系统需要在每

43、个query段落中找到每个标注者的相似用户,而不是对用户进行聚类。本任务的标准答案格式如图2-5,分别标出的是在每个query段落ID下每个用户的相似用户。图2-4 相似用户群任务Figure 2-4 Task of users clustering 图2-5 相似用户群标准答案图2-6 个性化检索标准答案Figure 2-5 Answer of users clustering Figure 2-6 Answer of PIR2.1.4 个性化检索最后一个任务是综合以上三个任务的结果,对用户的query给出个性化的检索结果。由于用户的每个query段落的目标都是相同的检索对象,因此本任务的语

44、料也以query段落作为一个完整的单位。对用户每个query的检索结果,系统分别记录其前20个结果以及用户查看过的结果,这样在一个query段落内的所有query记录的检索结果就构成了本段落的语料。系统需要在每个query中,对此段落内的语料网页进行重排序,返回符合用户个性化的检索结果,然后用系统的排序结果与用户标注的结果进行比较,从而评测系统性能。本任务的入口数据是图2-2、2-3与2-5中前三个任务的正确答案,标准答案格式如图2-6,包含的是query段落编号,包含的是用户在此段落内输入的query,包含的是记录的返回结果以及用户的正确性标注,1是相关,0是不相关。2.2 语料标注的辅助系

45、统为了收集用户检索时的各种行为信息,为相似用户群建立提供语料,我们开发了个性化检索语料标注辅助系统。本系统是在基于天网100G语料的普通检索系统上增加了记录用户隐式行为信息的模块,是标注者模拟用户的普通检索行为,同时记录下用户在检索过程过的各种隐式信息,供研究使用。最后,让标注者对曾浏览过的网页进行正确性标注,为各个子任务提供标准答案。2.2.1 系统介绍图2-7是用户登陆界面,新用户需要注册一个新用户,如图2-8。在注册时,用户需要显式提交自己的个人信息,包括性别、年龄、收入、职业和关注的领域等。注册完后,用户就可以登陆系统进行信息检索。 图2-7 用户登陆界面图2-8 用户注册界面Figu

46、re 2-7 Interface of user login Figure 2-8 Interface of user registration 图2-9 检索界面Figure 2-9 Interface of retrieve登陆后,标注者将进入检索界面,如图2-9。检索中,以检索问题为检索和标注的基本单位,标注者需要针对系统已经设定的问题检索其答案。图2-9的上方显示的是标注者当前需要检索的问题,标注者针对一个问题可以进行多次检索,直到检索到问题答案信息为止。当用户输入query后,系统将返回普通的检索结果。用户可以对结果进行查看、浏览等操作。用户对结果网页浏览时可以点击右侧的蓝色条框,可

47、以将结果网页翻开或关闭,如图2-11。此时,系统则会记录用户点击的结果网页、浏览时间以及用户的翻页信息。如果用户在结果中找到与检索问题相关的答案,则可以将答案信息填入下方的文本框中,并点击“保存答案”保存检索的答案信息。当用户针对此问题找到所有答案后,可以点击图2-10中的“提交object”提交此问题。此时系统自动进入此检索问题的标注图2-10 检索结果页面Figure 2-10 interface of retrieve results图2-11 浏览网页界面Figure 2-11 Interface of browsing pages界面,如图2-12。系统记录用户在此检索问题中输入的q

48、uery,以及每个query的前20个检索结果和用户查看过的结果,将这些网页返回,标注者根据每个网页是否与检索问题的答案相关进行正确性标注。当标注者对每个网页的正确性标注后,就可以点击提交进入下一个检索问题,如图2-13。图2-12 答案标注界面Figure 2-12 Interface of answer labeling图2-13 一个检索问题结束界面Figure 2-13 Interface of the end of a retrieving question2.2.2 正确答案记录在上述用户检索和标注过程中,系统对每个用户形成其个人的语料,同时可以记录个性化检索中四个子任务的标准答案

49、。用户新兴趣发现任务:用户针对每个检索问题会进行多次检索,当用户找到检索答案后,在图2-10中点击“提交object”时,系统会自动记录用户在此问题中输入的所有query,作为一个query段落,形成图2-2中所示的答案。用户兴趣跟踪任务:在制定检索问题时,已经记录在每个问题中需要挖掘用户哪方面的兴趣,根据这些兴趣,我们找到挖掘用户相同领域兴趣的检索问题,将其所代表的query段落关联,形成图2-3中所示的答案。相似用户群:在图2-10中,用户对每个检索问题都提交了答案,我们根据每个用户在每个检索问题中的答案,找到在每个检索问题中的相似用户,作为标准的相似用户,形成如图2-4所示的答案。个性化

50、检索:用户在图2-12中对每个检索结果都进行了个性化的标注,以这些标注结果作为个性化检索的标准答案。2.2.3 语料规模利用前面介绍的标注辅助系统,我们收集了9名同学的标注结果。其中每个人对100个检索问题进行检索和标注,平均每个人进行了230次检索,每个query段落的相关段落平均个数为4.5个,每个用户平均对5086个网页进行了正确性标注。2.3 相似用户群的评测相似用户群的评价指标将借鉴话题跟踪与检测(Topic Detection and Tracking, 简称TDT)中的评价指标,对系统性能进行评测。2.3.1 评测机制本任务借鉴TDT2003的评测方法32,通过错检率和漏检率对系

51、统性能进行评测。其计算公式如下: (2-1)其中A、B、C、D如表2-1所示,A为系统认为相关的用户且答案也是相关的个数。PFA、PMiss是系统错检率和漏检率,值越小则系统性能越好。表2-1 评测的参数Table 2-1 Parameters in evaluation系统判定相关系统判定不相关答案相关AB答案不相关CD之后,通过错检率和漏检率计算总的评价指标(CDet)Norm,公式如下: (2-2)其中,CMiss是系统进行一次漏检的代价、CFA是系统进行一次错检的代价,由于实际中,找到错误的相似用户和漏掉正确相似用户对后续模块的影响差不多,因此将CMiss和CFA都设为1;Ptarge

52、t是每个用户为相似用户的概率,Pnon-targe是无关用户的概率,针对语料中的答案,将Ptarget和Pnon-target分别设为0.394与0.606。(CDet)Norm是系统性能损耗代价,此值越小则系统性能越好。为了使系统性能得到更直观的体现,我们引入TDT的中的决策错误权衡曲线(Decision Error Tradeoff curve,简称DET曲线)评测系统性能,如图2-14所示。横坐标是错检率,纵坐标是漏检率,曲线越靠近图的左下角则性能越好,在图中还标出了最小性能损耗代价,此值越小则系统综合性能越好。图2-14 DET曲线样例Figure 2-14 Sample of DET

53、 curve2.3.2 评测方法通过2.2节介绍的标注辅助系统,可以对每个用户形成其个人的语料,系统在语料上运行,找出在每个对应的query段落中的每个用户的相似用户有哪些,然后与图2-4的答案进行对比,先计算每个query段落中每个用户的错检率和漏检率,然后平均得到每个query段落的错检率和漏检率,之后再对query段落进行平均,计算得到系统总的错检率、漏检率和(CDet)Norm值,画出DET曲线,对系统的性能进行总体评价。2.4 本章小结本章对个性化检索的任务划分和各子任务的研究目的、入口数据以及标准答案进行了介绍。然后,通过对语料标注系统的介绍详细,说明了如何收集语料和标准答案的过程

54、。最后,对相似用户群子任务的标准答案和评测方法进行了介绍。主要借鉴话题检测与跟踪中的评测方法和指标,通过错检率、漏检率、系统性能损耗代价以及DET曲线评测系统的性能。第3章 用户兴趣发现与跟踪根据第二章的介绍,相似用户群建立被划分为个性化检索的第三个独立子任务,使得可以开展相似用户群的独立研究。但同时,相似用户群的研究也必须基于前两个子任务的研究成果,即用户新兴趣发现和兴趣跟踪子任务。因此,在本章中,将先对用户的新兴趣发现和兴趣跟踪两个子任务进行初步的研究,利用较简单的方法实现baseline系统,为后续的相似用户群研究奠定一定的基础。3.1 用户新兴趣发现用户在实际搜索过程中,会有比较明确的

55、检索对象,而当用户的初始query无法搜索到所需信息时,他就会变换query搜索同一个检索对象,因此,用户的搜索过程实际是一个不断学习不断优化query以找到检索对象的过程。而如果可以判断用户哪些query是开始一个新的检索对象,即找到用户哪些query是关于同一检索对象,这样就可以从与当前query检索对象相同的query中挖掘哪些信息是用户需要的,哪些是无关信息,提高个性化检索效果。后续相似用户群建立也可以基于检索对象,对不同领域内的检索对象分别建立不同的相似用户群。用户新兴趣发现的任务是,通过对用户query及对应的行为进行分析,发现用户开始新兴趣检索的query,将用户输入的query

56、按照检索对象划分为不同的段落。3.1.1 基于向量空间模型的新兴趣发现方法文献33中提出了一个较基本的用户新兴趣发现的方法。其基本思想是检索结果建立query的模型,然后用VSM方法计算相邻query模型的相似度,如果相似度小于阈值则发现一个新兴趣的query。每个query模型的构建主要采用query内容以及系统对query返回的前50个检索结果的snippet构建。构建公式如下: (3-1)其中是query模型,采用向量空间模型存放。是query权重系数,决定query内容以及snippet在query模型中的比重。是当前query的内容,利用向量空间模型表示。k是采用的snippet的个

57、数,论文中将其设置为50。是第i个snippet的内容,也用向量空间表示。采用上述公式构建完每个query模型后,系统就对每两个相邻两query模型计算其相似度,相似度采用公式(1-2)的余弦相似度计算。如果两query模型x1和x2相似度小于预先设置的阈值,则认为x2对应的query为用户的新兴趣。依次进行,当对所有相邻query都处理完后,就找到了用户的所有新兴趣query,同时也将query按照检索对象是否相同划分成了的query段落。图3-1 baseline方法过程Figure 3-1 Process of baseline system此方法的实现过程如图3-1所示。其中横坐标是按

58、照用户检索顺序编号的query,纵坐标是query间相似度,图中的点是相邻query模型的相似度。小于阈值的相似度对应的query被判定为用户的新兴趣,如图中实心点所示。这样,每两个新兴趣之间的query就是检索对象相同的一个query段落。此方法的优点是思路简单,实现方便,并且有一定的效果。但是,由于此方法需要对相似度阈值进行训练,而在不同时期、不同用户之间的最佳阈值相差较大,导致难以用统一的阈值获得较好的效果。3.1.2 基于TextTiling的新兴趣发现方法加州伯克利分校曾提出TextTiling34方法对文章段落进行自动划分,本文将此方法应用到用户新兴趣发现任务中。此方法通过首先计算

59、相邻query之间的相似度,产生对应的相似度点,然后通过每个点相对左右点的下降坡度对其进行划分。计算所有点下降坡度的平均值作为动态阈值,如果某点下降坡度大于阈值,则说明其是用户兴趣的转移点,应将对应的query当作一个新兴趣。如图3-2所示。由于第三个和第四个query之间的相似度对应的点(图中的实心点),相比较左右点的下降坡度(0.9)大于平均下降坡度0.22,因此第四个query被认为是用户的新兴趣。图3-2 TextTiling方法过程Figure 3-2 Process of TextTiling algorithm计算每个点下降坡度的公式如下: (3-2)其中si-1,i是编号为i-

60、1与i的相邻两query之间的相似度,对应图3-2中的一个点。Slop(si-1,i)是此点相对左右点的下降坡度。分别是此点相对于左边点的下降值加上相对于右边点的下降值。点Si,i+1到点Si-1,i的下降值计算公式如下: (3-3)如果点Si,i+1的值大于Si-1,i的值则下降值为两者之差,否则为0。计算完所有点的下降坡度后,根据平均下降坡度确定新兴趣的阈值,计算公式如下: (3-4)其中第一项为所有点下降坡度的平均值,后一项是下降坡度的标准偏差。通过此计算公式可以看出,TextTiling阈值的选取是根据点的下降坡度动态计算的,因此不需要人工预先设置。计算完此阈值后,将所有点与此值进行比

61、较,某一点的下降坡度大于此阈值则将其对应的query判定为新兴趣。3.1.3 实验结果及分析用户新兴趣发现的评测方法采用2.3.1中介绍的评测机制,公式(2-2)的参数设置分别是Ptarget=0.466,Pnon-target=0.534,CMiss和CFA都为1。语料中总共有9名标注者的信息,其中每个标注者各自对100个检索问题进行了检索和标注。新兴趣发现的正确答案标注方法及格式已经在第二章进行了介绍。图3-3 新兴趣发现结果Figure 3-3 Results of the new interest detection task图3-3是在上述语料上的新兴趣发现的结果。其中黑色曲线是ba

62、seline的结果,每个点对应一个相似度阈值,用黑色叉号标出的是对应某个阈值的最小CDet值。红色点是TextTiling的结果值,由于TextTiling不需对阈值进行训练,因此其只有一个结果值,也既是其最好结果。曲线越靠近图的左下角则系统效果越好。从图中可以看出,TextTiling的效果比baseline提高了13.5%,说明TextTiling所采用的下降坡度比VSM的相似度可以更好的刻画用户兴趣的变化。同时,由于TextTiling不需要训练阈值,而会根据语料的情况自动计算和调整阈值,因此当转换语料时,对其效果影响不大,其可移植性更好。3.2 用户兴趣跟踪由于用户在不同领域兴趣不同,

63、其在检索时也会经常反复查询相同领域内的问题。因此,如果可以自动判断用户输入的哪些检索是针对相同领域的,就可以对用户的兴趣在不同领域分别建立模型,可以更好地挖掘和判断用户兴趣。同时,由于用户在不同领域的兴趣不同,因此在不同领域的相似用户群也是不一样的。因此,可以利用本任务的结果,在相似用户群的研究中在每个兴趣领域,分别建立不同的相似用户群,可以提高相思用户群建立的准确性。3.2.1 实验方法由于本任务只是相似用户群的一个前序任务而不是本论文的研究重点,因此在本任务中我们只是利用较简单的方法实现了baseline系统,而没有开展更加深入的研究。本任务基于VSM采用文献33的方法实现baseline系统。由于用户新兴趣发现已经划定了query段落,因此首先利用每个query段落中的query以及检索结果构建每个query段落的模型,构建方法如公式(3-1)所示。当构建完每个query段落的模型后,就利用公式(1-2)所示的余弦相似度计算每两个query段落模型之间相似度。最后将相似度与预先设定的相似度阈值

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!