个性化推荐服务中用户兴趣模型研究兴趣模型

上传人:微*** 文档编号:115639773 上传时间:2022-07-03 格式:DOCX 页数:6 大小:21.03KB
收藏 版权申诉 举报 下载
个性化推荐服务中用户兴趣模型研究兴趣模型_第1页
第1页 / 共6页
个性化推荐服务中用户兴趣模型研究兴趣模型_第2页
第2页 / 共6页
个性化推荐服务中用户兴趣模型研究兴趣模型_第3页
第3页 / 共6页
资源描述:

《个性化推荐服务中用户兴趣模型研究兴趣模型》由会员分享,可在线阅读,更多相关《个性化推荐服务中用户兴趣模型研究兴趣模型(6页珍藏版)》请在装配图网上搜索。

1、个性化推荐服务中用户兴趣模型研究兴趣模型人们正在寻求一种将用户感兴趣的信息主动推荐给用户, 对不同的用户提供不同的服务策略和服务内容的服务模式, 即个性化服务的信息方式。用户兴趣模型是个性化服务系统的关键部分, 用户兴趣描述的准确与否直接决定着个性化推荐服务的质量好坏。 本文提出了一种利用用户浏览页面集的内容信息和浏览行为信息, 隐式地创建用户兴趣描述文件的方法。该方法以用户浏览 Web 页面的内容信息和行为信息作为数据源,采用 Web 挖掘方法分析得到较准确的用户兴趣描述,减少了由于用户参与而带来的系统噪声,保证了所创建的用户兴趣模型的准确性。1 基于 web 浏览内容和行为分析相结合的用户

2、兴趣模型整个用户兴趣模型的创建过程包括Web 浏览内容分析和Web 浏览行为分析两部分,流程图如图 1 所示。图 1 用户兴趣模型创建流程图Web 浏览内容分析,就是采用 Web 聚类分析方法对用户已浏览的 Web 页面集进行内容聚类,得到用户感兴趣的页面集;Web 浏览行为分析是对用户浏览页面时的行为信息进行分析,得到用户对单一页面的兴趣浓度。 将二者相结合, 就得到了用户感兴趣的主题类别及对每类主题的兴趣度, 即用兴趣分类树表示的用户兴趣模型 .2 基于 web 浏览内容的用户兴趣分析本文中用户兴趣模型描述所基于的 web 浏览内容是指用户浏览页面的内容信息, 它被用于基于内容的聚类分析。

3、 这些页面的内容信息主要来源于 web 服务器端,首先根据用户的浏览日志记录, 得到单一用户的浏览历史页面URL, 然后从数据库服务器中取出这些URL对应的web页面,作为对浏览内容兴趣描述的数据源。2.1 对浏览网页信息的数据预处理与数据库中的结构化数据相比, web 文档具有有限的结构,即使具有一些结构,也是着重于格式而非文档内容。此外,文档的内容是人类所使用的自然语言, 计算机很难处理其语义。 Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。 这就需要对文本进行预处理, 抽取代表其特征的元数据,作为文档的中间表示形式。近年来应用较多且效果较好的特征表示法是向量空间模

4、型(VectorSpaceModelVSM) 法。 在 VSM 中, 将文本文档看成由一组词条构成, 对于每一词条, 根据其在文章中的重要程度赋予一定的权重。 因此, 所有用于挖掘的页面文档都可以用词条特征矢量表示。 要将文本表示为向量空间中的一个向量, 就先要将文本分词, 由这些特征词作为向量的维数来表示文本, 最初的向量表示完全是0、 l 形式, 即, 如果文本中出现了该词, 那么文本向量的该维为 l, 否则为 0 。 这类方法无法体现这个词在文本中的作用程度, 所以 0 、 l 逐渐被更精确的词频代替, 词频分为绝对词频和相对词频。绝对词频,即使用词在文本中的出现频率表示文本;相对词频为

5、规一化的词频,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,我们可采用一种比较普遍的 TF-lDF 公式:我们把用于挖掘的页面文档作为一个文档集合。 这样对于文档集合 D= 中的任一文档,采用向量空间模型表示为: =其中 m为文档特征向量的个数,为文档的第 i 个特征向量,为文档中的权值。2.2 页面相似度函数采用向量空间模型表示的数据, 必须选择计算两个特征矢量之间相似性的相似度函数。 现在常用的方法有欧几里德距离、 曼哈坦距离和夹角余弦函数。 我们在这里采用夹角余弦函数。 但是在计算时可能会遇到用于比较的两个特征矢量长度不一样, 我们可以采用添零补齐的方法使两者

6、长度一致。夹角余弦函数如下:其中,C (X, Y)表示页面X与Y的相似度,与表示 X与Y对应的特征词的权值。 页面 X 与 Y 值越相似, C(X, Y) 值越大;反之则越小。3 基于浏览行为的用户兴趣分析研究表明,用户很多浏览行为都能很好地反映用户的兴趣。文献指出用户的很多动作都能暗示用户的喜好, 如查询、 浏览页面和文章、 标记书签、 反馈信息、 点击鼠标、 拖动滚动条、 前进、后退等。文献的研究指出用户访问时的停留时问、访问次数、保存、编辑、修改等动作能够揭示用户兴趣。这些行为究竟怎样反映用户的兴趣,我们需要对其进行量化估算。3.1 浏览行为的分类从表面上看能揭示用户对网页 P兴趣度d

7、(P)的浏览行为很多, 但我们分析发现, 起关键作用的是页 P 上的浏览时间 (t P)(简称T行为)和翻页/拉动滚动条的次数v ( P)(简称V行为)。原因有三: 1)查询、编辑、修改等行为必定增加网页浏览时间和翻页次数,因此能够通过后者间接的得到反映。2)执行了保存、标记书签等动作的页面,若真为用户关心,通常以后会被多次调出来重新浏览,故可体现为访问次数。 3 )点击鼠标动作不被考虑,因为简单动作不能有效揭示用户兴趣。3.2 浏览行为参数的计算为了找到 T, V 与网页兴趣度的定量关系, 通过分析和实验,决定采用一元线性回归方法作为网页兴趣建模分析的工具。 线性回归分析方法是在分析研究对象变化趋势的基础上建立函数模型,从而研究对象之间存在的相互依存关系。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!