余弦相似性算法

上传人:suij****uang 文档编号:121923910 上传时间:2022-07-19 格式:DOCX 页数:2 大小:34.09KB
收藏 版权申诉 举报 下载
余弦相似性算法_第1页
第1页 / 共2页
余弦相似性算法_第2页
第2页 / 共2页
资源描述:

《余弦相似性算法》由会员分享,可在线阅读,更多相关《余弦相似性算法(2页珍藏版)》请在装配图网上搜索。

1、1.1 余弦相似性算法 这个算法的数学基础非常典型,用到了夹角的余弦定理,如图3.2 夹角余弦 相似度示意图所示,就是常见的余弦定理的算法应用,这个算法就是通过计算两 个向量的夹角余弦值来评估文本的相似度,从本质上分析就是利用余弦函数的方 法。由此可以看到算法的基本原理,余弦函数是三角函数的一种,在RtAABC(直角三角形)中,Z C=90,角A的余弦是它的邻边比三角形的斜边,即cosA=b/c,也可写为cosA=AC/AB,余弦函数:f (x) =cosx (xR),这样就可以通过计算两个向量的夹角余弦值来评估他们的相似度。余弦值越接近1,就表明夹角越接近0 度,也就是两个向量越相似,这就叫

2、“余弦相似性”。通过前文的分析,两个文本的相似度就是指各自的特征向量的吻合程度,这样通过计算特征向量的余弦值,就可以通过余弦相似性算法计算出的值代表两个词语大概相似如图3.2所示的立体空间中向量T,T,其相似度可以通过T,T向量对应的夹1 2 1 2角来度量。通过数学知识可以知道,当T,T之间的余弦值为1时,相似度达到12最大值1,向量之间的方向非常吻合,可能的相似程度越高;当T,T之间的余12弦值为 0时,相似度达到最小值0,向量之间的方向越不吻合,可能的相似程度图 3.2 夹角余弦相似度示意这样就可以把余弦相似度计算公式统一为:T * Tcos(T, T ) =121 2.-T 2 + T 21 23-3)其中,T , T为维度相同的两个向量。这个算法直接可以用于机器学习,把 12文本表示为向量即可运算,这时出现的典型现象就是文本表示的向量集合维数会 达到数千维,并且是高维稀疏向量集合。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!