档案管理中的分类技术应用的分析

上传人:奇异 文档编号:58160353 上传时间:2022-02-26 格式:DOCX 页数:8 大小:37.94KB
收藏 版权申诉 举报 下载
档案管理中的分类技术应用的分析_第1页
第1页 / 共8页
档案管理中的分类技术应用的分析_第2页
第2页 / 共8页
档案管理中的分类技术应用的分析_第3页
第3页 / 共8页
资源描述:

《档案管理中的分类技术应用的分析》由会员分享,可在线阅读,更多相关《档案管理中的分类技术应用的分析(8页珍藏版)》请在装配图网上搜索。

1、档;里中外a档分类必用的分析一、档案管理中的文1档分类技术应用方法1文档分类或者称之为自动地指派语息上的类别予以由自然语、J所构成的文档是目刖常用来管理档案信息的一种方法0归纳式的文档分类希望从一些事先标止的文档集里推导出一个分类的准则此后可以正确地应用此分类准则来对未知的新文档做分类0一是一元(Binary)设止法0一元设止法是最简单也是学习型问题(Learnir】gProblem)里最重要的设止公式0其它复杂的设止法都可以通过一止的简化步骤退化为一元设止法的公式0在一元设止法里只存在两种类别标签0例如在档案信息检索(Informa:ionRetri(eval)的应用问题里此两种类别标签可以

2、被标止为相关或者是不相关这两大类0同样的在电子档案的分类应用里可以将接收的电子档案区隔为垃圾文档与非垃圾文档这两大类0这代表类别标签的值只能有两种可能的值为了符号止义的方便这两种可能的值设止为-1与10一是多类别(Multi-Class问题牵涉两类以上的分档派送代理程序它负到的电子文档转发给十表类别标签可以是十个同的值0二是多标签(Multi-Labe档分类的问题落在该设止法不同之处在于类别对一的对应关系0相反落在多个、唯一一个内0例如当档案的情每一个语息上的主题都签所以一篇新进的新足球和巴西这这类的设止法可以用一代表众多的类别标签0单维度的二元向量的方产出的结果也必须是单)设止法0有些分类的

3、类法0例如一个电子文责判断是否将所有接收位中层管理人员0这代(更广义的说法为l)设止法0绝大多数文止法内0它和多类别设标签和文档之问不是一地每一个文档都可以甚至是令个的类别之境为分类新闻报导时可以成为某一类别的标闻报导可以同时落在两个不同的类别之内0个多维度的二元向量来因为类别标签已经使用式来表示分类规则所维度的二元向量0二、档案管理中的文档在处理自然语的问题络(Context)会影响一段的一个单词在不同的义0在文档分类的问题来表达文字根据不同不会辨别这些不同的相、J根据文档分析层级种不同的表达法:次词(W(ord)层级多词(Semantic)层级0在每构成组件(BuidingBloc;k)(

4、IndexTe订m)。一是字词(Word)层级单词是很好的表达单位模棱两可性0尽管存在设其对整体文档的代表实上字词层级的表达检索与文档分类的领域为基础的表达方式的优分类应用词汇时文档内的上下1文脉文字表达的息义同样句子里可以有不同的息里会采用不同的方法的需求可能会也可能依性和息义0一股而的深度总共有下列四(sUb-Word)层级字词Mullti-W(ord)层级语息一个层级里最基本的称之为索引字0在很多的情况之下同时单词具备很低的所谓的多义词但也假性的冲击是很小的0事方式已经被证实在信息里是很有效的0以单词占八、为简单和直觉0不考虑逻辑上的结构使用单词当成是索引字的最小单位可以把一份文档转化成

5、一连用单词的组合0同时我们假设单词出现的顺序在文档分类的任务中是无关紧要的0一是次词(Sub-Word)层级0该层级不使用单词当成是索引字一个由n个字母所构成的字用被视为基础的构成组件这种表示法可以建立相似性的模型如c;oml)uter和computers”是不同的单词0使用这种表示法的优占八、是系统可以处理拼字错1口允许使用者输入错1口的单词经由系统比对自动找到类似的单词0二是多词(Multi-W(ord)层级0借助语言学上的工具的辅助大县里的文档可以基于句法(Syntactic)上的结构做深入的分析0在这一个层级里索引字通常是参考句法结构的信息所产生的0最常被使用的句法结构之一是名词片语0这种方式通称为句法片语索引(SyritacticPhraseIndejxing)。四是语息(Semantic)层级0到目刖为此现今既有的信息科技与技术尚未能做到自动化的摘取一份文档的内容所代达成可以用以作为数学些角度而有研究指一些周止字汇的索引语语息0网络上的Yahoo!例子0Yahoo!使用阶层整体的分类结构接着到一至多个的分类类别1表的占兀整语息并且表运算的形式0但是就某称可以使用分类学以及来取文档所代表的分类架构就是其中一个式的分类树用以组成以人工的方式将网页分里0

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!