开源智能软件平台XPress项目汇报

上传人:沈*** 文档编号:174369306 上传时间:2022-12-15 格式:PPT 页数:20 大小:290.52KB
收藏 版权申诉 举报 下载
开源智能软件平台XPress项目汇报_第1页
第1页 / 共20页
开源智能软件平台XPress项目汇报_第2页
第2页 / 共20页
开源智能软件平台XPress项目汇报_第3页
第3页 / 共20页
资源描述:

《开源智能软件平台XPress项目汇报》由会员分享,可在线阅读,更多相关《开源智能软件平台XPress项目汇报(20页珍藏版)》请在装配图网上搜索。

1、开源智能软件平台XPress 项目汇报谢欣2003年12月31日开源智能-XPress2目录n项目概述n系统n匹配算法n展望开源智能-XPress3项目概述n名称:“开源智能软件平台”,Xpressn功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。n特点:自动开源智能-XPress4n商业经理:刘菲菲,软工n开发经理:谌贻容,语言所n档案经理:石武光,语言所n项目组长:谢 欣,网络项目概述:团队成员开源智能-XPress5项目概述:商业计划回顾n本项目以宽带网络服务提供商为服务对象n协助其以低廉的价格对现有下载服务进

2、行大规模扩充,快速提高其商业竞争力为目标。n2003年10月23日录音回放:开源智能-XPress6系统介绍n实际使用nhttp:/xpress.3322.org:7001/XPress开源智能-XPress7系统结构图Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口开源智能-XPress8系统重点一:web信息提取n信息提取简介q基于模板(我们的选择)q基于Ontologyq基于规则q基于语法开源智能-XPress9系统重点二:FTP搜索n利用天网文件搜索的技术n爬虫n多线程并行抓取n每个站点一个线程开源智能-XPress10系统重点三:匹配算法n对每个FTP文件匹配所有的软件资源

3、,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功n不是百分之百正确n为什么不用MD5q在现实实施中不可能q文件大小往往不同q增加匹配成功度:语言版本,版本号n算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件q在名称上具有一定的相似度q文件大小相差不大Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口开源智能-XPress11匹配算法一:石氏(石午光)算法n名称文件大小,各占一定百分比n文件大小q二者大小之差的百分比反比于比较结果n名称q假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容q实际做法:前几个字符所占比重较大,越在后面的

4、字符所占比重越小开源智能-XPress12匹配算法二:刘氏(刘菲菲)算法n前提假设:很多软件同时有中英文名n特点:中英文分别匹配,最大子串n步骤1.过滤掉文件大小之差大于阀值的匹配2.然后进行名称文件大小的匹配3.对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串4.若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重5.比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值开源智能-XPress13匹配结果从从web页面得到的文件名页面得到的文件名从从FTP得到的文件名得到的文件名从从web得得到的文件到的文件大小大小从从FTP得得到的

5、文件到的文件大小大小 cuteftp 5.0.1.0 汉化修正版cuteftp5.0.1.rar17305601729565 二十五史全文检索阅读系统(完整版)3.0二十五史全文检索阅读系统 v3.0-25sBook30.exe1031065610311417 winrar 3.20 简体中文版 WINRAR320CN.exe974848988031 picturetotv 1.4.4 汉化补丁HB_PictureToTV_szl.exe12318721232567 腾讯qq 2003 木子版 1.1QQ2003 Preview4 木子版 1.0.exe65075206507728 腾讯qq自

6、动发消息专杀工具qqav 3.3qqav311021.zip486400488208 腾讯qq自动发消息专杀工具qqav 3.3qqav.exe486400516608 金山巨无霸(sobig)专杀工具 2003.8.20.11Duba_Sobig.exe4505644032 internet设置工具-ieprosetup 1.2.2 简体版IEProSetup1.1.zip272384257926 qq狙击手ipsniper 3.2IpSniper.zip12206081215545 天网 maze 网络文件系统 1.02 betaMaze-1.02-win.exe2869248286960

7、5开源智能-XPress14实际测试n实际查询nhttp:/xpress.3322.org:7001/XPressqLeapftpq网络蚂蚁qMazeq友情强档开源智能-XPress15展望:质n提高匹配的准确程度n不同的单词应该有不同的权重,比如:q“photoshop”之类的词权重应比较高(区分性较强)q“windows”,“system”之类的权重应比较低q“中文版”,“build”之类的权重应非常低n不手工建立词典,采用分布均匀性公式开源智能-XPress16展望:质(续)n对每一个可能的词进行计算n北大计算语言所张化瑞的计算公式n计算词频的分布均匀性(Distributed Cons

8、istency,DC)n分布均匀度越高,该词的权重越低221nFFFresnnFFFEn21)10(DCEresDC开源智能-XPress17展望:量n增加从web上进行信息提取的来源数量n自动发现软件站点q利用我们的软件信息库和现有的搜索引擎n自动提取此类网站的模板q提取出网站中大量相似页面中的不同内容n自动更新软件信息q基本于软件网站同步更新开源智能-XPress18各位员工好,这是我们开源智能跨国公司这个月的财政收入ft!我怎么只有180万!哇,钱不少嘛,不过其实我不爱钱可是钱爱我商业展望:2008年7月开源智能跨国公司的一次月度财政会议谢谢观赏开源智能-XPress20Ontology

9、nA computational entity,a resource containing knowledge about what“concepts”exist in the world and how they relate to one anothernComponentsqConceptsnDomain dependentqContext freeqContext sensitivenDomain independentqContext freeqContext sensitiveqRelationship(relational schema between the concepts)

10、qConstraintsCar-object;Car 0:1 has Make 1:*;Make matches 10 constant extract baudib;end;Car 0:1 has Model 1:*;Model matches 25 constant extract 80;context baudiS*s*80b;end;Car 0:1 has Mileage 1:*;Mileage matches 8 constant extract b1-9d0,2k;substitute kK-000;end;Car 0:1 has Price 1:*;Price matches 8 constant extract 1-9d3,6;context$1-9d3,6;end;

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!