全文检索系统整体方案设计

上传人:lis****210 文档编号:172590902 上传时间:2022-12-05 格式:DOCX 页数:25 大小:585.17KB
收藏 版权申诉 举报 下载
全文检索系统整体方案设计_第1页
第1页 / 共25页
全文检索系统整体方案设计_第2页
第2页 / 共25页
全文检索系统整体方案设计_第3页
第3页 / 共25页
资源描述:

《全文检索系统整体方案设计》由会员分享,可在线阅读,更多相关《全文检索系统整体方案设计(25页珍藏版)》请在装配图网上搜索。

1、1全文检索系统方案1.1全文检索需求1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;2)支持字索引和词索引;3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查询优先级的设置;4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询结果集;5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实现关键字检索;6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接

2、口以支持特殊文档格式的全文检索;7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;8)用户可自行设定时间,让系统自动定时进行更新索引;9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得超过10秒;10)提供跨数据源、数据格式的搜索;11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索;13)提供COM与SOAP的搜索接口(Interface)可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏

3、览器中查看检索结果;14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的内容片断;15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;1.2全文检索系统总体方案系统将采用以下全文检索流程。Folder/ShareFolderwithDocumentsFuzzySearchSynonymPhraseWild-

4、CardMulti-fieldFilterIRMSTermExtractTermIndexWebSiteRobot/SpiderByURLEntryIRMS.SearchEngineIRMS.IndexerAdapterDataSourceComposerFileExtractorIndexDatabaseAapH林o(lUsrmterffcc)RDBMS(ODBC/OLEDB/JDBC)LotusDominoR5,R6(NSF)FileNET内容管理针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本

5、系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建

6、索引,更新索引数据库的内容,使检索信息维持在最新状态。1.3全文检索系统带来的效益高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及时地掌握企业内外所有信息,不必再耗费大量时间的找寻信息!/信息过量不会造成企业成员的信息焦虑!通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用者条件的信息,不必担心迷失在漫漫的信息洪流之中!/非结构/非组织的信息,不再是知识管理的盲点!文件/档

7、案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联,使这类信息同样可让使用者以检索方式,快速筛选利用!/整合容易,使用简易,导入迅速,易于接受!套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操作方式简单,企业成员易于接受,导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。1.4全文检索系统平台架构本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:AuthorityImport/Export整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。/信息整合此部分主要

8、作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取,形成一个相对结构化的数据虚拟层,以备后期信息萃取和服务。信息萃取和服务在信息整合层形成的相对结构化的数据虚拟层基础上,本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。应用整合本系统还提供了完整的外部程序整合机制。所有组件均提

9、供SDK完整开发接口,方便应用整合和应用扩展。1.4.1信息整合此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。根据用户实际需求,用户可以选择导入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、简体中文等;同时用户可以选择导入数据库数据,如Oracle.Informix、Sybase、MSSQL等。此外和Notes系统也已经有了无缝整合,可挂载NotesCompos

10、er对nsf库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入索引库。本系统提供可挂载的数据适配器(DataAdapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。以e-mail含附件为例,e-mailAdapter可解析e-mail内文,而当选购officeAdapter后,原来的e-mailAdapter即可解析office相关的附件文件,可视需求额外购买PDF、ZIP、RAR、OCR等不同数据适配器,即可交互搭配使用。搭配使用本系统的TXT

11、、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta资料提取器,将可解析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附档(如影片的文件名或摘要、图片的文件名或摘要、及文字)等格式,包括繁体中文、简体中文、英文、Unicode等;使用数据库数据适配器,将可支持数据库数据汇入处理如Oracle、Informix、Sybase、MSSQL等。142信息萃取和服务此部分须提供对数据提取的内容所包含的信息,进行数据处理分析,包含: 分类模式建立自动分类功能。 针对非结构性数据建立词库,词库须

12、包含同音词库、同义词库、专业词库。自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。 可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。应用本系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者需求。同时,用户利用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的

13、信息。143应用整合Customization完整外部程序整合机制一所有组件均提供SDK完整开发接口,方便外部整合。另外大量提供XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。1.5全文检索系统功能特点素引库L5TT佥叩其在苴向字有串中使月主帽近券有号步.典X七用|表示口凡&表AND,!表示1TOT,坪?英文万用宁符查遂吉枣设定:、有TI显示站异数:卤1。L刘广K广乂择序,|请芝择疗项.m面3将殊功能设定=r英史词型伺性受拱厂中玄同百r中英文容铅r中英艾同又玄L似r中史瞥鄢寸评1.5.1基本检索功能支持全选侄不选废阶查询*3I-分季交件区iTLc)北卷;0仍)融同鼓括片(DE厂邦

14、识管理日拦)|担交|重设查询犬美词:支持跨数据源索引与整合搜索。将分散在FileServer上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索;/支持万用字符(*、?)查询。使用者可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、Chinese】等等。输入关键词【Chin?】,会找到【China】;/搜寻条件具有完整的布尔逻辑运算AND、OR、NOT

15、能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件;/内建智能型快速响应模式(Smartcache)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;/支持/多字段/多条件检索,提高搜索精确度;单一字段内,支持AND/OR/NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;查御大槌布1;提交重设文件属性,忸可以卉吉由字符串中归平谡哉胃笆点号及英工

16、丁用二芹:|表录0凡&表示?m门表录MOT,忸英文万用字符,-索引库:全选陛不选r主题直旬苹.名:类擀大颁件者祐件卷件标文作编文最文厂分岂事件区山旺厂若凡(由沌靳怀薮慰片(LE)4知诅言溶Sitr.pliiec(GE2?1j)二mill-nulZw/iqJJJ2?3MB查询皓羊比定:每页显示结果淼:ior20r30广凸一广一排序;清遥封E序项.,|陲序-1特殊功能设定:厂英文词型词性变换厂中文同音r中英文容错|1丁英义同叉疏近似厂中玄咬肯村译1.5.2词索引与查询功能系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索

17、引。具体功能如下: 中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析与断词,并建立词索引;词索引功能通过开关灵活设置;检索字串首先通过自动断词,将其断词结果进行组合检索;提供词库编辑器,针对断词用的词库进行维护和调整;使中文切分词更符合使用者的行业特点,提高查询的速度和准确度。该功能优势如下:提高精确度:输入民法不会找到人民法院;更小的索引空间:-通过词索引的方式,索引数据库相对字索引需要更少的磁盘空间;同样数据量下,检索时需要的Memory更少;检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高出3倍以上;153多国语系数据索引与查询 系统基于Unicode设计。 可支

18、持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合的文件的建置与查询。 可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。|的瞰手哥当I*刑I典It蔑EW1番21云1用机ffftwc日ggqk7a:U旧丑氏茬1臼巴日艮宣虱件牝主廊里日日纣iTKoreanJapaneseSimplifiedChineseTraditionalChineseI.旱毕巳ti吕三lflWHE讦出口t!a旦晚L础的详=盼HMCHMIEJ3015;*OHI曰卫WEhM3?E?SOISWSID

19、iSIiOIU2=,ril+QiS3t!毋春中*,用甘晓!且家日41叫口酊春号巳W日DlEQiS24纹巨叫莒牛IOIS早云口叫世H&HI口M日区W童耳顷35!第日W2=早州MM?9lBUH惑牛己lyH拆3-HJ些0IIHI际快.件成fimsasMiMwi宜a淄Ufflu购金晦汪利*MW3fefiLfiMigl习云建电蛀虹)酬rmoytL阻汨IBBLI%:.?jmyjif*SBll-tT?n.-J-:3?7?rJ;曜:?:.冲H王旧-岫独晾E曰叫零制三Eis十丈,印吧晦嗥廿工5L渭E1-I?rai;r-.j4Wfi0.Lif出H-4手-yg丈bF%打争上下电I-rtBF-X:十警i牝占-畦堂:由

20、;ft&则Il-fiif#.、曰MI加二妇刀.主上:h:E#-3-医定由、招手*邙一.L&11=册孔-rti二声*1索巫BW巽IWL走HHlJ2Q0阳利11瓯阳1柬眼皿富的既朋aEkrwjLmamiv:ama-aipjjji:ampipJdiiiixwiupii-i-H申障运氏昂后一个I.号的中国-L表团己学开始T二丧肉Jitm.14枷ainnizm冲活更盖好”的陈述.在当地时间也却时我京时间1。:30巧中国代表团开始谢f长度绚为引分钟-I川1,乍二_,山|的部宜.中曰T2-七太团们友M古便疔、为,中曰吐杪国士住吴建明,医务院习.三矛甲应宿,国务姿三美惧,上程市币斐书记,而长际M亍”1=1.曰

21、期作茬:为小:2.旬汗世博会诜让一百年,未江南“直变身仲国申博)五洋平F,中国目司成才沔息氐七丸、.叫)日一,地处浦E?岸的“中匡近代慰一一”已有M三l;M田丈茧江南危器演司、订大-前锣鼓拒天,三司员工共愈攻中博成灭.恨瑁m-中国反打世惟冬戊功后,江百造船1,一坦处籽志讨世博园坦一弟分。百临搬迁命运,如司员工界命哀正在二匚年B博会向也界推示i奇莎件一海打3时,也&要驾R向止乔居K-个现代化的富于核心竞争力的新江南“在今日的公司炭祝申博成功大会上,公司董事长陈冷在表示,芹消江怀岸共日玫庄的峰,以门在1W左若一百三十】年日守的中国宵一1的;、门,日期.住者:太小:/以Web网页形式呈现查询结果,使

22、用者可指定所欲察看的特定笔数或分页浏览。支持二次搜索功能。/提供属性字段权重排序机制,管理者可自订查询结果的排序规则,让搜寻结果按搜索者的意图显示。/提供树形分类目录,提供查询结果分类,可以让使用者进一步选取下一层目录,以缩小查询范围。/具有标示原文关键词功能,可以直接将原文中有关使用者输入得关键词全数标示出来,同时系统管理者可以自行设定关键词标示的颜色、大小、字型.等属性。docKcy:F_TTLE2:4中国申博代表团开始进行陈述“我市”为主题隅)Tr;:lF_PEESS:中国新闻社Tr;:lFA.UTHOJTi-:i匚新叫P月41旧国环展也局竿卷火山会=|前仍在摩梢肯募特T密担格林巨.旦二

23、议宫皮埃卵e子厅进行申博陈述.最后-个上场的中国代表团已统开始r主题为“城市,让生活更美好的陈述.在当地时间北时(北京时间19:义时伸国代表团开始进行长度约为或分钾的陈述中国申博代分团的发言者依次为;中国驻法国大住天建研,国务院寻总理季阳楮.国屏委g七上海市宙妾书i己.市长陈住宇中M_L坷的纸述主题ThW.止生何更与L这M隹溥会所止_LT次出现/城市”主题,也是全世界都在翅切关注的话题。中国申博代表团认为,随昔发展速度越犬越讨,日趋工重叫城市庶正五父着士畀的,、们,为了弓起火伫灵来城市.度展衬招神思乳申国芭择了一个至引起广还共呜的主题.削立一个交流的机会,激起对诸如如何治理城市弊病.如何削立更

24、多的就业机会,如何改善城市三沽页量等IF苞度升泛深入区时让:耳成桂厂城市苴展豹先进理念,如注寿堇城市,可井薮减*数字化专北展示现代城市乂明在城市以划r/查询结果可同时显示文件抬头及重要摘要段落或者仅仅显示文件抬头以加快使用者的查询速度。/开发搜索接口,用户可根据开发的SDK自己开发特定形式和显示风格的搜索结果页面。158自然语言应用组件利用自然语言的形似相关词功能,可对数据撷取内容进行新词学习,语意分析等,可自动建立新词,提升数据处理准确度。基于自然语言应用组件,可实现相关文章查询功能、重复文章查询功能、自动摘要功能、语意查询功能、形似相关词建议功能等。从而能够通过关联组织的方式,把不同档案库

25、中的相似、相关内容一次性的搜索出来。/相关文件查询Key:214DB-News中国申博代表团开始进行陈述“城市”为主题(图冲国新闻社中新网12月3日电国际展览局第1癸次大会目前仍在摩洛哥蒙特卡洛的格林马迪会议宫皮埃尔王子厅进行申博陈述城市,让生活更美好.这是世博会历史上第一次出现“城市”主题,创造一个交流的机会,激起对诸如如何治理城市弊病、如何创立更多的就业机会.如何改善城市生活质量等问题展开广泛深入的讨论。.并展示现代城市文明在城市规划与管理、科学、技术-文化和生活方式等方面的成果.场弛所在及周边区域集中反映了几百年来上海城市发展的历程.在景观上互相协调。世博会各场馆的布局将充分考虑到参观者

26、到达的便利性,.在这条象征人类前进脚步的神奇桥梁上,.DB:Files|News|Tornado|KMShareTotal:36KelevanceIIIIIIIIIIIIIIIIIIIII57-73%IIIIIIIIIIIIIIIIIIIII53.76%IIIIIIIIIIIIIIIIIIIII46.39%IIIIIIIIIIIIIIIIIIIIH0.10%IIIIIIIIIIIIIIIIIIIII39-72%IIIIIIIIIIIIIIIIIIIII3S-30%李舞清陈良宇吴仪为中国申亦世博会的陈述文申办世界博览会成功后上海人最关注十个问题4.快讯:中国高官作出庄严承诺为世博选票最后一搏快讯

27、:上海获得2010年世博会主办权5快讯:中国高官庄严承诺世博主亦极志在必得&沪世博会选址一百年老江南“欲变身文章自动摘要Key14DB-News氏hEtmcTinii:中国申嗔W表团升始成行敏色“城布”为三题国件国卧闻吐申新日电习际展度局第色次大仕=1就巧汗军密哥蒙标K洛物格林马i由会议.宫皮质布干多斤*外行中博陈怵,城再.廿牛钙中羔旺圣是七节含万丑上宾一氏出现城力主题,.顷鱼一个立流制几刍,融扫对诂灯如何治坯城市也病、如何刘立更多由就史:玖会、如何改善城而生浩质量等巨题展开厂凭深入的胃论.并反示平E市文明在掠市垠戈ilW管I乳科三、技末、玄化,牛挡方式等方面的成果,场杜所齐及厝的区域集申烹映

28、了匚日年来上海城力发展的刀程。.上亲.叽上丘相协调一世博片杳场馆的布局将充分考虑刃参猊者幻这的便.利在,.在这条家征人史前遂卸步的神奇桥梁上,.Percentage:恒Sentencesize:|渔uttlrlCharactersize:|口痕1r中者:才卜:工霍1第五章中小企篥市埸行现况(3)(研充,登)困佑育或中心曲功能具多益化性遂,团F削棠垢音兰外,推挝EJ登削新也是夸成横制由担亘要王一拿,焉酊台敏脖欲此中小主巢谁有屋柴长讨强建品刖新砂无的以弟目嵯,咨苜我中心和士悟助动打哉t葡典中小企至明莹新W帝推励志cSBIRuIJISS,四干尚例,苛成中心瑞由葬者审融飞成上寻寺W猿祎助明君共在的牛,

29、射中,1、正拿出朗洛者的摧F看S目的助益.m期:20C905?r中者:b:9990;1.5.10高效数据同步功能(增量索引)以前的全文搜索引擎在面对大资料量建立索引时,都会限制数据量的多少,而解决这个问题通常都是将资料量分为几个部分分开建索引。但是这种方法并无法彻底解决资料同步更新或检索的需求。本系统提供渐进式索引技术,也就是通过增量索引机制可以逐步地分别为数据库建立索引,对于异动的数据或索引,进行实时的更新。1.5.11高可用性网络存储设备本全文检索服务可以通过Layer4Switch硬件进行搜寻的负载均衡,提高服务效能。若某台主机因不明原因无法对外服务,则可实时以另一台主机对外进行正常服务

30、。索引库可存放于网络存储设备上,让备用机共享其索引数据,使全文检索服务可以正常运行。1.5.12可扩充性:本系统可依不同需求扩张,分类,自然语言,数据适配器等组件,更可置换其关键性应用组件,例如:企业已使用其它分类组件,透过本系统提供之SDK,可取代原本之分类应用组件,且不会影响原本服务机制。1.6大数据量全文检索解决方案当需要建立索引的数据量达到上千万条时(大概上百个G),单个服务器检索系统在性能方面是不可能得到保证的,这时候查询一条信息所需要的时间已经远远超出了使用者的容忍范围,所以为保证全文检索系统的高性能特点,使用多台检索服务器机群来实施分布式检索成为当务之急!1.6.1大数据量全文检

31、索构架图如图所示,应用系统的所有资料分散的部署到各个索引服务器上建立索引,之后把索引好的数据存储到索引库中,用户发出一个搜索请求后,龙卷风大数据量分布式检索系统通过SOAP机制把搜索请求发送给索引服务器,然后接收到搜索请求的服务器会去到索引库中把搜索者所需资料查找出来并且把所有查询结果合并到一起通过用户设定的排序方式在前端搜索页面上显示出来。在此期间,用户发送搜索请求后,机群索引调度服务会根据索引服务器状态表把搜索请求发给空闲的服务器,充分利用整个系统的每一分资源。 1.6.2分布式技术优势多种数据库信息统一建立索引,支持对数据库的文件附件索引,无需对数据源进行任何改动;支持T级总量数据,每天

32、G级的增量数据实现秒级数据检索,并且索引延迟时间保证在1小时以内,即实现用户对每天更新数据能够及时查询,还能保证T级历史数据的快速查询;整个系统具有灵活的扩展性,在系统应用过程中,随着用户需检索数据量的增加,可通过扩展索引服务器和查询服务器集群高性价比平滑升级,已经索引过的数据和原有系统的稳定性不受影响;高并发用户访问量支持;1.7搜索的权限控制IRMS提供的信息搜索并非是指人人皆可随意搜索到任何信息,而是依照组织中的角色,让搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。IRMS权限控制主要实现:保证存取信息的安全性有该文件读取权的人或群组,才有可能查询到此一文件无

33、该文件读取权的人或群组,不会知道有哪些无权读取的文件存在如果每个人或群组文件的读取权不同,查询结果集就会不同1.7.1搜索系统和应用系统权限整合方法针对不同的应用及特定的权限规则,有多种方式可以实现IRMS搜索系统和应用系统的权限整合。主要方法包括:1、分索引库法:此种方法适用于权限较简单,并且权限可以归为几大类的应用。如用户组分为公司领导组、部门经理组、普通员工组,每组用户内部权限相同,组之间才有权限差异。针对此种应用,可以分别针对不用的用户组创建不同的索引库,分别放置于Group_for_公司领导、Group_for_部门经理、Group_for_普通员工。搜索时,首先判断用户所在何用户组

34、,针对不同的用户组再定向到不同的搜索库中去全文检索。2、特殊属性过滤法:此种方法适用于信息资料源单一,并且有一特殊属性字段可以判断用户权限的情况。如数据库全文搜索时,有一字段值为授权访问该记录的所有用户或组。针对此种特殊情况,可以选择使用多字段属性过滤的方法,在搜索页面提交搜索请求后,使用该特殊属性字段过滤最终的搜索结果。3、搜索结果过滤法:用户提交搜索后,搜索引擎搜索时并不带入权限信息,只是在搜索结果显示时,使用应用系统的权限规则来过滤搜索结果,并将符合该用户权限范围内的信息显示给搜索者。4、内建权限规则法:搜索系统内建权限规则,管理员根据搜索信息来源的权限规则定制搜索系统的权限规则,用户提

35、交的搜索请求搜索系统经过权限过滤后再反馈给搜索者。5、导入权限规则法:搜索系统不内建权限系统,但提供权限导入机制。用户将应用系统的权限规则标准化后,通过搜索系统的API导入到搜索系统中。用户提交搜索请求,搜索系统经过权限过滤后再反馈给搜索者。适用环境优点缺点各种方法的比较:分索引库法权限较简单,并且权限可以归为几大类的应用部署简单适用范围小特殊属性过滤法信息资料源单一,并且有一特殊属性字段可以判断用户权限的情况部署简单适用范围小搜索结果过滤法应用系统权限判断用时少部署简单应用系统权限规则复杂时,搜索结果权限判断将很花时间,致使搜索结果显示速度慢内建权限规则法大部分应用系统权限系统内嵌在搜索系统

36、中,搜索速度和显示速度快管理员需要为搜索系统索引库中的每笔记录分配权限,工作复杂导入权限规则法大部分应用系统权限系统内嵌在搜索系统中,搜索速度和显示速度快。支持批量导入机制需要将应用系统权限规则导出为特定格式。但一旦确定模式,则可重复使用按照以上搜索系统权限整合分析,此次应用系统涉及的搜索信息来源所包括的Documentum、OA及其它应用系统都有各自的权限规则,应采用第四或第五种权限整合方法。IRMS全文检索系统支持第五种权限整合方法,它的主要特点包括:支持实时权限信息导入和定时权限信息导入,用户现有权限规则不用做任何改动;支持使用XMLExport与Import的机制提供信息内容权限控管的

37、整合接口;支持权限信息导出为XML文件后,再批量XML文件导入的功能;提供权限组件及SDK,可单独操作权限组件进行不同的权限系统整合;利用XML进行权限整合描述,和其它系统的权限架构做整合。整合后,不同的权限使用者使用搜寻引擎、自然语言等应用组件时,将得到符合各自权限的数据;/权限规则与IRMS可以完全分离,增加可重用性。1.7.2IRMS和Domino权限整合实例龙卷风公司已经开发出成熟的Domino适配器,实现将Domino中的文档建立索引,实现全文检索。1) 通过管理界面设定需要如何连接DominoNSF数据库,同时设定索引哪个View或表及其它信息。2) IRMSDominoCompo

38、ser通过以上配置实现从Domino中提取文档内容,创建索引。IRMSPlatform对于DominoACL信息,龙卷风公司已经开发出一通用Domino权限导出工具,实现一般的Domino数据库权限信息的导出。再结合IRMS提供的SDK和XML导入工具,即可实现Domino数据库权限信息整合到索引库中,最终实现搜索用户带权限信息搜索,即搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。r./rjNotesMasterIndexNames.NSF(DataSource)DominoNSFACLIndex+SearchForm(UserInterface)SetOption

39、(nOpt,vCmd)Search()7,LambertLmn8;MKT_Dep”(UserUserIDmodeorGroupNamemode)TheresultsetalreadymaskoutrecordsbyACLindex.XML文件样例:14570CN=Peter/O二tornadoCN=Boirs/O二tornadoCN=jessie/O二tornadoCN=hello/O二tornadoCN=badboy/O二tornado26174-Default-CN=Boirs/O=tornado目前IRMS支持平面结构的权限规则。当用户应用系统使用较多的嵌套用户组和嵌套角色时,则需要进行

40、客制化开发。开发周期视嵌套复杂度和应用系统权限API灵活程度而定。1.7.3IRMS和应用系统权限整合总结综上所述,IRMS采用了及其灵活和方便的一种权限整合方式。系统管理员只要将其应用系统的权限规则导出成以下表格形式,IRMS即可方便的导入到索引库中,从而在索引库层实现搜索者只能搜索自己权限范围内的信息,而无权限访问的记录是不会被搜索出来的。AllowPersonDenyPersonAllowGroupDenyPerson记录一记录二记录N1.7.4IRMS整合拓扑图rvej-数据库索引1RMSlotusdorarno内容管理索引库分类库权限库1.8概念式搜索概念式搜索并非我们平时的关键字搜

41、索,她的具体含义是说词与词之间如果包含了整体和部分的关系或者是协同的关系或者是例证的关系或者是同义的关系以及或者是同类别的关系时,这些词就可以说成是概念上一样的词,在搜索一个词的时候,其他和这个词概念相同的词也会被呈现在搜索结果中。例如毒品和海洛因、冰毒等在概念上是属于整体和部分的关系,在输入关键字为毒品时,海洛因、冰毒也会被查找出来,但是如果输入海洛因或者冰毒,毒品就不会被查找出来,这点说明了概念式搜索和同义词搜索具有本质上的区别。概念式搜索概念图如下所示:5-Eensssoflnk)nndliDii1Info-ma海gjemwrpnUnfc=Eodaln=ralall=驱2曲M.IkiMHhM心升=;-group,grc5-en?3lnfrinall-Qn-=tognllion,krp女忡弓昭SflHSe+Informall-on.mIwcH1hs-lgnele而日ns*mrormfliiiDnrtvtnr*f切flOfliOf

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!