国际互联网海量情报智能分析系统-系统介绍概要

上传人:feng****ing 文档编号:55107238 上传时间:2022-02-16 格式:DOC 页数:6 大小:51.50KB
收藏 版权申诉 举报 下载
国际互联网海量情报智能分析系统-系统介绍概要_第1页
第1页 / 共6页
国际互联网海量情报智能分析系统-系统介绍概要_第2页
第2页 / 共6页
国际互联网海量情报智能分析系统-系统介绍概要_第3页
第3页 / 共6页
资源描述:

《国际互联网海量情报智能分析系统-系统介绍概要》由会员分享,可在线阅读,更多相关《国际互联网海量情报智能分析系统-系统介绍概要(6页珍藏版)》请在装配图网上搜索。

1、海量信息全文检索系统系统介绍Copyright ? 2005-2011 All Rights Reserved 中港时代软件 目录目录一系统介绍31.1.功能简介 31.智能分析引擎3 1.3. AF检索接口 41.数据存储5二技术优势7三系统环境要求9一系统介绍1.1.功能简介全文检索系统采用全文智能分析技术,通过内容分析和概念匹配技术,实现对多 种非结构化信息的智能识别处理,包括语义识别、关键信息提取、全文检索等几 个部分。全文检索系统的核心是动态智能分析引擎,动态智能分析引擎基于先进的自然 语言处理技术,该技术采用高性能概率模型算法,可获取文档中的多种关键要 素如 时间、地点、任务、关键

2、词组等信息,并具有可提炼文本含义的特性。1.2.智能分 析引擎智能分析引擎对信息所含概念进行理解和分析,自动判断分类,不需要人工 参与, 这样就消除了所有手工成本。另外,智能分析引擎为应用提供了理解概念信息的能 力,这意味着来源迥异的并且采用不同方案标记的传统数据,可以自动 被关联和检索。智能分析引擎将文档、网页、邮件等文件,按照不同的分词,通过聚类、分 类, 插入到全文检索数据库中。 可以解决因为手工创建索引任务所引起的低效率 及主 要失败原因,此外,通过理解文件各种环境,给文件索引增加一个自动化智 能层,这 个智能层可以理解各种数据文件及其相关信息的内容和目的 ,并对其进 行自动化处 理,

3、并可通过参数进行全方位的控制。通常,表面看起来彼此没有联系的两个分类可能有很重要的关系。而且,在很多情形之下,两个信息类别之间可能会有一定程度的雷同,因为该用户可能对 两类信息都感兴趣。全文检索系统定义的基本结构可以根据内容自动推断出其意义,随着数据数量 的增加,全文检索系统充分利用其提供的自学习功能,自动的理解用户指定的 语义 和语境,为进一步的智能分析打下良好的基础,学习的过程不是单一的,而是各个分 类一切协作的结果,全文检索系统会在统一的调配下不断的进步。1.3. API检索接口API检索接口提供不同的API ,用户可调用检索器的API ,获取想要的检索数 据。检索器分为以下几种:词汇检

4、索、分类检索、时间检索、分布式检索、关键信息提取、语义查重等。第三方开发单位通过API接口将全文检索系统集成到软件系统中。客户端 API 使用HTTP命令与全文检索系统服务器之间的通信,以及对返回结果集作 简单处 理。用八应用AP:接口 厂 nAPI接口厂API接口 f用户服务器存储服务器智能分析引擎IAE14数据存储数据经过索引和自动分类处理后,存放到全文检索数据库中,数据存储是全文检 索系统的核心,它物理地存储了经过索引器索引后的所有数据资料,全文检索系统可管理多个数据库,主要包含数据存储、文档存储、关键词存储、用户自定义数据存储、分类存储、词典存储、文档指纹库存储等多个模块。数据存储在数

5、据存储中存放着各种文本及二进制数据,也可以是用户自定义的数据,该数 据只提供存储的功能,没有建立索引不能够进行检索,可以在检索结果中进行快速 访问。142文档存储文档是全文检索系统对不同数据源进行存储和管理的主要载体,所有的查询操 作都体现在相关的文档上,每个文档对象具有URL地址、日期时间、用户自定 义键 值、用户自定义全文检索字段、标题、内容、二进制文件、文本文件、音频文件、视频文件索引属性等多种属性,文档存储实现了对文档信息的存储以及快速索 引访问。143关键词存储关键词是全文检索系统索引的最小单位,所有的查询、索引操作都是在关键词 的基础上进行的,每个关键词有长度、权重、位置、文档列表

6、、相关度信息等多种属性。中港时代144用户自定义数据存储 全文检索系统作为全文检 索数据库,提供了用户自定义数据存储的功能,它不但可以存放全文检索相关的信息,还可以存放用户自定义的业务信息,用户在存储的时候可以选择该数据信息是否支持全文检索,在存储的时候会根据不同的 选项进行相应的智能处理,或方便存储或快速索引访问。分类存储 全文检索系统提供自动分类的功能,可 以通过训练让引擎学习分类的知识,并将知识整理、提炼形成断言存放在不同的 分类中,可以减少人工参与的工作量,自动的将文档信息归类。文档指纹存 储对于大量的重复文章以及数据信息,全文检索系统通过文档指纹建立文档指纹 信息库,可以将重复的信息

7、进行剔除减少人员的阅读工作量。数据词典存储全文检索系统全文检索不单是一种快速的字串匹配系统,要获得良好的检索效果,必须使用一系列知识词典,词典对象是全文检索系统中非常重要的基础资源,是按词索引和检索技术的根本依据。分词词典 系统自带的分词词典, 提供常用词汇,对文档可以进行基本的切分工作,该词典不能由用户自行维护中港时代附加分词词典引擎支持多个分词词典,分词词典在功 能上和分词词典一样,该词典可 以由用户自行维护。 停用词典系统自带的停用词 典,包含一些常用词汇以及代词、虚词等没有实际检 索意义的词汇,如不如、的、了、吧等。附加停用词词典 功能同系统自带的停用词典,用户可以自行添 加。同义词典

8、和反义词典检索一个词,同时和它具有同义词和反义词也会被检索 出来。单字词典 单字词典是用来决定按字索引时,哪些字需要单独建立索引的词典。二技术优势全文检索系统不需要复杂的编程,通过配置即可实现全文检索系 统的搭建,提供与开发 语言无关的API接口,只需配置就可实现一套全文搜索引 擎,用户的应用程序也可通过该 接口自由支配和使用本产品,对结构化数据以及 非结构化信息进行快速集成处理。全文检索系统技术独特的优势包括:1自动化全文检索系统技术为基于非结构化信息处理的操作提供了自动处理的功能,以前中港时代soft.ai vn 这些任务都是由手工来完成的。全文检索系统提供了 一套自动化解决方案,节省了人

9、工成本,实现对非结构化信息的自动操作和管理。非结构化信息不断增长,要想有效地管理海量的信息并从这些信息中获得有 价值的情报线索,就必须将以往由手工完成的工作任务实现自动化。2.准确性全文检索系统可对用户的信息请求提供准确分析,利用概念相关性操作得到动态、实时的结果。3.高性能全文检索系统能解决许多关键性业务问题,满足多种业务 需求和性能要求。随着用户、数据的不断增长和操作的不断累加,全文检索系统 性能已经超出了大多数企业对目前信息负载和性能的要求。4.高扩展性全文检索 系统采用完全模块化和多线程的产品结构,可为内容开发提供高性能、高容量以及高可扩展性的平台。它充分利用了高并发、SMP处理环境以

10、及分布式服务 器集群技术。5.基于对自然语言的分析技术 按照自然语言的规律分析和处理文本数 据,而不是通过简单的概率计算,更能理解 语言本身的特性,特别是对中文的处 理,在智能化处理中可以正确的理解数据内容,从而提炼出语义信息。中港时代便于集成 借助全文检索系统强大易用的 API接 口,用户可以轻松集成全文检索系统,从而创 建自己的定制应用,全文检索系统 采用与语言无关的接口,甚至不需要任何编程语言,仅通过手工配置即可完成系统的集成工作。7.支持多种内容格式全文检索系统可整合来自任何数据源的数据 内容,支持多种文本格式, 如 Word、PDF、XML、HTML、PPT等,并可访问结 构化应用数据库系统,还可以实现对音频、视频的检索与管理。三系统环境要求 软件:跨平台,对操作系统无要求,支持 windows, unix, linux。建议使用lin ux/u nix操作系统,安全稳定可靠。JVM 5.0或以上。硬件:建议高带宽,内存 4G以上,硬盘500G(根据采集站点的大小决定以上。支持多服务器分布式检索,可多服务器集群协调工作。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!