非结构化数据检索技术探讨

上传人:lis****211 文档编号:182687907 上传时间:2023-01-27 格式:DOCX 页数:4 大小:14.70KB
收藏 版权申诉 举报 下载
非结构化数据检索技术探讨_第1页
第1页 / 共4页
非结构化数据检索技术探讨_第2页
第2页 / 共4页
非结构化数据检索技术探讨_第3页
第3页 / 共4页
资源描述:

《非结构化数据检索技术探讨》由会员分享,可在线阅读,更多相关《非结构化数据检索技术探讨(4页珍藏版)》请在装配图网上搜索。

1、非结构化数据检索技术探讨摘要:大理供电局多年来建设了很多业务系统,各业务系统相互孤立应用。随 着企业的信息化建设的深入及普遍存在大量的 Word、Excel 和 PDF 等文档数据, 这些数据是企业生产经营最主要、最普遍的数据组织管理内容,企业众多的生产、 经营决策及日常管理也主要依赖这些文档数据开展,员工们查找数据信息极为不 便。建设面向整个电网公司的分布式非结构化数据检索平台,该平台在 Linux 计 算机集群上部署 OpenStack Swift 开发框架以及 Solr 式全文检索系统,将各业务系 统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务,使得 企业相关人员能够高

2、效、便捷地检索出所需的数据。实现知识服务无处不在,为 员工工作提供帮助,为企业提供决策支持, 以供参考。关键词:非结构化数据;分布式;Solr;检索;OpenStack;一、引言 数据资产是电力企业的宝贵资产,按类型可分为一种是以各类生产系统为代 表的结构化数据,另一种是以Word、Excel、PDF、视频、图片文件为代表的非结 构化数据。非结构化数据缺乏管理规范,企业内部海量的非结构化数据没有按照 各个业务板块的内在联系将其有序规范梳理和存放,数据孤岛现象明显,同时与 现存业务系统之间无法有效整合。另一方面,企业中的文档、视频等非结构化数据在高速增长,根据 IDC 的调 查报告,企业中 80

3、%的数据都是非结构化数据,这些数据每年都按指数增长 100%,另一方面,非结构化数据管理存在难度高、操作复杂的难题;如何在保障 数据安全性、可管理性的前提下,提升文档的使用效率,从而促进企业的安全生 产和提升日常办公效率,是摆在供电企业面前的一道难题。Apache Solr 是目前流行的开源搜索服务器,现已能够在计算机集群上提供海 量数据的检索服务。在此构建基于OpenStack Swift和Solr的企业级分布式非结构 化数据检索平台,企业只需在少量服务器上部署这两种软件框架,就可用较低的 成本迅速开始进行大数据集的处理,随后可根据业务需求逐步将集群扩展到更多 节点。该平台利用OpenSta

4、ck上的分布式对象存储系统Swift以及Solr检索系统 实现对海量非结构化数据的分布式存储和检索。二、企业非结构化数据检索平台架构 企业非结构化数据体量巨大、数据类型繁多,很容易超过单机承载能力,为 此搭建起基于 OpenStack Swift 和 Solr 的分布式对象存储、检索平台。首先在廉价 的PC服务器群上安装Linux操作系统,然后在Linux环境下并行部署OpenStack Swift以及Solr开发框架,进而设计和开发出该平台。系统集群中,企业非机构化 数据分布式存储在 OpenStack Swift 的对象存储系统中,相应的检索索引数据则分 布在 Solr 搜索引擎的索引库中

5、。平台解决的主要问题是海量非结构化数据的检索 其特点是文件及其索引信息存储在相同集群不同的逻辑存储结构中。平台的框架 结构如图1所示。图 1 非结构化数据检索平台框架结构图用户在相应的客户端中上传文件到平台的分布式对象存储系统(Swift)后, Solr 的索引处理模块在计算机节点上为大量文件并行创建索引,并将索引及其存 储在相应的索引库中。用户在系统中执行搜索操作时,通过平台的负载均衡策略 随机登录到分布式云存储中任何一台可用服务器,通过搜索引擎将检索结果合并 汇总,最终通过登录到的服务器节点反馈给用户。三、平台功能及特点(一)、海量非结构化数据的集中存储 针对大理供电局大量分散的非结构化数

6、据存储的现状,建设该非结构化数据 集中存储及检索平台,首先实现分散的非结构化数据的集中存储。企业内非结构 化数以及分散在各个员工终端、文件服务器以及各业务系统中。为实现企业非结 构化数据的统一管理,平台为不同类型的业务系统提供了具体有效的接入方案, 满足多类型业务系统的接入需求,构建起企业级的非结构化数据存储中心,数据 的存储结构如图2所示。平台采用OpenStack的Swift集中存储企业非结构化数据, 各用户可以对非结构化数据进行共享协作及访问业务系统中的非架构化数据,打 破了原来业务系统管理各自非结构化数据的瓶颈,促进了系统间的信息交互。Swift是一个采用层次数据模型,共设三层逻辑结构

7、:Account/Container/Object(账 户/容器/对象)。每层节点数均没有限制,可以任意扩展。这里的账户和个人账户 不是一个概念,可理解为租户,用来做顶层的隔离机制,可以被多个个人账户所 共同使用;容器类似文件夹,代表封装一组对象;对象由元数据和数据两部分组 成。Swift 组件包括:代理服务(ProxyServer): Swift通过Proxy Server向外提供基于HTTP的REST服 务接口,会根据环的信息来查找服务地址并转发用户请求至相应的账户、容器或 者对象,进行CRUD(增删改查)等操作。由于采用无状态的REST请求协议,可以 进行横向扩展来均衡负载。在访问Swi

8、ft服务之前,需要先通过认证服务获取访 问令牌,然后在发送的请求中加入头部信息X-Auth-Token。代理服务器负责Swift 架构的其余组件间的相互通信。代理服务器也处理大量的失败请求。例如,如果 对于某个对象PUT请求时,某个存储节点不可用,它将会查询环可传送的服务器 并转发请求。对象以流的形式到达(来自)对象服务器,它们直接从代理服务器传 送到(来自)用户代理服务器并不缓冲它们。认证服务(Authe nticatio nServer):验证访问用户的身份信息,并获得一个对象 访问令牌(Toke n),在一定的时间内会一直有效;验证访问令牌的有效性并缓存下 来直至过期时间。缓存服务(Ca

9、che Server):缓存的内容包括对象服务令牌,账户和容器的存在 信息,但不会缓存对象本身的数据;缓存服务可采用Memcached集群,Swift会 使用一致性哈希算法来分配缓存地址。账户服务(Accou ntServer):提供账户元数据和统计信息,并维护所含容器列表 的服务,每个账户的信息被存储在一个SQLite数据库中。容器服务(Co ntai nerServer):提供容器元数据和统计信息(比如对象的总数,容 器的使用情况等),并维护所含对象列表的服务。容器服务并不知道对象存在哪, 只知道指定容器里存的哪些对象。这些对象信息以SQLite数据库文件的形式存储, 和对象一样在集群上做

10、类似的备份。对象服务(Objectserver):提供对象元数据和内容服务,可以用来存储、检索 和删除本地设备上的对象。在文件系统中,对象以二进制文件的形式存储,它的 元数据存储在文件系统的扩展属性(xattr )中,建议采用默认支持扩展属性(xattr啲 XFS 文件系统。每个对象使用对象名称的哈希值和操作的时间戳组成的路径来存 储。最后一次写操作总可以成功,并确保最新一次的对象版本将会被处理。删除 也被视为文件的一个版本(一个以.ts结尾的0字节文件,ts表示墓碑)。复制服务(Replicator):会检测本地分区副本和远程副本是否一致,具体是通 过对比哈希文件和高级水印来完成,发现不一致

11、时会采用推式(Push)更新远程副 本:对于对象的复制,更新只是使用 rsync 同步文件到对等节点。帐号和容器的 复制通过 HTTP 或 rsync 来推送整个数据库文件上丢失的记录;另外一个任务是确 保被标记删除的对象从文件系统中移除:当有一项(对象、容器、或者帐号)被删 除,则一个墓碑文件被设置作为该项的最新版本。复制器将会检测到该墓碑文件 并确保将它从整个系统中移除。更新服务(Updater):当对象由于高负载或者系统故障等原因而无法立即更新 时,任务将会被序列化到在本地文件系统中进行排队,以便服务恢复后进行异步 更新;例如成功创建对象后容器服务器没有及时更新对象列表,这个时候容器的

12、更新操作就会进入排队中,更新服务会在系统恢复正常后扫描队列并进行相应的 更新处理。审计服务(Auditor):在本地服务器上会反复地爬取来检查对象,容器和账户 的完整性,如果发现比特级的错误,文件将被隔离,并复制其他的副本以覆盖本 地损坏的副本;其他类型的错误(比如在任何一个容器服务器中都找不到所需的对 象列表)会被记录到日志中。账户清理服务(AccountReaper):移除被标记为删除的账户,删除其所包含的 所有容器和对象。删除账号的过程是相当直接的。对于每个账号中的容器,每个 对象先被删除然后容器被删除。任何失败的删除请求将不会阻止整个过程,但是 将会导致整个过程最终失败(例如,如果一个

13、对象的删除超时,容器将不能被删除, 因此账号也不能被删除)。整个处理过程即使遭遇失败也继续执行,这样它不会因 为一个麻烦的问题而中止恢复集群空间。账号收割器将会继续不断地尝试删除账 号直到它最终变为空,此时数据库在 db_replicator 中回收处理,最终移除这个数 据库文件。图 1 非结构化数据存储结构图(二)、非结构化数据搜索引擎服务器 Solr 中的关键技术Solr 是基于 Lucene 的开源搜索引擎,它填补了 Lucene 仅作为开发工具包的 遗憾,开箱即用,是一个完整的全文检索服务器。Solr底层的核心技术是使用 Lucene 实现的,它封装了 Lucene 定义文档对象、描述

14、文档属性、分析处理文档 索引生成、索引存储等整个索引建立的流程。其主要功能包括强大的全文检索功 能,高亮显示检索结果,电子文档(Word、Excel、PDF等)的处理,Solr易于安 装和配置。Solr 服务器采用高效的倒排索引组织结构。倒排索引采用面向单词的索引机 制,它建立关键词到文件的映射,每个关键词都有一个置入列表来记录该词在所 有文档中出现的编号、位置、频率等信息。每个字或词对应的文档是动态变化的, 导致倒排索引的建立和维护都较为复杂,但是由于一次查询可以得到包含关键字 的所有文档,所以效率较高。在全文检索中,检索的快速响应是最为关键的性能, 而索引建立在后台进行,不会影响整个搜索引

15、擎的效率。Solr/Lucene 采用的是一种反向索引,所谓反向索引:就是从关键字到文档的 映射过程,保存这种映射这种信息的索引称为反向索引。字段串列表和文档编号链表两者构成了一个字典。现在想搜索luce ne”,那么 索引直接告诉我们,包含有lucene”的文档有:2,3,10,35, 92,而无需在整 个文档库中逐个查找。如果是想搜既包含luce ne”又包含”solr”的文档,那么与之 对应的两个倒排表去交集即可获得: 3、 10、 35、 92。相关度排序是指通过搜索引擎服务器进行检索后返回结果的排序,检索结果 的排序直接反映出相关文档信息与查询条件的相关程度。Solr搜索引擎对查询语

16、 句与文档之间的相关性进行打分,分数高的搜索结果相关性好,就应该排在前面。四、结语 大理供电局公司的非结构化数据迅速膨胀,形成了信息孤岛,人员查找数据 极为不便。建设面向整个公司的企业级非结构化数据检索平台,该平台充分利用 OpenStack Swift以及Solr两种分布式架构的优越性能,Swift实现了各业务系统海 量非结构化数据的集中存储,Solr搜索引擎使得用户可以在统一的资源库中并行 索引和搜索文件。提高了文件索引、搜索时的效率,故障转移、数据副本等机制 使得平台具有良好的可靠性,且平台扩展性良好,只需简单配置就即可加入新的 服务器节点。参考文献:1 对象存储 object storage TechTarget 存储引用日期 2015-05-18.2 Solr使用入门指南.CSDN.NET引用日期2014-08-26.王小森.基于Solr的搜索引擎的设计与实现D.北京:北京邮电 大学.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!