Sybase IQ 核心技术

上传人:熏** 文档编号:71892380 上传时间:2022-04-07 格式:DOCX 页数:9 大小:140.24KB
收藏 版权申诉 举报 下载
Sybase IQ 核心技术_第1页
第1页 / 共9页
Sybase IQ 核心技术_第2页
第2页 / 共9页
Sybase IQ 核心技术_第3页
第3页 / 共9页
资源描述:

《Sybase IQ 核心技术》由会员分享,可在线阅读,更多相关《Sybase IQ 核心技术(9页珍藏版)》请在装配图网上搜索。

1、1. Sybase IQ 核心技术Sybase IQ 是一个高度可扩展的分析型数据仓库引擎,专门为分析型应用、数据中心、数据仓库而设计,使数据仓库应用拥有卓越的查询性能与最低的总拥有成本。不同于传统数据库主要考虑在线的事务进程的设计,IQ 是专门为分析型应用而构建的,首先关注的是查询的性能。其垂直存储、专利索引技术以及独特的体系架构使其成为数据仓库、数据中心的最佳选择。1.1. Sybase IQ 方法Sybase IQ 数据库与常规关系数据库之间存在本质区别,前者侧重于读者,而不是编写人员。在常规数据库中,最重要的一点是允许多个用户瞬时准确地更新数据库,而不会相互干扰。相反,在 Sybase

2、 IQ 数据库中,对诸多用户的查询快速做出响应非常重要。此面向读者的方法推进了对 Sybase IQ 体系结构和功能的设计。Sybase IQ 方法意味着: 数据按列存储,而不是按行存储。 对所有列创建索引可以提高性能。 使用较大的页大小可以提高性能。 使用大型临时高速缓存可以提高大多数操作的性能。 使用表级锁(而不是行锁)和表级版本控制方法在表级控制对数据的访问。 大多数查询结果都侧重于表级数据。 大多数插入和删除操作向整个表(而不是向某一行)写入数据。1.2. Sybase IQ 优势1.2.1. 列存储不同于传统的关系型数据库,其数据在表中是按行存储的,Sybase IQ是通过表中的列来

3、存储与访问数据的。尽管这种方式很明显的不太适合于交易环境,在交易环境中,一个事务与一行数据有效对应,而在查询进程环境中,很显然,查询是基于特定的列来选择的。列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。事实上,情况并不象上述的这样简单,Sybase IQ有各种方法支持基于列的索引,我们将在下面就此讨论。使用列方法的另一个结果就是,Sybase IQ在压缩方面比传统的关系型数据库更加有效(根据Sybase所称,效果可达5倍之好)。这个原因,无消说,是由于同一列中的所有数据域有相同的数据类型。因此,每一列都可以为优化的效率与检索进行压缩。相比来

4、讲,基于行的存储,各个不同的域拥有各不相同的数据类型,这非常适合于交易进程。在这样的环境中,不断变换理想的压缩算法是不可行的,这意味着任何压缩都将可能是一种最低通用的规则。基于列的方法的另一个重要优势完全基于所有读出的数据量。无论何时你从传统的数据库中访问数据,你需要读出完整的每一行,而不管你实际所感兴趣的是哪些域。实际上,这可能意味着读300个字节的数据仅仅检索20个字符的数据。但是,基于列来读取数据,你仅仅需要读出你想要了解的数据。当然,读取一条单独的记录时,性能上的不同可以忽略,但是许多查询需要进行全表扫描。当读取数百万行数据时,性能的不同就会非常显著。Sybase认为,Sybase I

5、Q的列存储天然的比普通的ROLAP方法提供更佳的性能,IQ不需要象多数竞争对手或者Sybase Adaptive Server Enterprise(ASE)一样支持硬件的并行处理。尤其是,Sybase指出,与数据分区相关的问题就是需要支持硬件的并行机制。显而易见,不论如何进行分区,分区都会带来很多问题(更不必说额外的维护了),不过,它打开了性能改进的实质性途径。然而,Sybase进一步阐述道,这仅仅是对基于行的方法所与生俱来的糟糕性能的一种补偿机制。Sybase有很多事实支持它的论断,但这并不意味着Sybase避免任何形式的数据分区。然而,不同于水平分区,Sybase IQ实施的是垂直分区,

6、也就是说分区是按照列而不是按照行进行的。该方法的优势之一是分区从来不会变得不均衡,这是由于每个表中的每列都有相同数量的域。这大大降低了管理分区的维护需求,同时消除了数据库的重新组织,而在分区变得不均衡从而开始影响性能的时候,数据库重新组织是必需进行的。最后,需要注意的是,Sybase IQ并没有避免使用OLAP。对于那些希望在聚合层次下以一个相对预先定义的方式进行查询的用户来讲,OLAP具有明显的优势。基于此,Sybase 支持OLAP功能属性如排列、百分比、平均。1.2.2. 数据压缩传统的数据库引擎不能以一种通用的方式进行数据压缩,主要是由于存在以下三个问题:1. 按行存储的数据存储方式不

7、利于压缩。这是因为数据(大多为二进制数据)在以这种方式存储时重复并不多。我们发现,按行存储的数据,最多能有5-10%的压缩比例;2. 对于许多2K 和4K 的二进制数据页来说,为压缩和解压缩而增加的开销太大;3. 在OLTP 环境中,大量读取和更新混杂在一起。每一次更新需要进行压缩操作,而读取只需解压缩操作,大多数的数据压缩算法在压缩时比解压缩时慢4 倍。这一开销将明显降低OLTP 数据库引擎的事务处理效率而使得数据压缩的代价昂贵到几乎不能忍受。在数据仓库应用中,数据压缩可以用小得多的代价换取更大好处。其中包括减少对于存储量的要求;增大数据吞吐量,这相当于减少查询响应时间。Sybase IQ

8、使用了数据压缩。这是由于数据按列存储,相邻接的字段值具有相同的数据类型,其二进制值的范围通常也要小得多,所以压缩更容易,压缩比更高。Sybase IQ 对按列存储的数据通常能得到大于50%的压缩。更大的压缩比例,加上大页面I/O,使得Sybase IQ在获得查询的优良性能的同时,减少了对于存储空间的需求。在传统的数据库中,为提高查询性能所建的索引占用的磁盘空间往往需要比数据本身需要的磁盘空间多出3-10倍。而Sybase IQ 存储数据所占用的磁盘空间通常只是原数据文件的40%-60%,是传统数据库所占用空间的几分之一。智能压缩技术,与精巧的索引结构和列存储结合,给了IQ 比其他数据库引擎高的

9、多的存储效果。这将获得更低的存储成本与更高的性能(因为系统仅需很少的磁盘I/O读取或写入任何给定的数据库块)。1.2.3. 多种索引Sybase IQ的秘密在于其索引。随着Sybase 客户发现了新的分析需求,Sybase可以简捷地建立新的索引以满足这些需求。这种方法的奇妙之处在于为数据仓库增加新的索引几乎不会(即使有也是微乎其微)影响数据仓库的架构或使用仓库的分析型应用。在实时企业与闭环应用领域,Sybase将索引视为在TB数量级(将来)甚至PB数量级数据仓库中获得更高查询性能的关键。今天,Sybase实际上已使用了7种索引机制:Low Fast 索引这些是低基数索引,它使用一个被称之为“代

10、号化”的进程。使用该进程,数据被转换为代号,然后存储这些代号而不是数据。这对于减少冗余数据的数量尤其有用。例如,在整个英国拥有大量客户群的公司,将需要存储客户的地址。这将意味着巨大数量的重复的郡的名称。因此,不是保存大量的“班夫郡”的实例,例如,Sybase将会用一个数字代替每个郡的名称。因此,由于班夫郡按照拼音排列在英国是第5个郡(排在Aberdeen,Armagh,Avon与Ayrshire之后)因此,它可能就会被设值为5。如果一个列包含一个数字值,该值自身可以一用于代号化的基础。一旦建立了代号(这是一个自动进行的进程),一个位图索引将被建立以表示这些代号。代号化典型地应用于列数据存在有限

11、数量的可能取值。这也是为什么Sybase称之为低基数索引的原因,典型的,它仅用于不同的取值个数在1500以内的域。Bit-Wise索引对于高基数的域,那些取值个数超过1500个(如金额值),Sybase使用其专利的被称之为Bit-Wise索引的技术。这在你希望在范围搜索的时候同时进行计算的情况下,尤为有用,例如,查找销售价格低于50欧元的货品数量及总收入。如同位图的其他变量,该方法的优势之一就是计数(count)查询可以直接通过读取索引获得答案,而无需读取数据。High Group索引实际上,它是B-树索引。然而,此处的原则是,用户仅仅在几个列有可能作为一个组来使用的情况下,尤其是高基数与低基

12、数的联合搜索时,才定义这些索引。比如可能有这样的例子,按照商店(低基数)查询产品销售清单与价格(高基数)。Fast Projection 索引该索引类型(缺省的)就是列存储本身。如果用户总是打算检索整个列的数据,则列存储事实上意味着列可以直接映射到表或查询中,而无需显式的定义任何索引。这非常有用,例如在“Where”从句中。Word 索引这是一个文本索引。它基于关键词或短语字符串搜索。这种类型的索引,历史上一直没有用于数据仓库中。然而,它有着大量重要的市场,在这些市场上,能够联合定量与定性的分析非常重要。例如,在医疗横业,医生的诊断通常就是:笔记。为了获取信息,例如发病率,因此可能必须访问这种

13、非结构化的数据。Compare索引这个索引技术允许数据列的比较,从效果上讲,类似于“ifthenelse”表达式。例如,“if支出大于收入,then”。该类型的索引对于在Web应用中实时比较尤其有用。Join 索引正如索引的名称所示,它是为消除表连接的需要而设计的。正象大多支持索引的情况,它可能在预先已知的查询需求下更为有用。Time Analytic 索引这为基于日期、时间、日期与时间建立索引提供了选项。需要注意的是,对于传统的关系型数据库,处理基于时间的查询尤为困难。大量扩展工具用以支持在各种情况下使用这些索引。这包括为减少硬盘(或内存位图可能存在缓冲中)需求的索引压缩,联合使用不同类型索

14、引的能力,以及使用布尔操作如AND与OR过滤比特队列等。这些特性表明,Sybase IQ克服了传统的位图的缺陷,即不适合于表连接或数据聚合。Sybase IQ在最近发布的版本中增加了一个索引顾问(Index Advisor),这一点尤其令人欢欣:这将建议管理员何时应该增加新的索引以及增加那种类型的索引。1.2.4. 快速数据加载因为前述Sybase IQ的列存储、列并行处理与索引技术,为快速批量数据加载时提供了强大的技术保证。Sybase IQ 提供专门的Load方法,实现了从文本文件到IQ的高速的数据加载。(一般情况下,可以实现50万行/秒,或300MB/秒 的加载速度)。 如果在数据加载时

15、考虑索引的增量式加载,大多数传统的关系型数据库在数据的增量式加载方面都存在严重的问题。这就是说,如果你一次装入了100GB 的原始数据并在其上创建了索引,再在此基础上增加100MB 或几个GB 的 数据都会非常非常慢,以至于如果先删除所有的索引,再装入增加的数据,然后重新对整个数据库创建索引反而会快一点。 而 Sybase IQ 在装入第二个100MB 或100GB 的时候的速度几乎与装入第一批数据一样快。这就给最终用户带来的更大的灵活性。Sybase IQ 使得索引的开销大大降低,并提供了一个新的开发环境,在这样的开发环境中,索引的使用可以比过去任何时候更充分。1.2.5. 系统可扩展性(S

16、ybase IQ Multiplex)Sybase IQ 通过 Multiplex 来实现系统的高度可扩展性。Multiplex 是 Sybase IQ 中的一项强大功能,可通过集群服务器配置来提供应用程序可伸缩性。Sybase IQ Multiplex 是一种可高度伸缩的共享磁盘网格技术,实现了通过连接到共享数据源的独立数据处理节点进行并发的数据装载和查询。 Sybase IQ Multiplex 技术的优点 性能IQ Multiplex 采用标准 IQ 服务器引擎,提供久经考验的查询和装载性能。 低廉的总拥有成本IQ Multiplex 采用标准的低成本硬件和操作系统。 简单、灵活的设置和

17、配置使用 SQL 界面或通过用户友好的 Sybase Central GUI 可以轻松配置 IQ Multiplex。 可伸缩性IQ Multiplex 可扩展至大量节点以支持众多用户,在向 Multiplex 添加节点时,会略微降低或不会降低数据装载和查询的性能。 高可用性任何节点出现故障都不会妨碍其它节点上的查询作业。IQ Multiplex 为企业范围内的关键应用程序配置提供了理想平台。Sybase IQ Multiplex 体系结构Sybase IQ Multiplex 采用混合集群体系结构,该体系结构包括用于永久IQ 数据的共享存储和用于 Catalog 元数据、临时数据和事务日志的

18、独立节点存储。Sybase IQ Multiplex: 允许您跨多个节点管理庞大的工作负荷。 允许从多个写入程序节点装载数据。 允许在一个用户写入共享数据库对象的同时由多个用户同时查询该共享数据库对象。数据库中可以存在许多此种类型的对象,并且可以同时使用这些对象。 提供高可用性。一个节点出现故障并不会妨碍其它节点的运行。 通过共享数据来降低数据成本。向阵列添加系统可以提供更高的CPU 性能和更大的内存空间,条件是在多个 Multiplex 节点之间有效地平衡工作负荷。Sybase IQ 列存储降低了 I/O 要求,支持多个系统共享磁盘阵列,而不会因 I/O 争用而导致性能降低。Sybase I

19、Q 支持来自 Multiplex 中的多台服务器的读写事务。主服务器或协调器管理所有全局读写事务,并维护全局 Catalog。表版本记录(TLV日志)存储有关 DDL 操作的信息,并向辅助服务器提供有关新表版本的信息。由于节点功能可能不同,因此此配置可称为“非对称集群”,它与其它数据库集群体系结构不同,其它数据库集群体系结构通常沿用“共享一切”或“不共享任何内容”的体系结构。每台服务器都具有其自己的临时存储和 Catalog 存储,所有服务器共用共享 IQ 存储。图 : IQ Multiplex 体系结构注意: Sybase IQ 不支持异构 Multiplex (混合 Multiplex 中的 UNIX 和Windows 服务器)。协调器和辅助服务器必须处于相同的操作系统和硬件平台。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!