oracle海量查询的数据优化!

上传人：gao****ang 文档编号：179378767 上传时间：2023-01-01 格式：DOCX 页数：23 大小：36.63KB

收藏版权申诉举报下载

第1页 / 共23页

第2页 / 共23页

第3页 / 共23页

下载文档到电脑，查找使用更方便

17 积分

下载资源

资源描述：

《oracle海量查询的数据优化!》由会员分享，可在线阅读，更多相关《oracle海量查询的数据优化!（23页珍藏版）》请在装配图网上搜索。

1、oracle海量查询的数据优化!. txt2008太不正常了，一切都不正常！在这个关键时刻，中国男足挺身而出，向全世界证明：中国男足还是正常的！一、因情制宜，建立“适当”的索引建立“适当”的索引是实现查询优化的首要前提。索引（index）是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引码的值搜索数据时，索引提供了对数据的快速访问。事实上，没有索引 ,数据库也能根据 SELECT 语句成功地检索到结果，但随着表变得越来越大，使用“适当”的索引的效果就越来越明显。注意，在这句话中，我们用了“适当”这个词，这是因为，如果使用索引时不认真考虑其实现过程，索引既可以提高也会

2、破坏数据库的工作性能。（一）深入浅出理解索引结构实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引（clustered index,也称聚类索引、簇集索引）和非聚集索引（nonclustered index，也称非聚类索引、非簇集索引）。下面，我们举例来说明一下聚集索引和非聚集索引的区别：其实，我们的汉语字典的正文本身就是一个聚集索引。比如，我们要查“安”字，就会很自然地翻开字典的前几页，因为“安”的拼音是“n”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的

3、部分仍然找不到这个字，那么就说明您的字典中没有这个字；同样的，如果查 “张”字，那您也会将您的字典翻到最后部分，因为“张”的拼音是“zhang”。也就是说，字典的正文部分本身就是一个目录，您不需要再去查其他目录来找到您需要找的内容。我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。如果您认识某个字，您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而需要去根据“偏旁部首”查到您要找的字，然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真

4、正的正文的排序方法，比如您查“张” 字，我们可以看到在查部首之后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码却是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并不是真正的分别位于“张”字的上下方，现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字，但它需要两个过程，先找到目录中的结果，然后再翻到您所需要的页码。我们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非聚集索引”。通过以上例子，我们可以理解到什么是“聚集索引”和“非聚集索引”。进

5、一步引申一下，我们可以很容易的理解：每个表只能有一个聚集索引，因为目录只能按照一种方法进行排序。二）何时使用聚集索引或非聚集索引下面的表总结了何时使用聚集索引或非聚集索引（很重要）。动作描述使用聚集索引使用非聚集索引列经常被分组排序应应返回某范围内的数据应不应一个或极少不同值不应不应小数目的不同值应不应大数目的不同值不应应频繁更新的列不应应外键列应应主键列应应频繁修改索引列不应应事实上，我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如：返回某范围内的数据一项。比如您的某个表有一个时间列，恰好您把聚合索引建立在了该列，这时您查询2004年 1月 1日至2004年

6、10月1日之间的全部数据时，这个速度就将是很快的，因为您的这本字典正文是按日期进行排序的，聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可；而不像非聚集索引，必须先查到目录中查到每一项数据对应的页码，然后再根据页码查到具体内容。（三）结合实际，谈索引使用的误区理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引，但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区，以便于大家掌握索引建立的方法。1、主键就是聚集索引这种想法笔者认为是极端错误的，是对聚集索引的一种浪费。虽然SQL SERVER

7、默认是在主键上建立聚集索引的。通常，我们会在每个表中都建立一个ID列，以区分每条数据，并且这个ID列是自动增大的，步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时，如果我们将这个列设为主键，SQL SERVER会将此列默认为聚集索引。这样做有好处，就是可以让您的数据在数据库中按照ID进行物理排序，但笔者认为这样做意义不大。显而易见，聚集索引的优势是很明显的，而每个表中只能有一个聚集索引的规则，这使得聚集索引变得更加珍贵。从我们前面谈到的聚集索引的定义我们可以看出，使用聚集索引的最大好处就是能够根据查询要求，迅速缩小查询范围，避免全表扫描。在实际应用中，因为D号是自

8、动生成的，我们并不知道每条记录的ID号，所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次，让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则；当然，这种情况只是针对用户经常修改记录内容，特别是索引项的时候会负作用，但对于查询速度并没有影响。在办公自动化系统中，无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。通常，办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚

9、未签收的情况，但如果您的系统已建立了很长时间，并且数据量很大，那么，每次每个用户打开首页的时候都进行一次全表扫描，这样做意义是不大的，绝大多数的用户 1 个月前的文件都已经浏览过了，这样做只能徒增数据库的开销而已。事实上，我们完全可以让用户打开系统首页时，数据库仅仅查询这个用户近3 个月来未阅览的文件，通过 “日期”这个字段来限制表扫描，提高查询速度。如果您的办公自动化系统已经建立的2年，那么您的首页显示速度理论上将是原来速度8 倍，甚至更快。在这里之所以提到“理论上”三字，是因为如果您的聚集索引还是盲目地建在ID这个主键上时，您的查询速度是没有这么高的，即使您在“日期”这个字段上建

10、立的索引（非聚合索引）。下面我们就来看一下在 1000 万条数据量的情况下各种查询的速度表现（3 个月内的数据为 25 万条）：（1）仅在主键上建立聚集索引，并且不划分时间段：Select gid,fariqi,neibuyonghu,title from tgongwen 用时：128470毫秒（即：128 秒）（2）在主键上建立聚集索引，在fariq上建立非聚集索引：select gid,fariqi,neibuyonghu,title from Tgongwenwhere fariqi dateadd（day,-90,getdate（）用时： 53763 毫秒（ 54 秒）（3）将聚

11、合索引建立在日期列（fariqi）上：select gid,fariqi,neibuyonghu,title from Tgongwenwhere fariqi dateadd（day,-90,getdate（）用时： 2423 毫秒（ 2 秒）虽然每条语句提取出来的都是25万条数据，各种情况的差异却是巨大的，特别是将聚集索引建立在日期列时的差异。事实上，如果您的数据库真的有 1000 万容量的话，把主键建立在ID 列上，就像以上的第1、2 种情况，在网页上的表现就是超时，根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。得出以上速度的方法是：在各个select语句前加：d

12、eclare d datetimeset d=getdate（）并在 select 语句后加：select 语句执行花费时间（毫秒）=da tediff（ms,d,ge tdat e（）2、只要建立索引就能显著提高查询速度事实上，我们可以发现上面的例子中，第2、3 条语句完全相同，且建立索引的字段也相同；不同的仅是前者在fariqi字段上建立的是非聚合索引，后者在此字段上建立的是聚合索引，但查询速度却有着天壤之别。所以，并非是在任何字段上简单地建立索引就能提高查询速度。从建表的语句中，我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是

13、再合适不过了。在现实中，我们每天都会发几个文件，这几个文件的发文日期就相同，这完全符合建立聚集索引要求的：“既不能绝大多数都相同，又不能只有极少数相同”的规则。由此看来，我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。3、把所有需要提高查询速度的字段都加进聚集索引，以提高查询速度上面已经谈到：在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名。”既然这两个字段都是如此的重要，我们可以把他们合并起来，建立一个复合索引（ compound index ）。很多人认为只要把任何字段加进聚集索引，就能提高查询速度，也有人感到迷惑：如果把复合的聚集索引字段分开查询，那

14、么查询速度会减慢吗？带着这个问题，我们来看一下以下的查询速度（结果集都是25万条数据）：（日期列fariqi首先排在复合聚集索引的起始列，用户名 neibuyonghu 排在后列）（ 1） select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi2004-5-5查询速度： 2513毫秒（2）selectgid,fariqi,neibuyonghu,titlefromTgongwenwherefariqi2004-5-5and neibuyonghu二办公室查询速度： 2516 毫秒（3）select gid,fariqi,

15、neibuyonghu,title from Tgongwen where neibuyonghu=公室查询速度： 60280 毫秒从以上试验中，我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的，甚至比用上全部的复合索引列还要略快（在查询结果集数目一样的情况下）；而如果仅用复合聚集索引的非起始列作为查询条件的话，这个索引是不起任何作用的。当然，语句1、2的查询速度一样是因为查询的条目数一样，如果复合索引的所有列都用上，而且查询结果少的话，这样就会形成“索引覆盖”，因而性能可以达到最优。同时，请记住：无论您是否经常使用聚合索引的其

16、他列，但其前导列一定要是使用最频繁的列。（四）其他书上没有的索引使用经验总结 1、用聚合索引比用不是聚合索引的主键速度快面是实例语句：（都是提取25 万条数据） select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16使用时间：3326 毫秒select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid2004-1-1用时：6343毫秒（提取100万条）select gid,fariqi,neibuyonghu,reade

17、r,title from Tgongwen where fariqi2004-6-6用时：3170毫秒（提取50万条）select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16用时：3326 毫秒（和上句的结果一模一样。如果采集的数量一样，那么用大于号和等于号是一样的） select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi2004-1-1 and fariqi2004-1-1 order by fariqi用

18、时：6390 毫秒select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi 10000和执行: select * from table1 where tID 10000 and name=zhangsan 一些人不知道以上两条语句的执行效率是否一样，因为如果简单的从语句先后上看，这两个语句的确是不一样，如果tID是一个聚合索引，那么后一句仅仅从表的10000条以后的记录中查找就行了；而前一句则要先从全表中查找看有几个name=zhangsan的，而后再根据限制条件条件tID 10000来提出查询结果。事实上

19、，这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”，它可以计算出 where 子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间，也就是说，它能实现自动优化。虽然查询优化器可以根据where子句自动的进行查询优化，但大家仍然有必要了解一下“查询优化器”的工作原理，如非这样，有时查询优化器就会不按照您的本意进行快速查询。在查询分析阶段，查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数（SARG）,那么就称之为可优化的，并且可以利用索引快速获得所需数据。SARG的定义：用于限制搜索的一个操作，因为它通常是指一个特定的匹

20、配，一个值得范围内的匹配或者两个以上条件的AND连接。形式如下：列名操作符常数或变量或常数或变量操作符列名列名可以出现在操作符的一边，而常数或变量出现在操作符的另一边。如：Name二张三价格50005000价格Name二张三and 价格5000如果一个表达式不能满足SARG的形式，那它就无法限制搜索的范围了，也就是SQL SERVER 必须对每一行都判断它是否满足 WHERE 子句中的所有条件。所以一个索引对于不满足 SARG 形式的表达式来说是无用的。介绍完SARG后，我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验： 1、Like 语句是否属于 SA

21、RG 取决于所使用的通配符的类型如：name like 张，这就属于SARG 而： name like %张 ,就不属于 SARG。原因是通配符%在字符串的开通使得索引无法使用。2、or 会引起全表扫描Name=张三and价格5000符号SARG,而：Name=张三or价格5000则不符合SARG。使用or会引起全表扫描。3、非操作符、函数引起的不满足SARG形式的语句不满足SARG形式的语句最典型的情况就是包括非操作符的语句口： NOT、匸、！、！、 NOT EXISTS、NOT IN、NOT LIKE等，另外还有函数。下面就是几个不满足SARG形式的例子:ABS(价格)5000Name

22、 like %三有些表达式，如：WHERE 价格*25000SQL SERVER 也会认为是 SARG， SQL SERVER 会将此式转化为：WHERE 价格2500/2但我们不推荐这样使用，因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。4、IN 的作用相当与 OR语句：Select * from table1 where tid in (2,3)和Select * from table1 where tid=2 or tid=3是一样的，都会引起全表扫描，如果tid上有索引，其索引也会失效。5、尽量少用 NOT6、exists 和 in 的执行效率是一样的很多资料

23、上都显示说，exists要比in的执行效率要高，同时应尽可能的用not exists来代替not in。但事实上，我试验了一下，发现二者无论是前面带不带not，二者之间的执行效率都是一样的。因为涉及子查询，我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。(1)select title,price from titles where title_id in (select title_id from sales where qty30)该句的执行结果为：表sales。扫描计数18，逻辑读56次，物理读0次，

24、预读0次。表titles。扫描计数1,逻辑读2次，物理读0次，预读0次。(2 ) select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty30)第二句的执行结果为：表sales。扫描计数18，逻辑读56次，物理读0次，预读0次。表titles。扫描计数1,逻辑读2次，物理读0次，预读0次。我们从此可以看到用exists和用in的执行效率是一样的。7、用函数charindex()和前面加通配符%的LIKE执行效率一样前面，我们谈到，如果

25、在LIKE前面加上通配符%，那么将会引起全表扫描，所以其执行效率是低下的。但有的资料介绍说，用函数charindex()来代替LIKE速度会有大的提升，经我试验，发现这种说明也是错误的：select gid,title,fariqi,reader from tgongwen where charindex(刑侦支队，reader)。 and fariqi2004-5-5用时：7 秒，另外：扫描计数 4，逻辑读 7155 次，物理读 0 次，预读 0 次。select gid,title,fariqi,reader from tgongwen where reader like % + 刑

26、侦支队 + % and fariqi2004-5-5用时：7 秒，另外：扫描计数 4，逻辑读 7155 次，物理读 0 次，预读 0 次。8、union 并不绝对比 or 的执行效率高我们前面已经谈到了在where子句中使用or会引起全表扫描，一般的，我所见过的资料都是推荐这里用union来代替or。事实证明，这种说法对于大部分都是适用的。select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16 or gid9990000用时：68 秒。扫描计数 1，逻辑读 404008 次，物理读 28

27、3 次，预读 392163 次。select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16unionselect gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid9990000用时：9 秒。扫描计数 8，逻辑读 67489 次，物理读 216 次，预读 7499 次。看来，用union在通常情况下比用or的效率要高的多。但经过试验，笔者发现如果or两边的查询列是一样的话，那么用union则反倒和用or的执行速度差很多，虽然这

28、里union扫描的是索引，而or扫描的是全表。select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16 or fariqi=2004-2-5用时：6423 毫秒。扫描计数 2，逻辑读 14726 次，物理读 1 次，预读 7176 次。select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=2004-9-16unionselect gid,fariqi,neibuyonghu,reader,title from

29、 Tgongwen where fariqi=2004-2-5用时：11640 毫秒。扫描计数 8，逻辑读 14806 次，物理读 108 次，预读 1144 次。9、字段提取要按照“需多少、提多少”的原则，避免“ select *”我们来做一个试验：select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc用时：4673 毫秒select top 10000 gid,fariqi,title from tgongwen order by gid desc 用时：1376 毫秒select top 10000

30、 gid,fariqi from tgongwen order by gid desc用时：80 毫秒由此看来，我们每少提取一个字段，数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。10、count(*)不比 count (字段)慢某些资料上说：用*会统计所有列，显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看：select count(*) from Tgongwen用时：1500毫秒select count(gid) from Tgongwen用时：1483 毫秒select count(fariqi) from Tgongwen用时：3140

31、毫秒select count(title) from Tgongwen用时：52050 毫秒从以上可以看出，如果用count(*)和用count(主键)的速度是相当的，而count(*)却比其他任何除主键以外的字段汇总速度要快，而且字段越长，汇总的速度就越慢。我想，如果用 coun t( *)， SQL SERVER可能会自动查找最小字段来汇总的。当然，如果您直接写coun t(主键) 将会来的更直接些。11 、 order by 按聚集索引列排序效率最高我们来看：(gid是主键，fariqi是聚合索引列) select top 10000 gid,fariqi,reader,title

32、from tgongwen 用时：196 毫秒。扫描计数 1，逻辑读 289 次，物理读 1 次，预读 1527 次。select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc用时：4720 毫秒。扫描计数 1，逻辑读 41956 次，物理读 0 次，预读 1287 次。select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc用时：4736 毫秒。扫描计数 1，逻辑读 55350 次，物理读 10 次，预读 775 次

33、。select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc用时：173 毫秒。扫描计数 1，逻辑读 290 次，物理读 0 次，预读 0 次。select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc用时：156 毫秒。扫描计数 1，逻辑读 289 次，物理读 0 次，预读 0 次。从以上我们可以看出，不排序的速度以及逻辑读次数都是和“order by聚集索引列”的速度是相当的，但这些都比“order by

34、非聚集索引列”的查询速度是快得多的。同时，按照某个字段进行排序的时候，无论是正序还是倒序，速度是基本相当的。12、高效的 TOP 事实上，在查询和提取超大容量的数据集时，影响数据库响应时间的最大因素不是数据查找，而是物理的 I/0 操作。如：select top 10 * from (select top 10000 gid,fariqi,title from tgongwenwhere neibuyonghu 二办公室order by gid desc) as aorder by gid asc这条语句，从理论上讲，整条语句的执行时间应该比子句的执行时间长，但事实相反。因为，子句执行后返

35、回的是 10000 条记录，而整条语句仅返回 10 条语句，所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用，发现TOP确实很好用，效率也很高。但这个词在另外一个大型数据库ORACLE中却没有，这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如： rownumber）来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中，我们就将用到TOP这个关键词。到此为止，我们上面讨论了如何实现从大

36、容量的数据库中快速地查询出您所需要的数据方法。当然，我们介绍的这些方法都是“软”方法，在实践中，我们还要考虑各种“硬”因素，如网络性能、服务器的性能、操作系统的性能，甚至网卡、交换机等。三、实现小数据量和海量数据的通用分页显示存储过程建立一个 web 应用，分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO纪录集分页法，也就是利用ADO自带的分页功能（利用游标）来实现分页。但这种分页方法仅适用于较小数据量的情形，因为游标本身有缺点：游标是存放在内存中，很费内存。游标一建立，就将相关的记录锁住，直到取消游标。游标提供了对特定集合中逐行扫描的手段，

37、一般使用游标来逐行遍历数据，根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标（大的数据集合）循环很容易使程序进入一个漫长的等待甚至死机。更重要的是，对于非常大的数据模型而言，分页检索时，如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据，而非检索所有的数据，然后单步执行当前行。最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标，由于游标的局限性，所以这个方法并没有得到大家的普遍认可。后来，网上有人改造了此存储过程，下面的存储过程就是结合我们的办公自动化实例写的分

38、页存储过程：CREATE procedure pagination1（pagesize int, -页面大小，如每页存储 20 条记录pageindex int -当前页码）asset nocount on begindeclare indextable table(id int identity(1,1),nid int) -定义表变量declare PageLowerBound int -定义此页的底码declare PageUpperBound int -定义此页的顶码set PageLowerBound=(pageindex-1)*pagesizeset PageUpperBound

39、=PageLowerBound+pagesizeset rowcount PageUpperBoundinsert into indextable(nid) select gid from TGongwen where fariqi dateadd(day,-365,getdate() order by fariqi descselect O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,indextable t where O.gid=t.nidand t.idPageLowerBound and t.id”或“200于是就有了如

40、下分页方案：select top 页大小 *from table1where id(select max (id) from(select top (页码-1)*页大小) id from table1 order by id) as Torder by id 在选择即不重复值，又容易分辨大小的列时，我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表，在以GID （GID是主键，但并不是聚集索引。为排序列、提取 gid,fariqi, title 字段，分别以第 1、10、100、500、1000、1 万、10 万、25 万、 50 万页为例，测试以上三种分页方案的执

41、行速度：（单位：毫秒）页码方案 1方案2160307610461663100107672013050054012943831000171104702501万24796450014010万3832642283155325万28140128720233050万1216861278467168从上表中，我们可以看出，三种存储过程在执行100 页以下的分页命令时，都是可以信任的，速度都很好。但第一种方案在执行分页1000 页以上后，速度就降了下来。第二种方案大约是在执行分页1 万页以上后速度开始降了下来。而第三种方案却始终没有大的降势，后劲仍然很足。在确定了第三种分页方案后，我们可以据此写一个存

42、储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句，它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案，还会根据页面传来的参数来确定是否进行数据总数统计。- 获取指定页的数据CREATE PROCEDURE pagination3tblName varchar(255),- 表名strGetFields varchar(1000) = *, - 需要返回的列fldName varchar(255)=,-排序的字段名PageSize int = 10,- 页尺寸PageIndex int = 1,- 页码doCount bit

43、= 0, - 返回记录总数, 非 0 值则返回OrderType bit = 0, - 设置排序类型, 非 0 值则降序strWhere varchar(1500)- 查询条件 (注意: 不要加 where)ASdeclare strSQLvarchar(5000)- 主语句declare strTmpvarchar(110)- 临时变量declare strOrdervarchar(400)- 排序类型if doCount != 0beginif strWhere !=set strSQL = select count(*) as Total from + tblName + where +

44、strWhere elseset strSQL = select count(*) as Total from + tblName + end以上代码的意思是如果doCount传递过来的不是0就执行总数统计。以下的所有代码都是doCount为0的情况elsebeginif OrderType != 0beginset strTmp = (select maxset strOrder = order by + fldName + ascend if PageIndex = 1beginif strWhere != set strSQL = select top + str(PageSize)

45、+ +strGetFields+ from + tblName + where + strWhere + + strOrderelseset strSQL = select top + str(PageSize) + +strGetFields+ from + tblName + + strOrder-如果是第一页就执行以上代码，这样会加快执行速度endelsebegin以下代码赋予了strSQL以真正执行的SQL代码set strSQL = select top + str(PageSize) + +strGetFields+ from + tblName + where + fldName

46、 + + strTmp + (+ fldName + ) from (select top + str(PageIndex-1)*PageSize) + + fldName + from + tblName + + strOrder + ) as tblTmp)+ strOrderif strWhere !=set strSQL = select top + str(PageSize) + +strGetFields+ from + tblName + where + fldName + + strTmp + (+ fldName + ) from (select top + str(Page

47、Index-1)*PageSize) + + fldName + from + tblName + where + strWhere + + strOrder + ) as tblTmp) and + strWhere + + strOrderendendexec (strSQL)GO上面的这个存储过程是一个通用的存储过程，其注释已写在其中了。在大数据量的情况下，特别是在查询最后几页的时候，查询时间一般不会超过9 秒；而用其他存储过程，在实践中就会导致超时，所以这个存储过程非常适用于大容量数据库的查询。笔者希望能够通过对以上存储过程的解析，能给大家带来一定的启示，并给工作带来一定的效率提升

48、，同时希望同行提出更优秀的实时数据分页算法。四、聚集索引的重要性和如何选择聚集索引在上一节的标题中，笔者写的是：实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时，笔者发现这第三种存储过程在小数据量的情况下，有如下现象：1、分页速度一般维持在1秒和 3秒之间。2、在查询最后一页时，速度一般为5秒至8秒，哪怕分页总数只有3 页或30万页。虽然在超大容量情况下，这个分页的实现过程是很快的，但在分前几页时，这个 13 秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢，借用户的话说就是“还没有 ACCESS 数据库速度快”，这个认识足以导

49、致用户放弃使用您开发的系统。笔者就此分析了一下，原来产生这种现象的症结是如此的简单，但又如此的重要：排序的字段不是聚集索引！本篇文章的题目是：“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法” 这两个联系不是很大的论题放在一起，就是因为二者都需要一个非常重要的东西一一聚集索引。在前面的讨论中我们已经提到了，聚集索引有两个最大的优势：1、以最快的速度缩小查询范围。2、以最快的速度进行字段排序。第1 条多用在查询优化时，而第2条多用在进行分页时的数据排序。而聚集索引在每个表内又只能建立一个，这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最

50、关键因素。但要既使聚集索引列既符合查询列的需要，又符合排序列的需要，这通常是一个矛盾。笔者前面“索引”的讨论中，将fariqi，即用户发文日期作为了聚集索引的起始列，日期的精确度为“日”。这种作法的优点，前面已经提到了，在进行划时间段的快速查询中，比用 ID 主键列有很大的优势。但在分页时，由于这个聚集索引列存在着重复记录，所以无法使用max或min来最为分页的参照物，进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引，那么聚集索引除了用以排序之外，没有任何用处，实际上是浪费了聚集索引这个宝贵的资源。为解决这个矛盾，笔者后来又添加了一个日期列，其默认值为getdate()。用户在

51、写入记录时，这个列自动写入当时的时间，时间精确到毫秒。即使这样，为了避免可能性很小的重合，还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。有了这个时间型聚集索引列之后，用户就既可以用这个列查找用户在插入数据时的某个时间段的查询，又可以作为唯一列来实现max或min，成为分页算法的参照物。经过这样的优化，笔者发现，无论是大数据量的情况下还是小数据量的情况下，分页速度一般都是几十毫秒，甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。聚集索引是如此的重要和珍贵，所以笔者总结了一下，一定要将聚集索引建立在：1、您最频繁使用的、用以缩小查询范围的字段上；2、您最频繁使用的、需要排序的字段上。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

oracle海量查询的数据优化!

最新文档

相关资源

相关搜索