数据库创建索引的必要性
数据库创建索引的必要性
帅的不像男的 发表于2年前
数据库创建索引的必要性
  • 发表于 2年前
  • 阅读 142
  • 收藏 2
  • 点赞 1
  • 评论 0

华为云·免费上云实践>>>   

摘要: 数据库创建索引可以为我们大大的优化查询以及排序的耗时问题,大大提高系统性能,从网络整合而来。

一、为什么要创建索引

    平常我们观察项目的数据库(比较厉害的大神创建的),会有一些索引,对于这个,小白我表示不太懂,于是看了一些文档和博客,发现索引是一些数据表必须具备的,比如一些查询次数较多的字段,一些经常排序的字段,一些经常当作where条件的字段,以下参数一些优点:

1, 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。 
2,可以大大加快 数据的检索速度,这也是创建索引的最主要的原因。 
3,可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。 
4,在使用分组和排序 子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。 
5,通过使用索引,可以在查询的过程中,使用优化隐藏器,提高系统的性能。

   也许会有人要问:增加索引有如此多的优点,为什么不对表中的每一个列创建一个索引呢?这种想法固然有其合理性,然而也有其片面性。虽然,索引有许多优点, 但是,为表中的每一个列都增加索引,是非常不明智的。这是因为,增加索引也有许多不利的一个方面。

1,创建索引和维护索引要耗费时间,这种时间随着数据 量的增加而增加。 
2,索引需要占物理空间,除了数据表占数据空间之外,每一个索引还要占一定的物理空间,如果要建立聚簇索引,那么需要的空间就会更大。 
3,当对表中的数据进行增加、删除和修改的时候,索引也要动态的维护,这样就降低了数据的维护速度。

 二、哪些需要创建索引

1,在作为主键的列上,强制该列的唯一性和组织表中数据的排列结构; 
2,在经常用在连接的列上,这 些列主要是一些外键,可以加快连接的速度; 
3,在经常需要根据范围进行搜索的列上创建索引,因为索引已经排序,其指定的范围是连续的; 
4,在经常需要排序的列上创 建索引,因为索引已经排序,这样查询可以利用索引的排序,加快排序查询时间; 
5,在经常使用在WHERE子句中的列上面创建索引,加快条件的判断速度。

 三、哪些不能创建索引

1,对于那些在查询中很少使用或者参考的列不应该创建索引。这是因 为,既然这些列很少使用到,因此有索引或者无索引,并不能提高查询速度。相反,由于增加了索引,反而降低了系统的维护速度和增大了空间需求。 
2,对于那 些只有很少数据值的列也不应该增加索引。这是因为,由于这些列的取值很少,例如人事表的性别列,在查询的结果中,结果集的数据行占了表中数据行的很大比 例,即需要在表中搜索的数据行的比例很大。增加索引,并不能明显加快检索速度。 
3,对于那些定义为text, image和bit数据类型的列不应该增加索引。这是因为,这些列的数据量要么相当大,要么取值很少。 
4,当修改性能远远大于检索性能时,不应该创建索 引。这是因为,修改性能和检索性能是互相矛盾的。当增加索引时,会提高检索性能,但是会降低修改性能。当减少索引时,会提高修改性能,降低检索性能。因 此,当修改性能远远大于检索性能时,不应该创建索引。

四、让你的sql比别人更快的方法

    举个列子:

一、不合理的索引设计会让你的sql变慢
表record有620000行,试看在不同的索引下,下面几个 SQL的运行情况:
1、在date上建有一非个群集索引  
select count(*) from record where date >  
'19991201' and date < '19991214'and amount >  
2000 (25秒)  
select date,sum(amount) from record group by date  
(55秒)  
select count(*) from record where date >  
'19990901' and place in ('BJ','SH') (27秒)  
---- 分析:  
----date上有大量的重复值,在非群集索引下,数据在物理上随机存放在数据页上,在  
范围查找时,必须执行一次表扫描才能找到这一范围内的全部行。  
2、在date上的一个群集索引  
select count(*) from record where date >  
'19991201' and date < '19991214' and amount >  
2000 (14秒)  
select date,sum(amount) from record group by date  
(28秒)  
select count(*) from record where date >  
'19990901' and place in ('BJ','SH')(14秒)  
---- 分析:  
---- 在群集索引下,数据在物理上按顺序在数据页上,重复值也排列在一起,因而在范  
围查找时,可以先找到这个范围的起末点,且只在这个范围内扫描数据页,避免了大范  
围扫描,提高了查询速度。  
3、在place,date,amount上的组合索引  
select count(*) from record where date >  
'19991201' and date < '19991214' and amount >  
2000 (26秒)  
select date,sum(amount) from record group by date  
(27秒)  
select count(*) from record where date >  
'19990901' and place in ('BJ', 'SH')(< 1秒)  
---- 分析:  
---- 这是一个不很合理的组合索引,因为它的前导列是place,第一和第二条SQL没有引  
用place,因此也没有利用上索引;第三个SQL使用了place,且引用的所有列都包含在组  
合索引中,形成了索引覆盖,所以它的速度是非常快的。  
4、在date,place,amount上的组合索引  
select count(*) from record where date >  
'19991201' and date < '19991214' and amount >  
2000(< 1秒)  
select date,sum(amount) from record group by date  
(11秒)  
select count(*) from record where date >  
'19990901' and place in ('BJ','SH')(< 1秒)  
---- 分析:  
---- 这是一个合理的组合索引。它将date作为前导列,使每个SQL都可以利用索引,并  
且在第一和第三个SQL中形成了索引覆盖,因而性能达到了最优。  
5、总结:  
---- 缺省情况下建立的索引是非群集索引,但有时它并不是最佳的;合理的索引设计要  
建立在对各种查询的分析和预测上。一般来说:  
---- ①.有大量重复值、且经常有范围查询  
(between, >,< ,>=,< =)和order by  
、group by发生的列,可考虑建立群集索引;  
---- ②.经常同时存取多列,且每列都含有重复值可考虑建立组合索引;  
---- ③.组合索引要尽量使关键查询形成索引覆盖,其前导列一定是使用最频繁的列。 二、不充份的连接条件:  
---- 例:表card有7896行,在card_no上有一个非聚集索引,表account有191122行,在  
account_no上有一个非聚集索引,试看在不同的表连接条件下,两个SQL的执行情况: select sum(a.amount) from account a,  
card b where a.card_no = b.card_no(20秒)  
---- 将SQL改为:  
select sum(a.amount) from account a,  
card b where a.card_no = b.card_no and a.  
account_no=b.account_no(< 1秒)  
---- 分析:  
---- 在第一个连接条件下,最佳查询方案是将account作外层表,card作内层表,利用  
card上的索引,其I/O次数可由以下公式估算为:  
---- 外层表account上的22541页+(外层表account的191122行*内层表card上对应外层  
表第一行所要查找的3页)=595907次I/O  
---- 在第二个连接条件下,最佳查询方案是将card作外层表,account作内层表,利用  
account上的索引,其I/O次数可由以下公式估算为:  
---- 外层表card上的1944页+(外层表card的7896行*内层表account上对应外层表每一  
行所要查找的4页)= 33528次I/O  
---- 可见,只有充份的连接条件,真正的最佳方案才会被执行。  
---- 总结:  
---- 1.多表操作在被实际执行前,查询优化器会根据连接条件,列出几组可能的连接方  
案并从中找出系统开销最小的最佳方案。连接条件要充份考虑带有索引的表、行数多的  
表;内外表的选择可由公式:外层表中的匹配行数*内层表中每一次查找的次数确定,乘  
积最小为最佳方案。  
---- 2.查看执行方案的方法-- 用set showplanon,打开showplan选项,就可以看到连  
接顺序、使用何种索引的信息;想看更详细的信息,需用sa角色执行dbcc(3604,310,30  
2)。  
二、优化where子句  
---- 1.例:下列SQL条件语句中的列都建有恰当的索引,但执行速度却非常慢:  
select * from record where  
substring(card_no,1,4)='5378'(13秒)  
select * from record where  
amount/30< 1000(11秒)  
select * from record where  
convert(char(10),date,112)='19991201'(10秒)  
---- 分析:  
---- where子句中对列的任何操作结果都是在SQL运行时逐列计算得到的,因此它不得不  
进行表搜索,而没有使用该列上面的索引;如果这些结果在查询编译时就能得到,那么  
就可以被SQL优化器优化,使用索引,避免表搜索,因此将SQL重写成下面这样:  
select * from record where card_no like  
'5378%'(< 1秒)  
select * from record where amount  
< 1000*30(< 1秒)  
select * from record where date= '1999/12/01'  
(< 1秒)  
---- 你会发现SQL明显快起来!  
---- 2.例:表stuff有200000行,id_no上有非群集索引,请看下面这个SQL:  
select count(*) from stuff where id_no in('0','1')  
(23秒)  
---- 分析:  
---- where条件中的'in'在逻辑上相当于'or',所以语法分析器会将in ('0','1')转化  
为id_no ='0' or id_no='1'来执行。我们期望它会根据每个or子句分别查找,再将结果  
相加,这样可以利用id_no上的索引;但实际上(根据showplan),它却采用了"OR策略"  
,即先取出满足每个or子句的行,存入临时数据库的工作表中,再建立唯一索引以去掉  
重复行,最后从这个临时表中计算结果。因此,实际过程没有利用id_no上索引,并且完  
成时间还要受tempdb数据库性能的影响。  
---- 实践证明,表的行数越多,工作表的性能就越差,当stuff有620000行时,执行时  
间竟达到220秒!还不如将or子句分开:  
select count(*) from stuff where id_no='0'  
select count(*) from stuff where id_no='1'  
---- 得到两个结果,再作一次加法合算。因为每句都使用了索引,执行时间只有3秒,  
在620000行下,时间也只有4秒。或者,用更好的方法,写一个简单的存储过程(存储过程是一组为了完成特定功能的SQL语句集,是利用SQL Server所提供的Transact-SQL语言所编写的程序。经编译后存储在数据库中。存储过程是数据库中一个重要的对象。):  
create proc count_stuff as  
declare @a int  
declare @b int  
declare @c int  
declare @d char(10)  
begin  
select @a=count(*) from stuff where id_no='0'  
select @b=count(*) from stuff where id_no='1'  
end  
select @c=@a+@b  
select @d=convert(char(10),@c)  
print @d

五、创建索引的方法

     创建索引有多种方法,这些方法包括直接创建索引的方法和间接创建索引的方法。直接创建索引,例如使用CREATE INDEX语句或者使用创建索引向导,间接创建索引,例如在表中定义主键约束或者唯一性键约束时,同时也创建了索引。虽然,这两种方法都可以创建索引,但 是,它们创建索引的具体内容是有区别的。 
使用CREATE INDEX语句或者使用创建索引向导来创建索引,这是最基本的索引创建方式,并且这种方法最具有柔性,可以定制创建出符合自己需要的索引。在使用这种方式 创建索引时,可以使用许多选项,例如指定数据页的充满度、进行排序、整理统计信息等,这样可以优化索引。使用这种方法,可以指定索引的类型、唯一性和复合 性,也就是说,既可以创建聚簇索引,也可以创建非聚簇索引,既可以在一个列上创建索引,也可以在两个或者两个以上的列上创建索引。

      通过定义主键约束或者唯一性键约束,也可以间接创建索引。主键约束是一种保持数据完整性的逻辑,它限制表中的记录有相同的主键记录。在创建主键约束时,系 统自动创建了一个唯一性的聚簇索引。虽然,在逻辑上,主键约束是一种重要的结构,但是,在物理结构上,与主键约束相对应的结构是唯一性的聚簇索引。换句话 说,在物理实现上,不存在主键约束,而只存在唯一性的聚簇索引。同样,在创建唯一性键约束时,也同时创建了索引,这种索引则是唯一性的非聚簇索引。因此, 当使用约束创建索引时,索引的类型和特征基本上都已经确定了,由用户定制的余地比较小。

      当在表上定义主键或者唯一性键约束时,如果表中已经有了使用CREATE INDEX语句创建的标准索引时,那么主键约束或者唯一性键约束创建的索引覆盖以前创建的标准索引。也就是说,主键约束或者唯一性键约束创建的索引的优先 级高于使用CREATE INDEX语句创建的索引。

六、索引的特征 

索引有两个特征,即唯一性索引和复合索引。 
唯一性索引保证在索引列中的全部数据是唯一的,不会包含冗余数据。如果表中已经有一个主键约束或者唯一性键约束,那么当创建表或者修改表时,SQL Server自动创建一个唯一性索引。然而,如果必须保证唯一性,那么应该创建主键约束或者唯一性键约束,而不是创建一个唯一性索引。当创建唯一性索引 时,应该认真考虑这些规则:当在表中创建主键约束或者唯一性键约束时,SQL Server自动创建一个唯一性索引;如果表中已经包含有数据,那么当创建索引时,SQL Server检查表中已有数据的冗余性;每当使用插入语句插入数据或者使用修改语句修改数据时,SQL Server检查数据的冗余性:如果有冗余值,那么SQL Server取消该语句的执行,并且返回一个错误消息;确保表中的每一行数据都有一个唯一值,这样可以确保每一个实体都可以唯一确认;只能在可以保证实体 完整性的列上创建唯一性索引,例如,不能在人事表中的姓名列上创建唯一性索引,因为人们可以有相同的姓名。

复合索引就是一个索引创建在两个列或者多个列上。在搜索时,当两个或者多个列作为一个关键值时,最好在这些列上创建复合索引。当创建复合索引时,应该考虑 这些规则:最多可以把16个列合并成一个单独的复合索引,构成复合索引的列的总长度不能超过900字节,也就是说复合列的长度不能太长;在复合索引中,所 有的列必须来自同一个表中,不能跨表建立复合列;在复合索引中,列的排列顺序是非常重要的,因此要认真排列列的顺序,原则上,应该首先定义最唯一的列,例 如在(COL1,COL2)上的索引与在(COL2,COL1)上的索引是不相同的,因为两个索引的列的顺序不同;为了使查询优化器使用复合索引,查询语 句中的WHERE子句必须参考复合索引中第一个列;当表中有多个关键列时,复合索引是非常有用的;使用复合索引可以提高查询性能,减少在一个表中所创建的 索引数量。

http://blog.csdn.net/pang040328/article/details/4164874

PS. 由于本人是小白,文中谬误较多,还望大家批评指正,文章内容主要参考上面这篇博文,有些内容无法注明第一源地址,如有版权问题请站内信联系,第一时间处理。

共有 人打赏支持
粉丝 10
博文 71
码字总数 41708
×
帅的不像男的
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: