数据分布对MySQL执行计划的影响

　　以前我一直以为，MySQL优化器只会根据数据的基数来判断执行计划的优化，在5.0时，基本上只要基数达不到要求，MySQL就不会选择索引。不过从今天优化一组SQL的情况来看，5.1早已不是这样，MySQL优化器考虑了数据分布的影响，使用不同的值，对同一条SQL可能产生完全不同的执行计划。可以做如下测试。

　　有一张表 A (id,c1)，假设采用“SELECT c1,count(*) FROM table GROUP BY c1”的方式来查看每一列每个值的数据量的结果如下：

　　c1 count(*)

　　1 100

　　2 1000

　　3 10000

　　4 100000

　　假设现在c1上有个索引 idx_1 (c1)。

　　当我采用只有100个值的1作为条件的筛选值查看执行计划时，MySQL会毫不犹豫的走 idx_1 索引。

　　但是改为4作为筛选值，基本上都可以看到全表扫描的执行计划。

　　EXPLAIN SELECT * FROM A WHERE c1=1;

　　EXPLAIN SELECT * FROM A WHERE c1=4;

　　虽然从源码目录的 sql/sql_select.cc 中并未找到具体的优化代码，但是从sql/opt_range.cc来看，至少RANGE查询的优化已经通过蒙特卡罗方法来估算要选择的值的出现概率，那么有理由相信，如此简单的选择查询，MYSQL肯定也估算了要查询的值出现的概率，然后以此为依据计算访问路径。

　　所以，一条SQL优化时，不仅要看数据的离散度，还得看经常被当作筛选值的数值唯一性是否够好，如果被筛选的值唯一性不好，建立索引依然是没有什么意义的，因为MySQL根本不会选择这个索引。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

作者

: penglixun

数据分布对MySQL执行计划的影响

取消回复

作者

penglixun

相关推荐

甲骨文宣布MySQL Cluster 7.4全面上市

解读MySQL数据库的双向复制

多种不同的MySQL数据库SSL配置

在线数据统计公司使用TokuDB进行数据压缩