分析并解决MySQL数据库服务器变慢问题

日期: 2011-12-04 作者:Eugene 来源:TechTarget中国 英文

  第一步 检查系统的状态

  通过操作系统的一些工具检查系统的状态,比如CPU、内存、交换、磁盘的利用率,根据经验或与系统正常时的状态相比对,有时系统表面上看起来看空闲,这也可能不是一个正常的状态,因为cpu可能正等待IO的完成。除此之外,还应观注那些占用系统资源(cpu、内存)的进程。

  1.1 使用sar来检查操作系统是否存在IO问题

  #sar -u 2 10 — 即每隔2秒检察一次,共执行20次。

  结果示例:

  注:在redhat下,%system就是所谓的%wio。

  Linux 2.4.21-20.ELsmp (YY075) 05/19/2005

  10:36:07 AM CPU %user %nice %system %idle

  10:36:09 AM all 0.00 0.00 0.13 99.87

  10:36:11 AM all 0.00 0.00 0.00 100.00

  10:36:13 AM all 0.25 0.00 0.25 99.49

  10:36:15 AM all 0.13 0.00 0.13 99.75

  10:36:17 AM all 0.00 0.00 0.00 100.00

  其中:

  Ø %usr指的是用户进程使用的cpu资源的百分比;

  Ø %sys指的是系统资源使用cpu资源的百分比;

  Ø %wio指的是等待io完成的百分比,这是值得观注的一项;

  Ø %idle即空闲的百分比。

  如果wio列的值很大,如在35%以上,说明系统的IO存在瓶颈,CPU花费了很大的时间去等待I/O的完成。Idle很小说明系统CPU很忙。像以上的示例,可以看到wio平均值为11,说明I/O没什么特别的问题,而idle值为零,说明cpu已经满负荷运行了。

  1.2 使用vmstat监控内存 cpu资源

  [root@mysql1 ~]# vmstat

  procs ———–memory———- —swap– —–io—- –system– —–cpu——

  r b swpd free buff cache si so bi bo in cs us sy id wa st

  0 0 72 25428 54712 672264 0 0 14 43 53 59 1 1 98 0 0

  vmstat 的输出那些信息值得关注?

  io bo: 磁盘写的数据量稍大,如果是大文件的写,10M以内基本不用担心,如果是小文件写2M以内基本正常

  1.2.1 CPU问题

  下面几列需要被察看,以确定cpu是否有问题

  Processes in the run queue (procs r)

  User time (cpu us)

  System time (cpu sy)

  Idle time (cpu id)

  问题情况:

  1.) 如果processes in run queue (procs r)的数量远大于系统中cpu的数量,将会使系统便慢。

  2.) 如果这个数量是cpu的4倍的话,说明系统正面临cpu能力短缺,这将使系统运行速度大幅度降低

  3.) 如果cpu的idle时间经常为0的话,或者系统占用时间(cpu sy)是用户占用时间(cpu us)两辈的话,系统面临缺少cpu资源

  解决方案 :

  解决这些情况,涉及到调整应用程序,使其能更有效的使用cpu,同时增加cpu的能力或数量

  1.2.2内存问题

  主要查看页导入的数值(swap中的si),如果该值比较大就要考虑内存,大概方法如下:

  1).最简单的,加大RAM

  2).减少RAM的需求

  1.3磁盘IO问题

  处理方式:做raid10提高性能

  1.4网络问题

  telnet一下MySQL对外开放的端口,如果不通的话,看看防火墙是否正确设置了。另外,看看MySQL是不是开启了skip-networking的选项,如果开启请关闭。

  第二步 检查mysql参数

  2.1 几个不被注意的mysql参数

  2.1.1 max_connect_errors

  max_connect_errors默认值为10,如果受信帐号错误连接次数达到10则自动堵塞,需要flush hosts来解除。如果你得到象这样的一个错误:

  Host ’hostname’ is blocked because of many connection errors.

  Unblock with ’mysqladmin flush-hosts’

  这意味着,mysqld已经得到了大量(max_connect_errors)的主机’hostname’的在中途被中断了的连接请求。在max_connect_errors次失败请求后,mysqld认定出错了(象来字一个黑客的攻击),并且阻止该站点进一步的连接,直到某人执行命令mysqladmin flush-hosts。

  内网连接的话,建议设置在10000以上,已避免堵塞,并定期flush hosts。

  2.1.2 connect_timeout

  指定MySQL服务等待应答一个连接报文的最大秒数,超出该时间,MySQL向客户端返回 bad handshake。默认值是5秒,在内网高并发环境中建议设置到10-15秒,以便避免bad hand shake。建议同时关注thread_cache_size并设置thread_cache_size为非0值,大小具体调整。

  2.1.3 skip-name-resolve

  skip-name-resolve能大大加快用户获得连接的速度,特别是在网络情况较差的情况下。MySQL在收到连接请求的时候,会根据请求包中获得的ip来反向追查请求者的主机名。然后再根据返回的主机名又一次去获取ip。如果两次获得的ip相同,那么连接就成功建立了。在DNS不稳定或者局域网内主机过多的情况下,一次成功的连接将会耗费很多不必要的时间。假如MySQL服务器的ip地址是广域网的,最好不要设置skip-name-resolve。

  2.1.4 slave-net-timeout=seconds

  参数含义:当slave从主数据库读取log数据失败后,等待多久重新建立连接并获取数据。默认值是3600秒,如果需要保证同步性,如此NC的参数请极力控制在10秒以下。

  2.1.5 master-connect-retry

  参数含义:当重新建立主从连接时,如果连接建立失败,间隔多久后重试。默认是60秒,请按照合理的情况去设置参数。

  第三步 检查mysql 相关状态值

  3.1关注连接数

  如果连接数达到了最大连接数,那不管 有多少资源,用户都会阻塞在外面。

  修改mysql最大连接数:

  打开my.ini,修改max_connections=100(默认为100)。

  请根据硬件情况调整到合适的大小,一般经验值可设为3000。Windows服务器大概支持量为1500-1800个连接,linux服务器可以支持到8000个左右。

  请将max_user_connections设0——–这个0代表不限制单用户的最大连接数,其最大连接值可以等于max_connections值。

  mysql> show global status like ‘Max_used_connections’;

  检查下最大的过往使用连接数,这个值在max_connections的85%左右是比较合适的,如果过高则是max_connections过少或者系统负荷过高了。

  3.1.1 mysqladmin -uroot status

  [root@mysql1 ~]# mysqladmin -uroot status

  Uptime: 1742276 Threads: 2 Questions: 2538 Slow queries: 0 Opens: 145 Flush tables: 1 Open tables: 23 Queries per second avg: 0.1

  3.1.2 show full processlist

  1.显示所有进程

  mysql> show full processlist;

  +—–+——+———–+——+———+——+——-+———————–+

  | Id | User | Host | db | Command | Time | State | Info |

  +—–+——+———–+——+———+——+——-+———————–+

  | 629 | root | localhost | NULL | Query | 0 | NULL | show full processlist |

  | 633 | root | localhost | NULL | Sleep | 11 | | NULL |

  +—–+——+———–+——+———+——+——-+———————–+

  2 rows in set (0.00 sec)

  2.如果正在运行的语句太多,运行时间太长,表示MySQL效率有问题。必要的时候可以将对应的进程kill掉。

  杀死休眠的进程kill ID号

  mysql> kill 633;

  Query OK, 0 rows affected (0.00 sec)

  3.关注TIME参数,看看正在运行的用户进程有多少是长时间占用的,具体分析下。

  3.1.3使用mysqlreport关注Connections,Threads

  __ Connections _________________________________________________________

  Max used 3 of 200 %Max: 1.50

  Total 30.16k 0.7/s

  。。。。。。

  __ Threads _____________________________________________________________

  Running 1 of 2

  Cached 1 of 300 %Hit: 99.99

  Created 3 0.0/s

  Slow 0 0/s

  3.2关注下系统锁情况

  3.2.1 mysql> show status like ‘%lock%’;

  +——————————-+———+

  | Variable_name | Value |

  +——————————-+———+

  | Com_lock_tables | 0 |

  | Com_unlock_tables | 0 |

  | Innodb_row_lock_current_waits | 0 |

  | Innodb_row_lock_time | 0 |

  | Innodb_row_lock_time_avg | 0 |

  | Innodb_row_lock_time_max | 0 |

  | Innodb_row_lock_waits | 0 |

  | Table_locks_immediate | 2667760 |

  | Table_locks_waited | 0 |

  3.2.2使用mysqlreport关注Table Locks,InnoDB Lock

  __ Questions ___________________________________________________________

  Total 3.38M 81.4/s

  DMS 2.88M 69.3/s %Total: 85.11

  QC Hits 382.70k 9.2/s 11.32

  Com_ 90.50k 2.2/s 2.68

  COM_QUIT 30.15k 0.7/s 0.89

  +Unknown 18 0.0/s 0.00

  Slow 1 s 92 0.0/s 0.00 %DMS: 0.00 Log: OFF

  。。。。。。

  __ Table Locks _________________________________________________________

  Waited 0 0/s %Total: 0.00

  Immediate 2.67M 64.2/s

  。。。。。。

  __ InnoDB Lock _________________________________________________________

  Waits 0 0/s

  Current 0

  Time acquiring

  Total 0 ms

  Average 0 ms

  Max 0 ms

  。。。。。。

  如果wait过多,平均时间过长,那就是查询设计的有问题,仔细关注下超长时间的查询,并打开slow_query_log。

  3.3 关注慢查询(slow query)日志

  日志必然会拖慢系统速度,特别是CPU资源,所以如果CPU资源充分,可以一直打开,如果不充足,那就在需要调整的时候,或者在replication从服务器上打开(针对select)

  mysql> show variables like ‘%slow%’;

  +———————+—————————————-+

  | Variable_name | Value |

  +———————+—————————————-+

  | log_slow_queries | OFF |

  | slow_launch_time | 2 |

  | slow_query_log | OFF |

  | slow_query_log_file | /data0/mysql/3306/data/mysql1-slow.log |

  +———————+—————————————-+

  4 rows in set (0.00 sec)

  mysql> set GLOBAL slow_query_log=on;

  Query OK, 0 rows affected (0.00 sec)

  3.3.1关注慢查询涉及的表的相关状态

  1. 表内记录数。尽量控制在500万行以内(有索引),建议控制在200万行

  2. 表内索引的使用。

  3. 表如果update,delete,insert频繁,可以考虑optimize table优化下文件存放,索引,存储空间。

  4. 表内update,insert,delete查询的锁定时间。

  5. select for update如果条件字段无索引的话,会引起的是锁全表而不是行锁,请关注。

  6. 如果查询包括GROUP BY但你想要避免排序结果的消耗,你可以指定ORDER BY NULL禁止排序。

  3.3.2定期分析表

  ANALYZE TABLE

  语法:

  ANALYZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name [, tbl_name] …

  本语句用于分析和存储表的关键字分布。在分析期间,使用一个读取锁定对表进行锁定。这对于MyISAM, BDB和InnoDB表有作用。对于MyISAM表,本语句与使用myisamchk -a相当。

  CHECK TABLE

  语法:

  CHECK TABLE tbl_name [, tbl_name] … [option] …

  option = {QUICK | FAST | MEDIUM | EXTENDED | CHANGED}

  检查一个或多个表是否有错误。CHECK TABLE对MyISAM和InnoDB表有作用。对于MyISAM表,关键字统计数据被更新。

  CHECK TABLE也可以检查视图是否有错误,比如在视图定义中被引用的表已不存在。

  CHECKSUM TABLE

  语法:

  CHECKSUM TABLE tbl_name [, tbl_name] … [ QUICK | EXTENDED ]

  报告一个表校验和。

  3.3.3使用optimize table

  OPTIMIZE TABLE

  语法:

  OPTIMIZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name [, tbl_name] …

  如果已经删除了表的一大部分,或者如果您已经对含有可变长度行的表(含有VARCHAR, BLOB或TEXT列的表)进行了很多更改,则应使用OPTIMIZE TABLE。被删除的记录被保持在链接清单中,后续的INSERT操作会重新使用旧的记录位置。您可以使用OPTIMIZE TABLE来重新利用未使用的空间,并整理数据文件的碎片。

  OPTIMIZE TABLE只对MyISAM, BDB和InnoDB表起作用。

  附录:

  一.Sar命令获得

  安装sysstat 系统状态包

  [root@mysql1 ~]# yum info sysstat

  Loaded plugins: fastestmirror

  Loading mirror speeds from cached hostfile

  Installed Packages

  Name : sysstat

  Arch : i386

  Version : 7.0.2

  Release : 3.el5

  Size : 383 k

  Repo : installed

  Summary : sar 和 iostat 系统监视命令。

  URL : http://perso.orange.fr/sebastien.godard/

  License : GPL

  Description: 该软件包为 Linux 提供了 sar 和 iostat 工具。sar 和 iostat

  : 使系统能够监视磁盘、网络、以及其它 IO 活动。

  :

  [root@mysql1 ~]# yum install sysstat

  Loaded plugins: fastestmirror

  Loading mirror speeds from cached hostfile

  Setting up Install Process

  Resolving Dependencies

  –> Running transaction check

  —> Package sysstat.i386 0:7.0.2-3.el5 set to be updated

  –> Finished Dependency Resolution

  Dependencies Resolved

  ============================================================================================

  Package Arch Version Repository Size

  ============================================================================================

  Installing:

  sysstat i386 7.0.2-3.el5 CentOS 169 k

  Transaction Summary

  ============================================================================================

  Install 1 Package(s)

  Update 0 Package(s)

  Remove 0 Package(s)

  Total download size: 169 k

  Is this ok [y/N]: y

  Downloading Packages:

  sysstat-7.0.2-3.el5.i386.rpm | 169 kB 00:00

  Running rpm_check_debug

  Running Transaction Test

  Finished Transaction Test

  Transaction Test Succeeded

  Running Transaction

  Installing : sysstat 1/1

  Installed:

  sysstat.i386 0:7.0.2-3.el5

  Complete!

  sar 命令行的常用格式:

  在linux中使用sar调优系统性能

  关键字: sar

  sar默认在linux下没有安装,需要我们手工安装,一般建议源码方式安装,下载类似sysstat-6.1.3.tar.gz

  然后configure make make install即可使用.

  sar 命令行的常用格式:

  sar [options] [-A] [-o file] t [n]

  在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有

  的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式

  存放在文件中,file 在此处不是关键字,是文件名。options 为命令行选项,sar命令

  的选项很多,下面只列出常用选项:

  -A:所有报告的总和。

  -u:CPU利用率

  -v:进程、I节点、文件和锁表状态。

  -d:硬盘使用报告。

  -r:没有使用的内存页面和硬盘块。

  -g:串口I/O的情况。

  -b:缓冲区使用情况。

  -a:文件读写情况。

  -c:系统调用情况。

  -R:进程的活动情况。

  -y:终端设备活动情况。

  -w:系统交换活动。

  下面将举例说明。

  例一:使用命令行 sar -u t n

  例如,每60秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制

  形式存入当前目录下的文件zhou中,需键入如下命令:

  # sar -u -o zhou 60 5

  屏幕显示:

  SCO_SV   scosysv 3.2v5.0.5 i80386   10/01/2001

  14:43:50   %usr   %sys  %wio    %idle(-u)

  14:44:50   0     1    4      94

  14:45:50   0     2    4      93

  14:46:50   0     2    2      96

  14:47:50   0     2    5      93

  14:48:50   0     2    2      96

  Average    0     2    4      94

  在显示内容包括:

  %usr:CPU处在用户模式下的时间百分比。

  %sys:CPU处在系统模式下的时间百分比。

  %wio:CPU等待输入输出完成时间的百分比。

  %idle:CPU空闲时间百分比。

  在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在I/O瓶颈,

  %idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,

  此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表

  明系统中最需要解决的资源是CPU。

  如果要查看二进制文件zhou中的内容,则需键入如下sar命令:

  # sar -u -f zhou

  可见,sar命令即可以实时采样,又可以对以往的采样结果进行查询。

  例二:使用命行sar -v t n

  例如,每30秒采样一次,连续采样5次,观察核心表的状态,需键入如下命令:

  # sar -v 30 5

  屏幕显示:

  SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001

  10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz   (-v)

  10:33:53 305/ 321  0 1337/2764  0 1561/1706 0 40/ 128

  10:34:23 308/ 321  0 1340/2764  0 1587/1706 0 37/ 128

  10:34:53 305/ 321  0 1332/2764  0 1565/1706 0 36/ 128

  10:35:23 308/ 321  0 1338/2764  0 1592/1706 0 37/ 128

  10:35:53 308/ 321  0 1335/2764  0 1591/1706 0 37/ 128

  显示内容包括:

  proc-sz:目前核心中正在使用或分配的进程表的表项数,由核心参数MAX-PROC控制。

  inod-sz:目前核心中正在使用或分配的i节点表的表项数,由核心参数

  MAX-INODE控制。

  file-sz: 目前核心中正在使用或分配的文件表的表项数,由核心参数MAX-FILE控

  制。

  ov:溢出出现的次数。

  Lock-sz:目前核心中正在使用或分配的记录加锁的表项数,由核心参数MAX-FLCKRE

  控制。

  显示格式为

  实际使用表项/可以使用的表项数

  显示内容表示,核心使用完全正常,三个表没有出现溢出现象,核心参数不需调整,如

  果出现溢出时,要调整相应的核心参数,将对应的表项数加大。

  例三:使用命行sar -d t n

  例如,每30秒采样一次,连续采样5次,报告设备使用情况,需键入如下命令:

  # sar -d 30 5

  屏幕显示:

  SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001

  11:06:43 device %busy   avque   r+w/s  blks/s  avwait avserv (-d)

  11:07:13 wd-0   1.47   2.75   4.67   14.73   5.50 3.14

  11:07:43 wd-0   0.43   18.77   3.07   8.66   25.11 1.41

  11:08:13 wd-0   0.77   2.78   2.77   7.26   4.94 2.77

  11:08:43 wd-0   1.10   11.18   4.10   11.26   27.32 2.68

  11:09:13 wd-0   1.97   21.78   5.86   34.06   69.66 3.35

  Average wd-0   1.15   12.11   4.09   15.19   31.12 2.80

  显示内容包括:

  device: sar命令正在监视的块设备的名字。

  %busy: 设备忙时,传送请求所占时间的百分比。

  avque: 队列站满时,未完成请求数量的平均值。

  r+w/s: 每秒传送到设备或从设备传出的数据量。

  blks/s: 每秒传送的块数,每块512字节。

  avwait: 队列占满时传送请求等待队列空闲的平均时间。

  avserv: 完成传送请求所需平均时间(毫秒)。

  在显示的内容中,wd-0是硬盘的名字,%busy的值比较小,说明用于处理传送请求的有

  效时间太少,文件系统效率不高,一般来讲,%busy值高些,avque值低些,文件系统

  的效率比较高,如果%busy和avque值相对比较高,说明硬盘传输速度太慢,需调整。

  例四:使用命行sar -b t n

  例如,每30秒采样一次,连续采样5次,报告缓冲区的使用情况,需键入如下命令:

  # sar -b 30 5

  屏幕显示:

  SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001

  14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)

  14:55:29 0  147  100  5  21  78   0   0

  14:55:59 0  186  100  5  25  79   0   0

  14:56:29 4  232   98  8  58  86   0   0

  14:56:59 0  125  100  5  23  76   0   0

  14:57:29 0   89  100  4  12  66   0   0

  Average  1  156   99  5  28  80   0   0

  显示内容包括:

  bread/s: 每秒从硬盘读入系统缓冲区buffer的物理块数。

  lread/s: 平均每秒从系统buffer读出的逻辑块数。

  %rcache: 在buffer cache中进行逻辑读的百分比。

  bwrit/s: 平均每秒从系统buffer向磁盘所写的物理块数。

  lwrit/s: 平均每秒写到系统buffer逻辑块数。

  %wcache: 在buffer cache中进行逻辑读的百分比。

  pread/s: 平均每秒请求物理读的次数。

  pwrit/s: 平均每秒请求物理写的次数。

  在显示的内容中,最重要的是%cache和%wcache两列,它们的值体现着buffer的使用效

  率,%rcache的值小于90或者%wcache的值低于65,应适当增加系统buffer的数量,buffer

  数量由核心参数NBUF控制,使%rcache达到90左右,%wcache达到80左右。但buffer参数

  值的多少影响I/O效率,增加buffer,应在较大内存的情况下,否则系统效率反而得不到

  提高。

  例五:使用命行sar -g t n

  例如,每30秒采样一次,连续采样5次,报告串口I/O的操作情况,需键入如下命令:

  # sar -g 30 5

  屏幕显示:

  SCO_SV scosysv 3.2v5.0.5 i80386  11/22/2001

  17:07:03  ovsiohw/s  ovsiodma/s  ovclist/s (-g)

  17:07:33   0.00   0.00   0.00

  17:08:03   0.00   0.00   0.00

  17:08:33   0.00   0.00   0.00

  17:09:03   0.00   0.00   0.00

  17:09:33   0.00   0.00   0.00

  Average    0.00   0.00   0.00

  显示内容包括:

  ovsiohw/s:每秒在串口I/O硬件出现的溢出。

  ovsiodma/s:每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。

  ovclist/s :每秒字符队列出现的溢出。

  在显示的内容中,每一列的值都是零,表明在采样时间内,系统中没有发生串口I/O溢

  出现象。

  sar命令的用法很多,有时判断一个问题,需要几个sar命令结合起来使用,比如,怀疑

  CPU存在瓶颈,可用sar -u 和sar -q来看,怀疑I/O存在瓶颈,可用sar -b、sar -u和

  sar-d来看,以上举出的五例仅仅是其中的一部分,有兴趣的朋友不妨一试。

  本文来自: IXPUB技术社区(www.ixpub.net) 详细出处参考:http://www.ixpub.net/thread-749930-1-17.html

  二.vmstat命令输出分成六个部分:

  (1)进程procs:

  r:在运行队列中等待的进程数 。

  b:在等待io的进程数 。

  (2)内存memoy:

  swpd:现时可用的交换内存(单位KB)。

  free:空闲的内存(单位KB)。

  buff: 缓冲去中的内存数(单位:KB)。

  cache:被用来做为高速缓存的内存数(单位:KB)。

  (3) swap交换页面

  si: 从磁盘交换到内存的交换页数量,单位:KB/秒。

  so: 从内存交换到磁盘的交换页数量,单位:KB/秒。

  (4) io块设备:

  bi: 发送到块设备的块数,单位:块/秒。

  bo: 从块设备接收到的块数,单位:块/秒。

  (5)system系统:

  in: 每秒的中断数,包括时钟中断。

  cs: 每秒的环境(上下文)切换次数。

  (6)cpu中央处理器:

  cs:用户进程使用的时间 。以百分比表示。

  sy:系统进程使用的时间。 以百分比表示。

  id:中央处理器的空闲时间 。以百分比表示。

  如果 r经常大于 4 ,且id经常小于40,表示中央处理器的负荷很重。 如果bi,bo 长期不等于0,表示物理内存容量太小。

  三.根据mysql状态调整系统参数

  mysql> show global status;

  可以列出MySQL服务器运行各种状态值,另外,查询MySQL服务器配置信息语句:

  mysql> show variables;

  一、慢查询

  mysql> show variables like ‘%slow%’;

  +——————+——-+

  | Variable_name | Value |

  +——————+——-+

  | log_slow_queries | ON |

  | slow_launch_time | 2 |

  +——————+——-+

  mysql> show global status like ‘%slow%’;

  +———————+——-+

  | Variable_name | Value |

  +———————+——-+

  | Slow_launch_threads | 0 |

  | Slow_queries | 4148 |

  +———————+——-+

  配置中打开了记录慢查询,执行时间超过2秒的即为慢查询,系统显示有4148个慢查询,你可以分析慢查询日志,找出有问题的SQL语句,慢查询时间不宜设置过长,否则意义不大,最好在5秒以内,如果你需要微秒级别的慢查询,可以考虑给MySQL打补丁:http://www.percona.com/docs/wiki/release:start,记得找对应的版本。

  打开慢查询日志可能会对系统性能有一点点影响,如果你的MySQL是主-从结构,可以考虑打开其中一台从服务器的慢查询日志,这样既可以监控慢查询,对系统性能影响又小。

  二、连接数

  经常会遇见”MySQL: ERROR 1040: Too many connections”的情况,一种是访问量确实很高,MySQL服务器抗不住,这个时候就要考虑增加从服务器分散读压力,另外一种情况是MySQL配置文件中max_connections值过小:

  mysql> show variables like ‘max_connections’;

  +—————–+——-+

  | Variable_name | Value |

  +—————–+——-+

  | max_connections | 256 |

  +—————–+——-+

  这台MySQL服务器最大连接数是256,然后查询一下服务器响应的最大连接数:

  mysql> show global status like ‘Max_used_connections’;

  MySQL服务器过去的最大连接数是245,没有达到服务器连接数上限256,应该没有出现1040错误,比较理想的设置是:

  Max_used_connections / max_connections * 100% ≈ 85%

  最大连接数占上限连接数的85%左右,如果发现比例在10%以下,MySQL服务器连接数上限设置的过高了。

  三、Key_buffer_size

  key_buffer_size是对MyISAM表性能影响最大的一个参数,下面一台以MyISAM为主要存储引擎服务器的配置:

  mysql> show variables like ‘key_buffer_size’;

  +—————–+————+

  | Variable_name | Value |

  +—————–+————+

  | key_buffer_size | 536870912 |

  +—————–+————+

  分配了512MB内存给key_buffer_size,我们再看一下key_buffer_size的使用情况:

  mysql> show global status like ‘key_read%’;

  +————————+————-+

  | Variable_name | Value |

  +————————+————-+

  | Key_read_requests | 27813678764 |

  | Key_reads | 6798830 |

  +————————+————-+

  一共有27813678764个索引读取请求,有6798830个请求在内存中没有找到直接从硬盘读取索引,计算索引未命中缓存的概率:

  key_cache_miss_rate = Key_reads / Key_read_requests * 100%

  比如上面的数据,key_cache_miss_rate为0.0244%,4000个索引读取请求才有一个直接读硬盘,已经很BT了,key_cache_miss_rate在0.1%以下都很好(每1000个请求有一个直接读硬盘),如果key_cache_miss_rate在0.01%以下的话,key_buffer_size分配的过多,可以适当减少。

  MySQL服务器还提供了key_blocks_*参数:

  mysql> show global status like ‘key_blocks_u%’;

  +————————+————-+

  | Variable_name | Value |

  +————————+————-+

  | Key_blocks_unused | 0 |

  | Key_blocks_used | 413543 |

  +————————+————-+

  Key_blocks_unused表示未使用的缓存簇(blocks)数,Key_blocks_used表示曾经用到的最大的blocks数,比如这台服务器,所有的缓存都用到了,要么增加key_buffer_size,要么就是过渡索引了,把缓存占满了。比较理想的设置:

  Key_blocks_used / (Key_blocks_unused + Key_blocks_used) * 100% ≈ 80%

  四、临时表

  mysql> show global status like ‘created_tmp%’;

  +————————-+———+

  | Variable_name | Value |

  +————————-+———+

  | Created_tmp_disk_tables | 21197 |

  | Created_tmp_files | 58 |

  | Created_tmp_tables | 1771587 |

  +————————-+———+

  每次创建临时表,Created_tmp_tables增加,如果是在磁盘上创建临时表,Created_tmp_disk_tables也增加,Created_tmp_files表示MySQL服务创建的临时文件文件数,比较理想的配置是:

  Created_tmp_disk_tables / Created_tmp_tables * 100% <= 25%

  比如上面的服务器Created_tmp_disk_tables / Created_tmp_tables * 100% = 1.20%,应该相当好了。我们再看一下MySQL服务器对临时表的配置:

  mysql> show variables where Variable_name in (‘tmp_table_size’, ‘max_heap_table_size’);

  +———————+———–+

  | Variable_name | Value |

  +———————+———–+

  | max_heap_table_size | 268435456 |

  | tmp_table_size | 536870912 |

  +———————+———–+

  只有256MB以下的临时表才能全部放内存,超过的就会用到硬盘临时表。

  五、Open Table情况

  mysql> show global status like ‘open%tables%’;

  +—————+——-+

  | Variable_name | Value |

  +—————+——-+

  | Open_tables | 919 |

  | Opened_tables | 1951 |

  +—————+——-+

  Open_tables表示打开表的数量,Opened_tables表示打开过的表数量,如果Opened_tables数量过大,说明配置中table_cache(5.1.3之后这个值叫做table_open_cache)值可能太小,我们查询一下服务器table_cache值:

  mysql> show variables like ‘table_cache’;

  +—————+——-+

  | Variable_name | Value |

  +—————+——-+

  | table_cache | 2048 |

  +—————+——-+

  比较合适的值为:

  Open_tables / Opened_tables * 100% >= 85%

  Open_tables / table_cache * 100% <= 95%

  六、进程使用情况

  mysql> show global status like ‘Thread%’;

  +——————-+——-+

  | Variable_name | Value |

  +——————-+——-+

  | Threads_cached | 46 |

  | Threads_connected | 2 |

  | Threads_created | 570 |

  | Threads_running | 1 |

  +——————-+——-+

  如果我们在MySQL服务器配置文件中设置了thread_cache_size,当客户端断开之后,服务器处理此客户的线程将会缓存起来以响应下一个客户而不是销毁(前提是缓存数未达上限)。Threads_created表示创建过的线程数,如果发现Threads_created值过大的话,表明MySQL服务器一直在创建线程,这也是比较耗资源,可以适当增加配置文件中thread_cache_size值,查询服务器thread_cache_size配置:

  mysql> show variables like ‘thread_cache_size’;

  +——————-+——-+

  | Variable_name | Value |

  +——————-+——-+

  | thread_cache_size | 64 |

  +——————-+——-+

  示例中的服务器还是挺健康的。

  七、查询缓存(query cache)

  mysql> show global status like ‘qcache%’;

  +————————-+———–+

  | Variable_name | Value |

  +————————-+———–+

  | Qcache_free_blocks | 22756 |

  | Qcache_free_memory | 76764704 |

  | Qcache_hits | 213028692 |

  | Qcache_inserts | 208894227 |

  | Qcache_lowmem_prunes | 4010916 |

  | Qcache_not_cached | 13385031 |

  | Qcache_queries_in_cache | 43560 |

  | Qcache_total_blocks | 111212 |

  +————————-+———–+

  MySQL查询缓存变量解释:

  Qcache_free_blocks:缓存中相邻内存块的个数。数目大说明可能有碎片。FLUSH QUERY CACHE会对缓存中的碎片进行整理,从而得到一个空闲块。

  Qcache_free_memory:缓存中的空闲内存。

  Qcache_hits:每次查询在缓存中命中时就增大

  Qcache_inserts:每次插入一个查询时就增大。命中次数除以插入次数就是不中比率。

  Qcache_lowmem_prunes:缓存出现内存不足并且必须要进行清理以便为更多查询提供空间的次数。这个数字最好长时间来看;如果这个数字在不断增长,就表示可能碎片非常严重,或者内存很少。(上面的 free_blocks和free_memory可以告诉您属于哪种情况)

  Qcache_not_cached:不适合进行缓存的查询的数量,通常是由于这些查询不是 SELECT 语句或者用了now()之类的函数。

  Qcache_queries_in_cache:当前缓存的查询(和响应)的数量。

  Qcache_total_blocks:缓存中块的数量。

  我们再查询一下服务器关于query_cache的配置:

  mysql> show variables like ‘query_cache%’;

  +——————————+———–+

  | Variable_name | Value |

  +——————————+———–+

  | query_cache_limit | 2097152 |

  | query_cache_min_res_unit | 4096 |

  | query_cache_size | 203423744 |

  | query_cache_type | ON |

  | query_cache_wlock_invalidate | OFF |

  +——————————+———–+

  各字段的解释:

  query_cache_limit:超过此大小的查询将不缓存

  query_cache_min_res_unit:缓存块的最小大小

  query_cache_size:查询缓存大小

  query_cache_type:缓存类型,决定缓存什么样的查询,示例中表示不缓存 select sql_no_cache 查询

  query_cache_wlock_invalidate:当有其他客户端正在对MyISAM表进行写操作时,如果查询在query cache中,是否返回cache结果还是等写操作完成再读表获取结果。

  query_cache_min_res_unit的配置是一柄”双刃剑”,默认是4KB,设置值大对大数据查询有好处,但如果你的查询都是小数据查询,就容易造成内存碎片和浪费。

  查询缓存碎片率 = Qcache_free_blocks / Qcache_total_blocks * 100%

  如果查询缓存碎片率超过20%,可以用FLUSH QUERY CACHE整理缓存碎片,或者试试减小query_cache_min_res_unit,如果你的查询都是小数据量的话。

  查询缓存利用率 = (query_cache_size – Qcache_free_memory) / query_cache_size * 100%

  查询缓存利用率在25%以下的话说明query_cache_size设置的过大,可适当减小;查询缓存利用率在80%以上而且Qcache_lowmem_prunes > 50的话说明query_cache_size可能有点小,要不就是碎片太多。

  查询缓存命中率 = (Qcache_hits – Qcache_inserts) / Qcache_hits * 100%

  示例服务器 查询缓存碎片率 = 20.46%,查询缓存利用率 = 62.26%,查询缓存命中率 = 1.94%,命中率很差,可能写操作比较频繁吧,而且可能有些碎片。

  八、排序使用情况

  mysql> show global status like ‘sort%’;

  +——————-+————+

  | Variable_name | Value |

  +——————-+————+

  | Sort_merge_passes | 29 |

  | Sort_range | 37432840 |

  | Sort_rows | 9178691532 |

  | Sort_scan | 1860569 |

  +——————-+————+

  Sort_merge_passes 包括两步。MySQL 首先会尝试在内存中做排序,使用的内存大小由系统变量 Sort_buffer_size 决定,如果它的大小不够把所有的记录都读到内存中,MySQL 就会把每次在内存中排序的结果存到临时文件中,等 MySQL 找到所有记录之后,再把临时文件中的记录做一次排序。这再次排序就会增加 Sort_merge_passes。实际上,MySQL 会用另一个临时文件来存再次排序的结果,所以通常会看到 Sort_merge_passes 增加的数值是建临时文件数的两倍。因为用到了临时文件,所以速度可能会比较慢,增加 Sort_buffer_size 会减少 Sort_merge_passes 和 创建临时文件的次数。但盲目的增加 Sort_buffer_size 并不一定能提高速度,见 How fast can you sort data with MySQL?(引自http://qroom.blogspot.com/2007/09/mysql-select-sort.html,貌似被墙)

  另外,增加read_rnd_buffer_size(3.2.3是record_rnd_buffer_size)的值对排序的操作也有一点的好处,参见:http://www.mysqlperformanceblog.com/2007/07/24/what-exactly-is-read_rnd_buffer_size/

  九、文件打开数(open_files)

  mysql> show global status like ‘open_files’;

  +—————+——-+

  | Variable_name | Value |

  +—————+——-+

  | Open_files | 1410 |

  +—————+——-+

  mysql> show variables like ‘open_files_limit’;

  +——————+——-+

  | Variable_name | Value |

  +——————+——-+

  | open_files_limit | 4590 |

  +——————+——-+

  比较合适的设置:Open_files / open_files_limit * 100% <= 75%

  十、表锁情况

  mysql> show global status like ‘table_locks%’;

  +———————–+———–+

  | Variable_name | Value |

  +———————–+———–+

  | Table_locks_immediate | 490206328 |

  | Table_locks_waited | 2084912 |

  +———————–+———–+

  Table_locks_immediate表示立即释放表锁数,Table_locks_waited表示需要等待的表锁数,如果Table_locks_immediate / Table_locks_waited > 5000,最好采用InnoDB引擎,因为InnoDB是行锁而MyISAM是表锁,对于高并发写入的应用InnoDB效果会好些。示例中的服务器Table_locks_immediate / Table_locks_waited = 235,MyISAM就足够了。

  十一、表扫描情况

  mysql> show global status like ‘handler_read%’;

  +———————–+————-+

  | Variable_name | Value |

  +———————–+————-+

  | Handler_read_first | 5803750 |

  | Handler_read_key | 6049319850 |

  | Handler_read_next | 94440908210 |

  | Handler_read_prev | 34822001724 |

  | Handler_read_rnd | 405482605 |

  | Handler_read_rnd_next | 18912877839 |

  +———————–+————-+

  各字段解释参见http://hi.baidu.com/thinkinginlamp/blog/item/31690cd7c4bc5cdaa144df9c.html,调出服务器完成的查询请求次数:

  mysql> show global status like ‘com_select’;

  +—————+———–+

  | Variable_name | Value |

  +—————+———–+

  | Com_select | 222693559 |

  +—————+———–+

  计算表扫描率:

  表扫描率 = Handler_read_rnd_next / Com_select

  如果表扫描率超过4000,说明进行了太多表扫描,很有可能索引没有建好,增加read_buffer_size值会有一些好处,但最好不要超过8MB。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Eugene
Eugene

相关推荐