文档章节

druid下莫名其妙hold15分钟+。疑是socket timeout超时15分钟后,重建了新连接导致

noob_fly
 noob_fly
发布于 03/04 21:44
字数 1266
阅读 704
收藏 1

背景

在应用端通过mybatis的interceptor自定义Plugin拦截Executor, 统计输出sql的执行耗时。

今天生产发生一个很奇怪的问题: 莫名其妙卡顿15分钟+,其后正常返回sql正常结果! 使用druid版本是1.0.2。。。。。

日志分析

 统计发现:

  1. 出现该情况的单量有6笔,集中在特定的2个小时之内,都是查询sql;都发生在1台应用服务器上。
  2. 在这几笔订单卡住的时间内,轮询任务触发又正常查询成功并正确处理成功!
  3. 数据库层面没有慢sql;且数据库实例的指标监控稳定,应用监控除sql耗时监控异常外,其他一切正常。
  4. 日志没有输出error

推测是否是在getConnection过程中出现了等待。但因获取连接时的日志过少找不到具体的原因!

DruidDataSource的testConnectionInternal

网上的类似问题说的原因是Druid在从连接池中获取的连接(代码详见:DruidDataSource的getConnectionDirect),在开启testWhileIdle时,如果活跃时间距离当前比较久,那么将验证该连接是否有效,无效会discardConnection并再次去pool内获取

这个过程可能被数据库层面的防火墙策略已经关闭该连接,而客户端还傻傻的发sql验证直到超时。。。。

在该测试连接的方法中有一个查询超时超时时间:validationQueryTimeout。测试中是-1, 执行的是默认时间。。。。这个默认时间没有找到!! (有找到MappedStatementConfig由SqlMapConfiguration的defaultStatementTimeout)

深入理解JDBC的超时设置

应用与数据库间的timeout层级实例:
转帖: 深入理解JDBC的超时设置

 上层的timeout依赖于下层的timeout,只有下层的timeout无误时,上层的timeout才能确保正常。eg.  当socket timeout出现问题时,上层的statement timeout和transaction timeout都将失效。
 statement timeout 无法处理网络连接失败时的超时,它能做的仅仅是限制statement的操作时间;网络连接失败时的timeout必须交由JDBC来处理;JDBC的socket timeout会受到操作系统socket timeout设置的影响。

  1. Transaction Timeout: 一般存在于框架(Spring, EJB)或应用级。spring在配置事务切面的时候可以配置timeout。

  2. Statement Timeout: 通过调用JDBC的java.sql.Statement.setQueryTimeout(int timeout) API进行设置。 以myBatis为例,statement timeout的默认值可以通过sql-map-config.xml中的defaultStatementTimeout 属性进行设置。同时,也可以设置sqlmap中select,insert,update标签的timeout属性,从而对不同sql语句的超时时间进行独立的配置。

  3. JDBC的statement timeout:  通过调用Connection的createStatement()方法创建statement来executeQuery时,会注册一个 TimerTask ->CancelTask 用来给Timer -> ConnectionImpl.getCancelTimer()来处理timeout事项:发送 "KILL QUERY” 。 代码详见: StatementImpl  ConnectionImpl

  4. JDBC的socket timeout: 

    1. 由于TCP/IP的结构原因,socket没有办法探测到网络错误,因此应用也无法主动发现数据库连接断开。如果没有设置socket timeout的话,应用在数据库返回结果前会无期限地等下去,这种连接被称为dead connection。 为了避免dead connections,socket必须要有超时配置。socket timeout可以通过JDBC设置,socket timeout能够避免应用在发生网络错误时产生无休止等待的情况,缩短服务失效的时间。不推荐使用socket timeout来限制statement的执行时长,因此socket timeout的值必须要高于statement timeout,否则,socket timeout将会先生效,这样statement timeout就变得毫无意义,也无法生效。
      eg.   jdbc:mysql://xxx.xx.xxx.xxx:3306/database?connectTimeout=60000&socketTimeout=60000

  5. 操作系统的socket timeout配置


     

番外

MySQL JDBC的queryTimeout的一个坑

在该文章中说Statement.setQueryTimeout : 如果设置的超时时间过长,在当大批量的SQL同时执行时,每一个SQL都会创建一个CancelTask对象,虽然很快执行完,且会调用CancelTask.cancel()方法,但是CancelTask方法的源代码仅仅是将自己的状态修改为:CANCELLED,而并不会直接从队列中移除这个对象, 导致OOM。 建议在cancel()后需要purge一下。

解: MySQL Connector Java 5.1.44  版本 的 StatementImpl 已经有了purge; 且 在1.8版本的JDK对Timer的cancel()也增加了移除queue内容

Timer

     public int purge() {
         int result = 0;

         synchronized(queue) {
             for (int i = queue.size(); i > 0; i--) {
                 if (queue.get(i).state == TimerTask.CANCELLED) {
                     queue.quickRemove(i);
                     result++;
                 }
             }

             if (result != 0)
                 queue.heapify();
         }

         return result;
     }
}

    public void cancel() {
        synchronized(queue) {
            thread.newTasksMayBeScheduled = false;
            queue.clear();
            queue.notify();  // In case queue was already empty.
        }
    }

类似问题

通过网上blog查找发现有相似的问题存在:

  1. https://www.oschina.net/question/1450045_2157629

  2. https://www.2cto.com/database/201505/402016.html

  3. 在issues中搜索druid的testWhileIdle问题: https://github.com/alibaba/druid/issues/1260

© 著作权归作者所有

noob_fly
粉丝 8
博文 117
码字总数 130768
作品 0
广州
程序员
私信 提问
linux的TCP超时重传--一次数据断开连接分析

最近生产上发现一个问题,刚开始,应用连接数据库正常,如果长时间没有业务估计半小时以上,再发起业务时, 发现应用重连不上数据库,一直挂在重连那里,如果重启应用又能很快连上数据库(数...

suit
2014/09/26
1K
0
使用druid存在慢查(耗时约5分钟)

由于遇到慢查,前两天看了druid源码,也顺便提了问题"druid连接池的总量低于配置的minIdle"。但是慢查问题依然没有解决,故今日发帖期望 @wenshao 答疑。 线上情况: 我们线上环境服务端配置...

fei33423
2016/03/10
10.3K
7
Docker Swarm 进阶:Overlay 网络长连接问题

问题描述 如图所示,在 Swarm 集群中部署了 和 这两个服务,服务间通过 grpc 建立长连接实现服务间调用。然而 在调用 时,偶尔会出现如下错误: 在我们查看容器日志时,这个错误出现次数不是...

Anoyi
2018/08/21
0
0
druid之close connection error错误调整

数据库:oracle 数据源:druid 现象:生产环境存在两套环境,k8s和rancher,k8s环境每隔几分钟会出现close connection error,或者close statement error或者对数据库访问Broken pipe,然而r...

indi_yugj
2018/11/25
178
0
druid 数据库连接有效性检查

通过druid 的监控页面看到有一条SQL执行很耗时 达到了15分钟。 该SQL是用于获取连接时检查连接是否有效的。按理说应该很快就执行完了的。为什么会耗时这么久呢?这样会导致程序一直获取不到数...

winston952
2018/08/15
1K
2

没有更多内容

加载失败,请刷新页面

加载更多

社区投稿 | 线程简介和 MySQL 调试环境搭建

作者:高鹏 文章末尾有他著作的《深入理解MySQL主从原理 32讲》,深入透彻理解MySQL主从,GTID相关技术知识。 本文节选自《深入理解MySQL主从原理》第29节 注意:本文分为正文和附件两部分,...

爱可生
23分钟前
6
0
DDOS攻击可以分为什么类型?怎么样才能解决?

DDoS 是一种多源网络攻击,其目的是针对终端用户扰乱其网络的资源或服务。其不断进化的复杂性能够造成各种各样的伤害,例如欺诈以及勒索等。DDoS 攻击通常透过多重受损的系统或者装置注入殭尸...

云漫网络Ruan
26分钟前
5
0
从零开始入门 K8s| 阿里技术专家详解 K8s 核心概念

作者| 阿里巴巴资深技术专家、CNCF 9个 TCO 之一 李响 一、什么是 Kubernetes Kubernetes,从官方网站上可以看到,它是一个工业级的容器编排平台。Kubernetes 这个单词是希腊语,它的中文翻译...

阿里巴巴云原生
26分钟前
4
0
修改和编译spring源码,构建jar(spring-context-4.0.2.RELEASE)

上周在定位问题时,发现Spring容器实例化Bean的时候抛出异常,为了查看更详细的信息,决定修改spring-context-4.0.2.RELEASE.jar中的CommonAnnotationBeanPostProcessor类的代码,在里面打印...

程序员欣宸
29分钟前
3
0
MongoDB集群配置

MongoDB集群配置 2019年06月30日 13:21:05 2014Team 阅读数 77更多 分类专栏: MongoDB 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文...

linjin200
30分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部