文档章节

Freeshell 查明 NFS 经常卡死问题

刺猬一号
 刺猬一号
发布于 2017/06/16 00:07
字数 475
阅读 13
收藏 0

2015 年 2 月 3 日,freeshell 出现持续两个小时的 NFS 卡死问题。事实上,2014 年 8 月启用外部磁盘以来,就经常出现持续几十秒甚至几分钟的 NFS 卡死,卡死期间外部磁盘上的 freeshell 无法执行任何操作,有的 freeshell 还会因为磁盘操作超时而关机。之前一直以为是 NFS bug 导致了死锁,没有定位到故障原因,也没能重现。

2 月 3 日,通过 tcpdump 抓包和 strace nfsiod 进程的方法,查明 NFS server not responding 的问题是由于外部硬盘(一块希捷的 2T 绿盘)过于繁忙。

在 NFS 卡死的时段,外部磁盘读的平均延迟可达 600ms,写的平均延迟是 1400ms。当初设置 NFS 挂载参数的时候,我没有考虑到磁盘繁忙的问题,只是想到了网络延迟不应当超过 1 秒,于是就设置了超时 timeo=10,表示 1 秒超时。一个 NFS 请求可能需要分解为多个磁盘读请求,这些请求的时间之和很可能超过 1 秒,也就是大部分读写请求还没来得及发给磁盘就超时了,形成了 NFS 服务器失去响应的假象。

下面是 早先的挂载参数
vers=3,rw,rsize=32768,wsize=32768,tcp,timeo=10,retrans=5,soft,intr,sec=sys,lookupcache=all,ac,nocto

现将超时修改成 30 秒(timeo=300)。
vers=3,rw,rsize=32768,wsize=32768,tcp,timeo=300,retrans=5,soft,intr,sec=sys,lookupcache=all,ac,nocto

2 月 3 日已经修改 fstab,但由于挂载着的 NFS 不能修改挂载参数(见 man nfs),需要关闭所有外部磁盘上的虚拟机才能重新挂载 NFS。2 月 4 日刚好 1 号节点挂了,于是把所有其他节点也重启了一遍,NFS 参数就更新了。

© 著作权归作者所有

共有 人打赏支持
刺猬一号
粉丝 11
博文 373
码字总数 616361
作品 0
深圳
私信 提问
中科大 LUG 服务器遭受大规模网络攻击

自6月1日晚开始,中科大的LUG服务器遭受大规模攻击。包括开源软件镜像在内的多个服务出现故障。6月3日,镜像首页提示用户对下载的文件进行checksum校验,官方建议切换至其他软件源或谨慎使用...

oschina
2015/06/05
8.9K
36
如何确定是程序响应慢还是网络慢?

现在有一台主服务器,仅仅只部署了nginx服务,底下有若干台web服务器用内网相连,外网都是访问这台主服务器 最近总出现问题发现经常卡死,无响应 在服务器上添加一个静态文件,直接通过nginx...

speedhao
2016/08/31
466
4
eclipse优化问题,优化一直不理想,具体细节请看描述

计算机配置:cpu i7-7700hq 内存 16G 问题:eclipse经常卡死,有的时候是刚启动eclipse的时候,选择完工作空间,点击确定之后,就一直停留在loading workbench 中,得等6分钟左右才进入; 第...

宇宙浪子_long
03/02
554
10
IntelliJ IDEA 14.1 卡顿

IntelliJ IDEA 14.1 在win8.1 jdk1.7 下编辑经常卡死,cpu 高占用率,你们有这种问题吗?

HulkZ
2015/03/27
11.7K
14
加速网络文件系统NFS访问速度--Cachefiles

NFS是一种经常使用到的网络共享文件系统,在分布式环境下,多台服务器的文件共享是一个问题。然而,对于这个问题,最常想到最容易做到的那就非NFS莫属了。那么如何来提高NFS文件的访问性能呢...

NorthBoy
2014/01/01
1K
1

没有更多内容

加载失败,请刷新页面

加载更多

java框架学习日志-2

上篇文章(java框架学习日志-1)虽然跟着写了例子,也理解为什么这么写,但是有个疑问,为什么叫控制反转?控制的是什么?反转又是什么? 控制其实就是控制对象的创建。 反转与正转对应,正转...

白话
24分钟前
0
0
Integer使用双等号比较会发生什么

话不多说,根据以下程序运行,打印的结果为什么不同? Integer a = 100;Integer b = 100;System.out.println(a == b);//print : trueInteger a = 200;Integer b = 200;System.out.pr...

兜兜毛毛
昨天
8
0
CockroachDB

百度云上的CockroachDB 云数据库 帮助文档 > 产品文档 > CockroachDB 云数据库 > 产品描述 开源NewSQL – CockroachDB在百度内部的应用与实践 嘉宾演讲视频及PPT回顾:http://suo.im/5bnORh ...

miaojiangmin
昨天
4
0
I2C EEPROM驱动实例分析

上篇分析了Linux Kernel中的I2C驱动框架,本篇举一个具体的I2C设备驱动(eeprom)来对I2C设备驱动有个实际的认识。 s3c24xx系列集成了一个基于I2C的eeprom设备at24cxx系列。at24cxx系列芯片包...

yepanl
昨天
5
0
设计模式之工厂模式

本篇博文主要翻译这篇文章: https://www.journaldev.com/1392/factory-design-pattern-in-java 由于翻译水平有限,自认为许多地方翻译不恰当,欢迎各位给出宝贵的建议,建议大家去阅读原文。...

firepation
昨天
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部