当页导航

案例3 AIX cfgmgr扫描新磁盘,哐当一下,业务系统宕机

某金融用户报表业务系统,IBM P750*2 HDS VSP PowerHA环境,由于批处理IO时间较长,用户新购置了一台HDS闪存阵列解决目前存储性能瓶颈问题,新存储加电上架规划配置一番后,用户识别新存储准备数据迁移等一系列的工作,就在cfgmgr扫盘时候,没反应了,发现IBM P750分区宕掉了。收集日志...显示全部

某金融用户报表业务系统,IBM P750*2 HDS VSP PowerHA环境,由于批处理IO时间较长,用户新购置了一台HDS闪存阵列解决目前存储性能瓶颈问题,新存储加电上架规划配置一番后,用户识别新存储准备数据迁移等一系列的工作,就在cfgmgr扫盘时候,没反应了,发现IBM P750分区宕掉了。收集日志厂商一轮分析过后。发现一个细节被大家忽略了,导致今天的后果。

欢迎大家竞猜交流讨论,本周内公布原因.

收起

15回答

neilruleneilrule系统运维工程师 , zhou
xukaishicquptwxszmnj等赞同了此回答 
猜测是不是两边的存储都连接在了同一块HBA卡的两个口上面,然后HA没有停就扫描的,那样扫描链路会断一下的样子。显示全部

猜测是不是两边的存储都连接在了同一块HBA卡的两个口上面,

然后HA没有停就扫描的,那样扫描链路会断一下的样子。

收起
 2016-11-28
jakeyeaglelionjakeyeaglelion其它 , kk
xukaishileolinfengzolaars等赞同了此回答 
遇到过dml版本不兼容的情况显示全部

遇到过dml版本不兼容的情况

收起
 2016-11-30
孙伟光孙伟光IT顾问 , 中国金融电子化公司
信息孤岛经世致用aixkevin等赞同了此回答 
大家说的都是出现此类的问题的点了。这个案例好在用户当初考虑到了安全起见扫盘的是备机,没有对业务产生影响。实际原因也让我们深思,有些事情不能想当然.大家继续交流,明天公布原因...显示全部

大家说的都是出现此类的问题的点了。这个案例好在用户当初考虑到了安全起见扫盘的是备机,没有对业务产生影响。实际原因也让我们深思,有些事情不能想当然.大家继续交流,明天公布原因

收起
 2016-11-29
nihaoyaof1nihaoyaof1交互工程师 , bbc
信息孤岛aixkevin王巧雷等赞同了此回答 
有个问题哈,如果是多路径软件兼容性导致的问题,那么我用cfgmgr -l fcsx 进行扫描,同样也会出现这种问题,只是指定具体的父设备进行扫描,减少了扫描到其它设备由于bug宕机的概率而已。那怎样才能彻底避免此种或者其他未知bug导致的风险了?...显示全部

有个问题哈,如果是多路径软件兼容性导致的问题,那么我用

cfgmgr -l fcsx 进行扫描,同样也会出现这种问题,只是指定具体的父设备进行扫描,减少了扫描到其它设备由于bug宕机的概率而已。那怎样才能彻底避免此种或者其他未知bug导致的风险了?

收起
 2016-12-01
wangs0717wangs0717系统工程师 , Teamsun
信息孤岛neilruleaixkevin等赞同了此回答 
cfgmgr -l  指定设备,我觉得会比较安全。显示全部

cfgmgr -l  指定设备,我觉得会比较安全。

收起
 2016-11-29
mmsc5166mmsc5166系统工程师 , 某金融公司信息技术中心
经世致用aixkevinaixchina赞同了此回答
是不是cfgmgr扫描磁盘的时候,你新加的盘有点小多,导致扫描时间变长,而扫描设备会导致网络设备中断,最终触发导致HA发生切换,但又没切过去,系统guang~~~熄火了显示全部

是不是cfgmgr扫描磁盘的时候,你新加的盘有点小多,导致扫描时间变长,而扫描设备会导致网络设备中断,最终触发导致HA发生切换,但又没切过去,系统guang~~~熄火了

收起
答案包含:原理分析 2016-11-29
dongfangxu87dongfangxu87系统运维工程师 , IBM
aixkevinaixchina赞同了此回答
磁盘锁的可能性比较大显示全部

磁盘锁的可能性比较大

收起
 2016-11-29
老么老么系统工程师 , mbi
aixkevin赞同了此回答
这个牛X,cfgmgr 宕机,还是细节问题,比较难猜。磁盘锁的问题?显示全部

这个牛X,cfgmgr 宕机,还是细节问题,比较难猜。磁盘锁的问题?

收起
 2016-11-28
flm20080704flm20080704系统工程师 , 北京华创
aixkevin赞同了此回答
还在想dml是什么,原来是HDLM多路径兼容问题。一脸懵~显示全部

还在想dml是什么,原来是HDLM多路径兼容问题。一脸懵~

收起
 2016-11-30
孙伟光孙伟光IT顾问 , 中国金融电子化公司
aixkevin赞同了此回答
由于当初用户使用的VSP 存储HDLM版本较老,不兼容新采购的HDS闪存。 导致了此次事件的发生.显示全部

由于当初用户使用的VSP 存储HDLM版本较老,不兼容新采购的HDS闪存。 导致了此次事件的发生.

收起
 2016-11-30
  • 这果断是HDS攻城狮的责任,新上设备一般都要support matrix查询一下。
    2016-12-04

撰写回答

提问者

孙伟光IT顾问, 中国金融电子化公司
发布10134
回答4142