IBM - RS6000小型机故障的基本定位方法
RS/6000小型机故障的基本定位方法
一 故障的定义
.弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作?
.故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同?
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 二 故障信息的收集
1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。 2)系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年)
T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视) C(分类): H 硬件; S 软件; O 用户; U未知
#errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666 <--- ERROR_ID用大小写均可 例:
LABEL: SCSI_ERR1 ID: 0502F666
Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 123456789012 Node ID: host1 Class: H
Type: PERM
Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08
VPD: <--- Virtal Product Data Device Driver Level.........00 Diagnostic Level............00 Displayable Message.........SCSI EC Level....................C25928 FRU Number..................30F8834 Manufacturer................IBM97F Part Number.................59F4566 Serial Number...............00002849 ROS Level and ID............24 Read/Write Register Ptr.....0120 Description ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE CABLE TERMINATOR DEVICE
Failure Causes ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES CHECK CABLE AND ITS CONNECTIONS
Detail Data SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3)控制面板上的LED 代码
.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。 .4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.8 位和4位代码可查看系统服务手册 (Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。 .闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。 888-102-xxx-0C0 系统dump完成,可关电重启。 888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
4)SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键。 选择\
选择\抄下8位故障代码 (在SMS 中还可以更改系统启动顺序表) 5) MAIL #mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag #diag
> 选高级诊断(Advance Diagnostic) > 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。 7)其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
lspv 查看物理卷信息 #lspv
hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg
lsvg 查看卷组信息 #lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes MAX PPs per PV: 2032 MAX PVs: 16
#lsvg -l rootvg rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 1 1 closed/syncd N/A ...
lv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs 1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件组信息 # lslpp -L |grep 23100020 ....
devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt 看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。
lsattr 查看设备参数设置 # lsattr -El ent2
busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority False tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0x000000000000 ALTERNATE ETHERNET address True ip_gap 96 Inter-Packet Gap True
lscfg 查看VPD信息(Virtual Product Data) # lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500)
Part Number.................097H0645
FRU Number..................097H0645 <-- 备件号 Serial Number...............C8217227 EC Level....................0000F20825 Manufacturer................IBM053
相关推荐:
- [实用模板]第八章:法国“新浪潮”与“左岸派”
- [实用模板]2021年北京上半年临床医学检验技师生物
- [实用模板]SAP GUI 7.10客户端安装配置文档
- [实用模板]2001年临床执业医师资格考试综合笔试试
- [实用模板]36机场工作实用英语词汇总结
- [实用模板](一)社会保险稽核通知书
- [实用模板]安全教育主题班会材料
- [实用模板]濉溪县春季呼吸道传染病防控应急演练方
- [实用模板]长沙房地产市场周报(1.30-2.3)
- [实用模板]六年级数学上册典中点 - 图文
- [实用模板]C程序设计(红皮书)习题官方参考答案
- [实用模板]中国证监会第一届创业板发行审核委员会
- [实用模板]桥梁工程复习题
- [实用模板]2011学而思数学及答案
- [实用模板]初中病句修改专项练习
- [实用模板]监理学习知识1 - 图文
- [实用模板]小机灵杯四年级试题
- [实用模板]国贸专业毕业论文模板
- [实用模板]教育学概论考试练习题-判断题4
- [实用模板]2015届高考英语一轮复习精品资料(译林
- 00Nkmhe_市场营销学工商管理_电子商务_
- 事业单位考试法律常识
- 诚信教育实施方案
- 吉大小天鹅食品安全检测箱方案(高中低
- 房地产销售培训资料
- 高一地理必修1复习提纲
- 新概念英语第二册lesson_1_练习题
- 证券公司内部培训资料
- 小学英语时间介词专项练习
- 新世纪英语专业综合教程(第二版)第1册U
- 【新课标】浙教版最新2018年八年级数学
- 工程建设管理纲要
- 外研版 必修一Module 4 A Social Surve
- Adobe认证考试 AE复习资料
- 基于H.264AVC与AVS标准的帧内预测技术
- 《食品检验机构资质认定管理办法》(质
- ABB变频器培训课件
- (完整版)小学说明文阅读练习题及答案
- 深思洛克(SenseLock) 深思IV,深思4,深
- 弟子规全文带拼音




