banner

[Rule] Rules  [Home] Main Forum  [Portal] Portal  
[Members] Member Listing  [Statistics] Statistics  [Search] Search  [Reading Room] Reading Room 
[Register] Register  
[Login] Loginhttp  | https  ]
 
Forum Index Thảo luận hệ điều hành *nix Phân tích log trong CentOS, máy chủ lỗi phần cứng.  XML
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 05/05/2014 11:19:11 (+0700) | #1 | 280546
ctmanh
Member

[Minus]    0    [Plus]
Joined: 26/03/2013 02:02:47
Messages: 19
Offline
[Profile] [PM]
Máy chủ HP DL580 chạy hệ điều hành CentOS 6.5 x86_64 bị lỗi lâu lâu thì treo máy, mình đã xem log và tìm google rồi nhưng chưa rõ là lỗi gì?

Xem var/log/mcelog
Code:
Hardware event. This is not a software error.
MCE 1
CPU 8 BANK 9
TIME 1393227192 Mon Feb 24 14:33:12 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: MEMORY CONTROLLER GEN_CHANNELunspecified_ERR
Transaction: Generic undefined request
STATUS 900000400012008f MCGSTATUS 0
MCGCAP 1000c18 APICID 40 SOCKETID 1
CPUID Vendor Intel Family 6 Model 47


Chạy lệnh mcelog --client
Code:
Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        681025 total
        0 in 24h
uncorrected memory errors:
        0 total
        0 in 24h


Xem /var/log/messages
Code:
Feb 24 14:31:54 mail kernel: [Hardware Error]: Machine check events logged
Feb 24 14:31:54 mail kernel: [Hardware Error]: Machine check events logged
Feb 24 14:32:55 mail kernel: __ratelimit: 12277 callbacks suppressed
Feb 24 14:32:55 mail kernel: [Hardware Error]: Machine check events logged
Feb 24 14:32:55 mail kernel: [Hardware Error]: Machine check events logged
Feb 24 14:33:55 mail kernel: __ratelimit: 12020 callbacks suppressed
Feb 24 14:33:55 mail kernel: [Hardware Error]: Machine check events logged
Feb 24 14:33:55 mail kernel: [Hardware Error]: Machine check events logged


Nhờ các bạn xem và giúp mình phân tích lỗi với, mình chỉ biết là nó bị lỗi phần cứng nhưng chưa dám khẳng định là bị lỗi ở đâu.
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 05/05/2014 13:54:21 (+0700) | #2 | 280552
[Avatar]
quangteospk
Member

[Minus]    0    [Plus]
Joined: 20/10/2009 04:05:30
Messages: 123
Offline
[Profile] [PM]
Tốt nhất nếu bạn bị tình trạng trên (server bị treo), và nghi ngờ lỗi phần cứng thì nên liên hệ với nhà cung cấp để họ kiểm tra và đổi phần cứng cho bạn, đừng có tìm hiểu làm server bị down-time
Jazz
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 06/05/2014 13:39:53 (+0700) | #3 | 280557
myquartz
Member

[Minus]    0    [Plus]
Joined: 04/01/2005 04:58:30
Messages: 563
Offline
[Profile] [PM]
Có vẻ như ram server của bạn lỗi. Nó báo phải correct rrast nhiều. Ram kém tin cậy là 1 trong những nguyên nhân phổ biến khiến server hay bị panic.
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 06/05/2014 21:53:07 (+0700) | #4 | 280561
ctmanh
Member

[Minus]    0    [Plus]
Joined: 26/03/2013 02:02:47
Messages: 19
Offline
[Profile] [PM]
Cảm ơn bạn quangteospk và myquartz.
Máy chủ này 32Gb RAM nên mình cũng chưa xác định được thanh nào lỗi, nếu mang ra test từng thanh thì lâu quá.
nó báo dòng: "SOCKET 1 CHANNEL any DIMM any" có phải là báo cái RAM ở khe cắm thứ nhất không nhỉ?
Tính gọi cho đội support HP mà chưa chắc họ đã đến. hic. vì mình ở tỉnh lẻ.
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 06/05/2014 22:13:59 (+0700) | #5 | 280562
[Avatar]
quangteospk
Member

[Minus]    0    [Plus]
Joined: 20/10/2009 04:05:30
Messages: 123
Offline
[Profile] [PM]
Mình nghĩ là Socket 1 thì chưa nói lên được điều gì. Mình từng bị lỗi RAM như thế này

Code:
mc0: csrow1:[color=red] CPU_SrcID#0_Channel#1_DIMM#0:[/color] 1 Corrected Errors

sbridge: HANDLING MCE MEMORY ERROR
CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010091
TSC 0 ADDR 223cabac0 MISC 2040282886 PROCESSOR 0:206d7 TIME 1397173447 SOCKET 0 APIC 0
EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0091 (ch=1), addr = 0x223cabac0 => socket=0, Channel=1(mask=2), rank=1

Thì mình cũng chỉ dám phỏng đoán là thanh có index = 0 (tức thanh số 1) của rãnh đầu tiên => cũng chỉ là phỏng đoán thôi.

Mình có làm việc với một số nhà cung cấp server thì thường khi mình báo lỗi và ko thể xác định đc thanh nào lỗi họ thưởng đổi cho mình cả 4 thanh luôn. Nên mình nghĩ ko có vấn đề gì khi bạn ko thể xác định thanh nào lỗi, chỉ hơi phiền là bạn ở tỉnh thôi.
Jazz
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 07/05/2014 10:36:46 (+0700) | #6 | 280564
myquartz
Member

[Minus]    0    [Plus]
Joined: 04/01/2005 04:58:30
Messages: 563
Offline
[Profile] [PM]
Nếu có thể ngưng sử dụng máy vài ngày, thì cài cái memtest (có trong centos). Sau đó khởi động lên chọn nó trong danh sách boot.
Cho nó chạy vài ngày hoặc có khi vài giờ là sẽ ra thôi, bad chỗ nào nó sẽ chỉ.
[Up] [Print Copy]
  [Question]   Phân tích log trong CentOS, máy chủ lỗi phần cứng. 07/05/2014 16:28:47 (+0700) | #7 | 280568
Destiny3986
Member

[Minus]    0    [Plus]
Joined: 22/11/2007 23:54:52
Messages: 21
Offline
[Profile] [PM]
Server của HP có phần mềm HP Integrated Lights-Out (iLO) dùng để theo dõi thông tin phần cứng, bạn thử dùng laptop cắm vào cổng mạng iLO trên Server rồi truy cập vào xem log và gửi thông tin cho bên HP xem sao.
[Up] [Print Copy]
[digg] [delicious] [google] [yahoo] [technorati] [reddit] [stumbleupon]
Go to: 
 Users currently in here 
1 Anonymous

Powered by JForum - Extended by HVAOnline
 hvaonline.net  |  hvaforum.net  |  hvazone.net  |  hvanews.net  |  vnhacker.org
1999 - 2013 © v2012|0504|218|