it-swarm.com.de

"mce: [Hardwarefehler]: Maschinenprüfungsereignisse protokolliert" wird im Syslog angezeigt. Was soll ich machen?

Ich habe die neueste Version von OSSEC (2.8.1) installiert und E-Mail-Benachrichtigungen aktiviert. Und ich bekomme eine Menge solcher Benachrichtigungen, die besagen, dass ein Hardwarefehler vorliegt und etwas mit mce zu tun hat:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Was genau bedeutet das? Wofür steht mce? Und sollte ich mir wegen dieses offensichtlichen Hardwarefehlers Sorgen machen?


Informationen zum Betriebssystem:

Description:    Ubuntu 14.10
Release:    14.10
19
user364819

Machine Check Exception :

Eine Machine Check Exception (MCE) ist eine Art Computerhardwarefehler, der auftritt, wenn die Zentraleinheit eines Computers ein Hardwareproblem erkennt.

Auf Ihrem Computer ist ein Hardwarefehler aufgetreten, und der Kernel hat ein Ereignis in einem Puffer protokolliert. Sie können mcelog verwenden, um die Maschinenprüfereignisse zu protokollieren und anzuzeigen. From mcelog manpage :

X86-CPUs melden von der CPU erkannte Fehler als MCEs (Machine Check Events). Dies können Datenverfälschungen in den CPU-Caches, im Hauptspeicher durch einen integrierten Speichercontroller, Datenübertragungsfehler auf dem Front-Side-Bus oder der CPU-Verbindung oder andere interne Fehler sein. Mögliche Ursachen können kosmische Strahlung, instabile Netzteile, Kühlungsprobleme, defekte Hardware, nicht ordnungsgemäß funktionierende Systeme oder Pech sein.

Die meisten Fehler können von der CPU durch interne Fehlerkorrekturmechanismen behoben werden. Nicht korrigierte Fehler führen zu Ausnahmen bei der Maschinenüberprüfung, die Prozesse abbrechen oder die Maschine in Panik versetzen können. Eine kleine Anzahl von korrigierten Fehlern ist normalerweise kein Grund zur Sorge, eine große Anzahl kann jedoch auf einen zukünftigen Ausfall hinweisen.

Wenn ein korrigierter oder wiederhergestellter Fehler auftritt, schreibt der x86-Kernel einen Datensatz, der den MCE beschreibt, in einen internen Ringpuffer, der über das Gerät/dev/mcelog verfügbar ist. mcelog ruft Fehler aus/dev/mcelog ab, decodiert sie in ein für Menschen lesbares Format und druckt sie auf der Standardausgabe oder optional im Systemprotokoll aus.

Wenn Sie keinen Absturz bemerkt haben, wurde der Fehler wahrscheinlich erfolgreich behoben. Dennoch rate ich Ihnen, mcelog zu installieren, um solche Ereignisse im Auge zu behalten:

Sudo apt-get install mcelog

Die Ereignisse werden in /var/log/mcelog protokolliert. Sie können auch ausführen:

Sudo mcelog --client

den Daemon mcelog nach Fehlern abfragen.

23
Eric Carvalho