it-swarm.com.de

Was bedeuten diese Festplattenfehler in Syslog?

Ich habe gerade meinen Überwachungsserver zum ersten Mal seit einiger Zeit neu gestartet und Folgendes beginnt, den Bildschirm auszufüllen:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

Ich weiß bereits, dass ich die Festplatte ersetzen muss (Datenkosten> Festplattenkosten), aber ich möchte nach eigenem Wissen wissen, was eigentlich Falsch daran ist.

Ja, unser Überwachungsserver hat kein RAID, nur eine Festplatte ... Schau mich nicht an ...

13
Soviero
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

Es sieht so aus, als ob das Laufwerk fehlerhafte Sektoren hat und diese nicht neu zuordnen kann (möglicherweise, weil es keine freien Sektoren mehr hat). Die Ausgabe von smartctl -a /dev/sda würde Ihnen weitere Informationen zum Status des Laufwerks geben.

16
mgorven

Lassie sagt "arf! Arf arf! Arf!". Was dumm ist, weil dies nichts mit Timmy oder Brunnen zu tun hat. Aus diesem Grund nehmen Sie keine Sysadmin-Ratschläge von Hunden entgegen.

Das Laufwerk gibt einen "Nicht wiederhergestellten Lesefehler - automatische Neuzuweisung fehlgeschlagen" aus, was im Grunde bedeutet: "Ich habe versucht zu lesen, ich bin fehlgeschlagen, ich habe versucht, wiederherzustellen (lesen Sie den Sektor noch einige Male, wenden Sie etwas ECC an und verschieben Sie die Daten nach ein Sektor, der nicht kaputt ist), und es hat nicht funktioniert ". Dies bedeutet wahrscheinlich (wie mgorven sagt), dass die Festplatte bereits voll mit neu zugewiesenen Sektoren ist, da die Festplatte eine Weile im Sterben liegt, aber ich denke auch, dass dies bedeuten kann, dass sie den Sektor überhaupt nicht wiederherstellen konnte (wiederholte Lesevorgänge) + ECC konnte keinen gut aussehenden Datenblock erhalten).

Wie auch immer, ja, das Laufwerk ist sehr, sehr kaktusartig. Ihre Daten sehen auch nicht wirklich gesund aus.

12
womble

Ich weiß, dass dies alt ist, aber nur für den Fall, dass noch jemand diesen Beitrag liest: "DD wird auch versuchen, die defekten Sektoren zu lesen" - gddrescue ist hier nützlich. Das tut es nicht (okay, aber nur einmal).

3
Wolfgang Noichl

Erstellen Sie jetzt ++ ein dd-Image oder eine rsync-Kopie dieser Festplatte, es sei denn, Sie haben eine vollständige Sicherung, die eine bequeme Wiederherstellung dieser Box ermöglicht. Suchen Sie nach einer kompatiblen und funktionsfähigen Ersatzdiskette.

Übrigens, UDMA/66, ist das eine zehn Jahre alte PATA-Festplatte?

1
rackandboneman

Wie bereits erwähnt, bedeutet dies wahrscheinlich, dass sich Ihr Laufwerk dem Ende seiner Lebensdauer nähert, jedoch nicht unbedingt sofort. Sie sollten ein fsck auf der Festplatte ausführen und versuchen, die Fehler zu beheben (siehe smartmontools wiki für Ratschläge zur Behebung fehlerhafter Blöcke) und die Festplatte ist möglicherweise noch eine Weile in Ordnung.

Sie sollten jedoch smartd (das Teil des Pakets smartmontools ist) ausführen und die Berichte im Auge behalten und/oder E-Mail-Benachrichtigungen einrichten. Sie können auch eigene benutzerdefinierte Benachrichtigungen hinzufügen, indem Sie Skripte erstellen (in /etc/smartmontools/run.d/) die vom smartd-runner.

0
Pierz