it-swarm.com.de

BUG: Soft Lockup - CPU # bleibt x Sekunden lang hängen

Ich habe ein paar Fehlerberichte und Fragen (zu Stackexchange und anderswo) bezüglich eines quälenden "BUG: soft lockup - CPU#<n> stuck for <dt>s!" Gesehen. Bisher habe ich keinen Hinweis darauf gefunden, was zu tun oder zu versuchen ist (vielmehr haben die Hinweise, die ich gefunden und befolgt habe, nicht aufgehört dies geschieht). Ich bin darüber weiter besorgt, weil:

  1. die Häufigkeit dieser Ereignisse scheint in letzter Zeit langsam zugenommen zu haben (über 700 pro Monat).
  2. yum update Und Neustart haben es für eine Weile etwas verlangsamt, aber ich habe gesehen, dass einige Abstürze wieder auftreten.
  3. mehrere Prozesse (wenn nicht der gesamte Host, ist schwer zu sagen), einschließlich aller meiner interaktiven Shells, werden für einige Zeit eingefroren, wenn dies geschieht.
  4. Ich bin nicht sicher, ob es verwandt ist, aber ich sehe viele Protokolle/Nachrichten im Zusammenhang mit ntpd, die die Uhr nicht aktualisieren können.

Das Folgende ist ein Auszug aus $(grep 'soft lockup' /var/log/messages*):

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [Java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

Dies geschieht bei zufälligen Prozessen und scheint ziemlich gut auf die 16 "Kerne" dieses virtuellen Hosts verteilt zu sein.

Der Host ist eine AWS EC2-Instanz "cc1.4xlarge" mit einem AMI mit dem Namen "EC2 CentOS 5.5 GPU HVM AMI (Treiber 260.19.29) (AMI-42a2532b)". Es scheint mit Xen virtualisiert zu sein.

cat /etc/redhat-release Ergibt CentOS release 5.9 (Final). 'free' Meldet 21 GB RAM.

Der Kopf von dmesg ist:

Linux version 2.6.18-348.3.1.el5 ([email protected]) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

Das Folgende zeigt eine kumulative Anzahl dieser "Soft Lockups" in der letzten Zeit (die Redline ist, als ich das letzte yum update Gefolgt von reboot gemacht habe): cumul count of soft lockups.

Das Folgende zeigt das Histogramm der Dauer (wie lange steckt der Host fest): duration histogram.

34
Pierre D

Ich habe auch dieses Problem auf Xen 4.2 mit 3.6 und 3.8 Kernel (AlpineLinux).

Ich habe herum gegoogelt und durch Hinzufügen von clocksource = jiffies zu meinem Kernel habe ich das Problem behoben. Anstelle von Handgriffen können Sie auch "Pit" ausprobieren.

Es gibt auch Berichte über Deaktivieren von C-Zuständen im BIOS .

11
Franz Bettag

Ich hatte das gleiche Problem mit meinem Thinkpad T520. Aber anstatt den Kernel zu hacken, habe ich etwas Einfacheres gemacht. Als erstes benutze ich Centos7. Ich habe das Basissystem installiert. Alles hat gut funktioniert. Ich habe dann später die GNOME-GUI hinzugefügt, als ich anfing, die oben genannten Probleme zu bekommen. Ich stelle fest, dass viele Hersteller Windows-Installationen eingerichtet haben. Die Grafikkarte ist normalerweise für Win7 (NVIDIA OPTIMUS) eingerichtet. Ich habe sie auf den integrierten Grafikmodus zurückgesetzt und keine Hänge/Fehler mehr. Wie es geht? Starten Sie Ihr Thinkpad neu und drücken Sie F1 oder die blaue thinkvantage-Taste, um ins BIOS zu gelangen. Gehen Sie zu Grafik, wählen Sie integrierte Grafik und dann F10, um zu speichern und zu beenden. Es gibt 3 Einstellungen für diese Karte: Integriert, Diskret und NVIDIA OPTIMUS (nur Win7?) Hoffen Sie, dass dies jemandem Zeit spart?

2
Rod