it-swarm.com.de

Ist es auf einem Server mit zwei CPUs normal, dass eine CPU heißer läuft als die andere?

Ich habe einen Dual-Opteron-Server unter Linux mit libvirt, um mehrere VMs zu hosten. Die VMs funktionieren einwandfrei und der Server verarbeitet OK, aber ich stelle fest, dass eine CPU immer ungefähr 69 ° C (Drosseln bei 70 ° C) und die andere ungefähr 15 ° C läuft.

Das scheint mir nicht normal zu sein? Sollten sie nicht beide etwas näher an der Temperatur sein?

Ich bin mir nicht sicher, wie ich weiter dianosieren soll. Vielleicht ist auf einer der CPUs nicht genügend Wärmeleitpaste vorhanden?

Bearbeiten: Das Motherboard ist ASUS KGPE-D16 und wird von zwei Noctua NH-U9DO-Lüftern gekühlt.

Beachten Sie, dass ich denke, dass die Temperaturen eher über der Umgebungstemperatur als über den absoluten Werten liegen könnten? Wenn der Server im Leerlauf ist, fallen die CPU-Temperaturen auf 2 ° C und 13 ° C. Ich verwende die lmsensors-Konfiguration von hier

51
samoz

Das Problem war schließlich ein schlecht sitzender Kühlkörper. Vielleicht ist eine schlechte Passform nicht die richtige Beschreibung. Es stellt sich heraus, dass Sie Wärmeleitpaste auf den Kühlkörper auftragen müssen, nicht auf die Kunststoffabdeckung, die über den Kühlkörper verläuft.

enter image description here

Nach dem Entfernen der Plastikabdeckung ist die CPU schön und cool, danke an alle!

106
samoz

Nach meiner Erfahrung ist es normal, dass gepaarte Komponenten in einem Fall bei unterschiedlichen Temperaturen betrieben werden, da der Luftstrom nicht überall gleich ist. Hier ist ein Diagramm der Festplattentemperatur aus meiner Colo-Box. Die Laufwerke sind gespiegelt, sodass die Workloads nahezu identisch sind.

munin graph of HDD temps over past year

Wie Sie sehen können, verfolgen sie sich gegenseitig, aber sie sind nicht gleich. Sie sind auch im Durchschnitt nur 6C voneinander entfernt. Unabhängig davon, ob Ihre Sensoren absolute Temperatur oder Übertemperatur melden, scheint ein Unterschied von 55 ° C unter Last sehr falsch zu sein. Wenn Sie sicher sind, dass die Daten richtig sind, würde ich angesichts der Tatsache, dass der Ruheunterschied auf 10 ° C abfällt, was der Unterschied ist, den ich aufgrund des Luftstroms sehe, einen schlecht angepassten Kühlkörper vermuten.

25
MadHatter

Es ist nicht. Es sei denn, Sie haben ernsthafte Probleme mit dem Luftstrom. Oder einer der Kühler ist schlecht. Die Temperatur wird variieren - aber nicht so stark (70 vs. 15 Grad Celsius).

Angesichts der niedrigen 15 Grad würde ich annehmen, dass (a) Ihr Sensor ausgeschaltet ist (Sie lagern den Server wirklich in einem so kühlen Raum?).

Ich würde auch annehmen, dass eine der CPUs überhaupt keine Arbeit leistet, aus welchem ​​Grund auch immer.

Kleine Unterschiede sind normal. Einige kleine größere können sein (Luftstrom kommt mir in den Sinn). aber hier sprechen wir davon, dass einer kalt ist.

8
TomTom

Dies kann entweder Kühlung oder ungleichmäßige Belastung sein (angesichts des Temperaturunterschieds ist Ihre Situation wahrscheinlich eine ungleichmäßige Belastung). Sie sollten so etwas wie prime95 verwenden, um alle Kerne gleichmäßig zu laden und festzustellen, ob die Temperaturen noch variieren. Wenn dies nicht der Fall ist, müssen Sie die VMs ausgleichen. Überprüfen Sie, ob Ihre Apps Multithread-fähig und ausgelastet sind. Wie das geht, hängt von Ihrer Software und der individuellen Arbeitsbelastung ab und liegt daher wirklich außerhalb des Rahmens der Frage. Denken Sie daran, dass dies keinen wirklichen Vorteil hat, wenn Sie nicht genug Last haben, um eine einzelne CPU/einen einzelnen Kern aufzufüllen. Tatsächlich kann es sein, dass Ihre VM) absichtlich die Verwendung einer zweiten CPU vermeidet Auf Systemen mit mehreren CPUs kann es in den Energiesparmodus wechseln.

Wenn Sie es auf Kühlung eingegrenzt haben. Ein kleiner Unterschied von bis zu 10 ° C kann zu wenig (oder zu viel!) Wärmeleitpaste sein. Ein größerer Unterschied weist auf ein signifikantes Problem oder einen Unterschied zwischen CPU-Kühlern hin. Es kann sein, dass man den Luftstrom blockiert hat, ein Kühlkörper gelöst wurde usw.

2
JamesRyan

Ich würde zustimmen müssen, defekte Temperatur. Sensor, da 15C nur 59F ist !!! Wenn sich der Computer nicht in einem extrem kalten Rechenzentrum befindet, würde ich mir vorstellen, dass die Umgebungslufttemperatur höher als 59 ° F ist! Sie versuchen, die VMs dem Niedertemperaturkern zuzuweisen und festzustellen, ob sich Änderungen ergeben. Wenn nicht, würde ich den Sensor als fehlerhaft verdächtigen.

Möglicherweise möchten Sie auch die Ausgabe von dmesg (Startnachrichten) überprüfen und feststellen, ob dort etwas Außergewöhnliches vorhanden ist.

0
J. Simons