it-swarm.com.de

Was verursacht das? pcieport 0000: 00: 03.0: PCIe-Busfehler: VRE / fehlerhafter TLP

Ich sehe folgende Fehlermeldungen:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Diese führen zu Leistungseinbußen, obwohl sie (bisher) korrigiert wurden. Offensichtlich muss dieses Problem behoben werden. Im Internet kann ich jedoch nicht viel darüber finden. (Vielleicht suche ich an den falschen Stellen.) Ich habe nur ein paar Links gefunden, die ich unten posten werde.

Weiß jemand mehr über diese Fehler?

Ist es das Motherboard, das Samsung 950 Pro oder die GPU (oder eine Kombination davon)?

Die Hardware ist: Asus X99 Deluxe II Samsung 950 Pro NVMe im M2. Steckplatz auf der MB (der PCIe-Port 3 gemeinsam nutzt). An PCIe-Port 3 ist nichts anderes angeschlossen. Eine GeForce GTX 1070 in PCIe-Steckplatz 1 Core i7 6850K-CPU

Einige der Links, die ich gefunden habe, erwähnen dieselbe Hardware (X99 Deluxe II mb & Samsung950 Pro). Ich verwende Arch Linux.

Ich finde die Zeichenfolge "8086: 6f08" nicht in journalctl oder irgendwo anders, wo ich bisher gesucht habe.

ungerade Fehlermeldung mit nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: Kämpft Ihre Karte lautlos mit TLP-Neuübertragungen? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 wirft fehlerhafte TLP-PCIe-Busfehler - GeForce-Foren https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

treiber - PCIe-Fehler im dmesg-Protokoll - Fragen Sie Ubuntu https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99 Hard Lock - PCIE-Fehler - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

23
MountainX

Ich kann zumindest ein paar Details nennen, obwohl ich nicht vollständig erklären kann, was passiert.

Wie zum Beispiel hier beschrieben, kommuniziert die CPU mit dem PCIe-Buscontroller über Transaktionsschichtpakete (TLPs). Die Hardware erkennt, wenn fehlerhafte vorhanden sind, und der Linux-Kernel meldet dies als Meldungen.

Die Kernel-Option pci=nommconf Deaktiviert den speicherabgebildeten PCI-Konfigurationsbereich, der unter Linux seit Kernel 2.6 verfügbar ist. Sehr grob gesagt haben alle PCI-Geräte einen Bereich, der dieses Gerät beschreibt (was Sie mit lspci -vv Sehen), und die ursprüngliche Methode für den Zugriff auf diesen Bereich umfasst das Durchlaufen von E/A-Ports, während PCIe die Zuordnung dieses Bereichs ermöglicht in den Speicher für einen einfacheren Zugriff.

Dies bedeutet, dass in diesem speziellen Fall etwas schief geht, wenn der PCIe-Controller diese Methode verwendet, um auf den Konfigurationsbereich eines bestimmten Geräts zuzugreifen. Es kann sich um einen Hardwarefehler im Gerät, im PCIe-Root-Controller auf dem Motherboard, in der spezifischen Interaktion dieser beiden oder um etwas anderes handeln.

Mit pci=nommconf Wird auf den Konfigurationsbereich aller Geräte auf die ursprüngliche Weise zugegriffen, und das Ändern der Zugriffsmethoden umgeht dieses Problem. Wenn Sie möchten, wird es sowohl aufgelöst als auch unterdrückt.

28
dirkt

Hinzufügen der Kernel-Befehlszeilenoption pci=nommconf hat das Problem für mich gelöst. Daher gehe ich davon aus, dass das Problem mit dem Motherboard zusammenhängt. Es passiert auf allen meinen mit X99-Motherboards ausgestatteten Computern. Dies geschieht nicht auf Z170-Systemen oder anderer Hardware, die ich besitze.

3
MountainX

Versuchen Sie diese Schritte:

  1. cp /etc/default/grub ~/Desktop
  2. Grub bearbeiten. Hinzufügen pci=noaer am Ende von GRUB_CMDLINE_LINUX_DEFAULT. Die Linie wird so sein:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. Sudo cp ~/Desktop/grub /etc/default/

  4. Sudo update-grub
  5. Jetzt neustarten
3
Ehtesham

Ich erhalte die gleichen Fehler (fehlerhaftes TLP für Gerät 8086: 6f08). Ich habe X99 Deluxe II, Samsung 960 Pro, Nvidia 1080 ti. Diese Probleme scheinen mit dem X99-Chipsatz und dem M.2-Gerät wie Samsung Pro verbunden zu sein.

Das X99 Deluxe II-Motherboard teilt die Bandbreite zwischen dem PCIE16_3-Steckplatz und M.2/U.2. Nach dem Kommentar von @Nic habe ich im BIOS die Onboard Devices Configuration | geändert U.2_2 Bandbreite von Auto bis U.2_2. Dies hat das Problem für mich behoben.

2
user1759557

Ich habe den PCIE16_3-Steckplatz Config in Bios auf meinem x99-E so geändert, dass er statisch auf den x8-Modus eingestellt ist, anstatt auf den für die M.2-Geräteunterstützung standardmäßigen automatischen Modus. Funktioniert jetzt ohne TLP-Fehler auf beiden meiner 1070GTX-Karten, die über PCIe 1x bis 16x-Erweiterungskarten verbunden sind.

Ich habe Port 16_3 nicht zuerst verwendet, bin zum Testen in diesen Steckplatz gezogen, hatte aber immer noch Probleme, bevor ich das BIOS geändert habe. Außerdem wurde die bsleep-Einstellung für alle Karten in der Miner-Konfiguration auf 30 geändert.

Vor der Änderung hatte ich das Kernel-Protokoll mit Fehlern gespammt. Es wurde auch versucht, das System vor und nach dem Wechsel aus- und wieder einzuschalten. Scheint ziemlich hartnäckig zu sein.

2
Nic

Suchen Sie in Ihrem Motherboard-Handbuch nach "VRE". Sie können die Ursache des Problems beseitigen, indem Sie entweder die spezifische Inkompatibilität korrigieren oder die VRE vollständig deaktivieren. Verwenden Sie diese Option nur, wenn alle Fehler-Spam-Mails korrigiert Fehler betreffen. Andernfalls könnten Sie ein tatsächliches Problem vertuschen.

2
N3V3N