it-swarm.com.de

Wie kann ich herausfinden, was mit meinem RAM nicht stimmt?

Ich habe kürzlich den Speicher in meinem Computer Ubuntu 16.04 von 4 x 8 GB auf 8 x 8 GB aktualisiert. Der Händler versprach, dass der neue Speicher mit meiner Konfiguration kompatibel sein würde. Allerdings stellte ich fest, dass htop manchmal den vollen 64-GB-Speicher anzeigt, manchmal nur 48-GB- oder sogar 16-GB-Speicher, der sich nach jedem Start unterscheidet. Das System friert mehrmals am Tag ein. Nach einem solchen Einfrieren habe ich mir den Syslog angesehen:

Nov  7 13:08:09 embpc0032 kernel: [ 4524.820086] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382e offset:0x8c0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812107] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc000b0000010091
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056490 SOCKET 0 APIC 0
Nov  7 13:08:10 embpc0032 kernel: [ 4525.820084] EDAC MC0: 44 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812091] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812098] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812101] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812103] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812108] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056491 SOCKET 0 APIC 0
Nov  7 13:08:11 embpc0032 kernel: [ 4526.820076] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812083] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812091] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc00048000010091
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812093] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812096] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812101] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056492 SOCKET 0 APIC 0
Nov  7 13:08:12 embpc0032 kernel: [ 4527.820096] EDAC MC0: 18 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812108] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056493 SOCKET 0 APIC 0

Danach friert eine Reihe von NULL-Symbolen im Protokoll ein und startet neu. Woran könnte das liegen? Worauf beziehen sich channel und slot in diesem Zusammenhang? Es handelt sich um ein mit DIMM ausgestattetes Vierkanal-Mainboard (Fujitsu D3128-A2).

E: Ich habe das Handbuch ausgegraben:

enter image description here

Ist es sicher zu sagen, dass sich channel:0 slot:0 im Fehlerprotokoll auf das bezieht, was im Handbuch als A1 bezeichnet wird? Weil ich im Log ungefähr 4000 Speicherfehler gefunden habe, die alle in slot:1 über drei Kanäle verteilt waren, aber nie in slot:0. Während sich alle RAM, die ich neu gekauft habe, in den Steckplätzen befinden, die mit 2 im Handbuch enden, scheint es mir, dass alle Fehler von den neuen Modulen stammen und nicht von einem einzigen aus dem alten.

E: Ich bin heute zur Arbeit gekommen und habe den Computer hochgefahren. Dies war die Ausgabe von lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 16GiB
    *-bank:0
         description: DIMM DDR3 800 MHz (1,2 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:1
         description: DIMM DDR3 800 MHz (1,2 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 4
         serial: Dimm4_SerNum
         slot: Node0_Dimm4
         width: 64 bits
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm5_PartNum
         vendor: Dimm5_Manufacturer
         physical id: 5
         serial: Dimm5_SerNum
         slot: Node0_Dimm5
         width: 64 bits
    *-bank:6
         description: DIMM Synchronous [empty]
         product: Dimm6_PartNum
         vendor: Dimm6_Manufacturer
         physical id: 6
         serial: Dimm6_SerNum
         slot: Node0_Dimm6
         width: 64 bits
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 7
         serial: Dimm7_SerNum
         slot: Node0_Dimm7
         width: 64 bits

Nach einem Neustart war dies die Ausgabe von lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 48GiB
    *-bank:0
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:1
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 4
         serial: 50404181
         slot: Node0_Dimm4
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:5
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 5
         serial: 00000000
         slot: Node0_Dimm5
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:6
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 6
         serial: 50404153
         slot: Node0_Dimm6
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:7
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 7
         serial: 00000000
         slot: Node0_Dimm7
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)

Beachten Sie, wie beim ersten Mal die beiden erkannten Module mit anderen Statistiken aufgeführt werden als nach dem Neustart (es handelt sich tatsächlich um 1866 MHz).

2
smcs

So beheben Sie dieses Problem.

  1. setzen Sie zunächst alle Speichermodule neu ein
  2. führen Sie den kostenlosen memtest86.com-Speichertest aus
  3. konfigurieren Sie die Speichermodule in den richtigen Steckplätzen neu
  4. testen Sie den memtest86-Test erneut

Reseat:

  • schalten Sie den Computer aus
  • berühren Sie das Metallgehäuse, um statische Aufladung abzuleiten
  • entfernen Sie das Netzkabel
  • drücken Sie den Netzschalter, um die im Netzteil verbleibende Ladung abzuleiten
  • entfernen Sie ALLE Speichermodule und setzen Sie sie erneut ein

Memtest86:

  • gehen Sie zu memtest86.com und laden Sie den kostenlosen Speichertest herunter
  • führen Sie mindestens einen vollständigen Durchlauf durch, mehr, wenn Sie die Zeit haben
  • wenn ein Fehler auftritt, entfernen Sie jeweils 2 Speichermodule und wiederholen Sie den Test
  • wenn kein Fehler auftritt, lesen Sie den nächsten Abschnitt zur Speicherkonfiguration

Konfiguration:

Memory Interleaving ist eine moderne Technik, um den Speicherzugriff zu beschleunigen. Es ist erforderlich, dass der Speicher mit gleichen Paaren von Speichermodulen konfiguriert wird. Ihr High-End-System scheint 4 Speicherkanäle zu haben ... A/B/C/D.

Nehmen Sie Ihre ursprünglichen 4 Speichermodule und füllen Sie zuerst alle Modul 1 Positionen aus. Verwenden Sie dann die 4 neuen Speichermodule und füllen Sie die verbleibenden Modul 2 Positionen aus.

Führen Sie den memtest86-Test erneut aus.

4
heynnema