it-swarm.com.de

Probleme mit dem Nvidia-Grafiktreiber und CUDA nach einem passenden Upgrade

Ich habe CUDA 7.5 zuvor unter Ubuntu 14.04 mit der "deb (network)" -Installation von Nvidia installiert. Es hat ein paar Monate geklappt, bis ich heute Sudo apt-get upgrade lief. Danach bin ich auf folgendes gestoßen

$ nvidia-smi
modprobe: ERROR: ../libkmod/libkmod-module.c:809 kmod_module_insert_module() could not find module by name='nvidia_352'
modprobe: ERROR: could not insert 'nvidia_352': Function not implemented
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Das Ausführen von Sudo nvidia-smi ist nicht anders. Ich kann mich im GUI-Modus nicht anmelden (nach Eingabe meines Kennworts wird nur wieder der Anmeldebildschirm angezeigt), kann jedoch auf das Terminal zugreifen.

Ich konnte die grafische Funktionalität wiederherstellen, habe jedoch Schwierigkeiten, CUDA danach erneut zu installieren. Können Sie mir bitte helfen?

Grafiken wiederherstellen

Ich habe festgestellt, dass ich die Grafiken wieder zum Laufen bringen kann

$ Sudo apt-get remove --purge nvidia*
$ Sudo apt-get autoremove

und dann bearbeitest du /etc/apt/sources.list.d/cuda.list, um alle Zeilen zu entfernen

$ Sudo apt-get install nvidia-352

und das System neu starten. Danach arbeitet nvidia-smi wieder. Ich muss CUDA jedoch immer noch neu installieren.

Versuch, CUDA neu zu installieren

Ich habe versucht, den Inhalt von /etc/apt/sources.list.d/cuda.list wiederherzustellen und dann Sudo apt-get install cuda auszuführen. Ich habe diese Fehlermeldung bemerkt:

Loading new nvidia-352-352.93 DKMS files...
Building only for 3.13.0-68-generic
Building for architecture x86_64
Building initial module for 3.13.0-68-generic
ERROR: Cannot create report: [Errno 17] File exists: '/var/crash/nvidia-352.0.crash'
Error! Bad return status for module build on kernel: 3.13.0-68-generic (x86_64)

Danach kehrt das System zu seinem Startverhalten zurück. Beispielsweise gibt nvidia-smi die obige Fehlermeldung aus, und nach dem Erstellen und Ausführen von deviceQuery wird ein ähnlicher Fehler angezeigt:

./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

modprobe: ERROR: ../libkmod/libkmod-module.c:809 kmod_module_insert_module() could not find module by name='nvidia_352'
modprobe: ERROR: could not insert 'nvidia_352': Function not implemented
cudaGetDeviceCount returned 38
-> no CUDA-capable device is detected
Result = FAIL

Ich erinnere mich, dass CUDA bei der Erstinstallation nur funktioniert, wenn das Paket nvidia-352 aus den Nvidia-Repositorys nicht aktualisiert wird. Jetzt habe ich jedoch anscheinend keine Möglichkeit dazu, da beim Ausführen von Sudo apt-get install cuda das nvidia-352 -Paket automatisch aktualisiert wird:

Unpacking nvidia-352 (352.93-0ubuntu1) over (352.63-0ubuntu0.14.04.1) ...

Wenn ich versuche, die Versionen explizit festzulegen, erhalte ich

$ Sudo apt-get install cuda-drivers nvidia-352=352.63-0ubuntu0.14.04.1 nvidia-352-dev=352.63-0ubuntu0.14.04.1
Some packages could not be installed. This may mean that you have
requested an impossible situation or if you are using the unstable
distribution that some required packages have not yet been created
or been moved out of Incoming.
The following information may help to resolve the situation:

The following packages have unmet dependencies.
 cuda-drivers : Depends: nvidia-352 (>= 352.93) but 352.63-0ubuntu0.14.04.1 is to be installed
                Depends: nvidia-352-dev (>= 352.93) but 352.63-0ubuntu0.14.04.1 is to be installed
E: Unable to correct problems, you have held broken packages.

In der Tat, wenn ich versuche, die Version 352.63-0ubuntu1 anstelle von 352.63-0ubuntu0.14.04.1 zu verwenden

$ Sudo apt-get install nvidia-352=352.63-0ubuntu1

dies reicht aus, um die grafische Anmeldung zu unterbrechen und nvidia-smi zu veranlassen, die obige Fehlermeldung anzuzeigen.

Diagnose

$ lspci | grep -i vga
01:00.0 VGA compatible controller: NVIDIA Corporation GM200 [GeForce GTX TITAN X] (rev a1)

$ dpkg -l | grep -i nvidia
ii  bbswitch-dkms                                         0.7-2ubuntu1                                        AMD64        Interface for toggling the power on nVidia Optimus video cards
ii  libcuda1-352                                          352.93-0ubuntu1                                     AMD64        NVIDIA CUDA runtime library
ii  nvidia-352                                            352.93-0ubuntu1                                     AMD64        NVIDIA binary driver - version 352.93
ii  nvidia-352-dev                                        352.93-0ubuntu1                                     AMD64        NVIDIA binary Xorg driver development files
ii  nvidia-352-uvm                                        352.93-0ubuntu1                                     AMD64        Transitional package for nvidia-352
ii  nvidia-modprobe                                       352.93-0ubuntu1                                     AMD64        Load the NVIDIA kernel driver and create device files
ii  nvidia-opencl-icd-352                                 352.93-0ubuntu1                                     AMD64        NVIDIA OpenCL ICD
ii  nvidia-prime                                          0.6.2                                               AMD64        Tools to enable NVIDIA's Prime
ii  nvidia-settings                                       352.93-0ubuntu1                                     AMD64        Tool for configuring the NVIDIA graphics driver
9
pterojacktyl

Ein Freund konnte es für mich lösen!

Die Lösung, die er mir zeigte, war (nach dem Entfernen aller NVIDIA-Pakete wie zuvor)

$ Sudo add-apt-repository ppa:graphics-drivers/ppa
$ Sudo apt-get install nvidia-364

laden Sie dann das .run CUDA-Installationsprogramm (für mich cuda_7.5.18_linux.run) von Nvidia herunter und wählen Sie "no", wenn Sie gefragt werden, ob Sie den mit CUDA gepackten Treiber installieren möchten.

4
pterojacktyl

Ich hatte ein ähnliches Problem. Konnte dieses Problem lösen, indem die empfohlene Version des NVIDIA-Treibers installiert wurde.

Sudo apt-get install ubuntu-drivers-common

Sudo ubuntu-drivers devices

Sudo apt-get install <recommended version>
6
Prateek Dorwal