amazon-web-services - 重启 AMI 后 NVidia 驱动程序未在 AWS 上运行

标签 amazon-web-services amazon-ec2 nvidia drivers

大家,我有以下问题:

我用这个 AMI 启动了一个 P2 实例.我安装了一些工具,如 screen、torch 等。然后我成功地使用 GPU 运行了一些实验,并创建了实例的镜像,以便我可以终止它并稍后再次运行它。

后来我从之前创建的 AMI 启动了一个新实例。一切看起来都很好——屏幕、手电筒、我的实验都存在于系统上,但我无法像以前一样运行相同的实验:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.



在我看来,驱动程序可能已安装(因为所有其他工具都是从以前安装的),但它们没有运行。这是一个正确的假设吗?我该如何启动它们?

最佳答案

我们最近遇到了这个问题。在我们的例子中,AWS 实例上的默认内核似乎已升级(从 4.4.0-1049-aws 到 4.4.0-1061-aws),但新内核没有安装 nvidia 模块:

ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1061-aws | grep -i nvidia
ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1049-aws | grep -i nvidia
-rw-r--r--  1 root root    87368 Jun 27 10:21 nvidia-drm.ko
-rw-r--r--  1 root root  1155304 Jun 27 10:21 nvidia-modeset.ko
-rw-r--r--  1 root root  1163016 Jun 27 10:21 nvidia-uvm.ko
-rw-r--r--  1 root root 18014088 Jun 27 10:21 nvidia.ko

检查您的内核版本(uname -a),看看是否适合您。 GRUB 配置允许引导旧内核镜像 (1049),但默认情况下它正在加载新内核镜像 (1061)。/boot/grub/cfg 的相关部分:
ubuntu@ip-XXX-XXX-XXX-XXX:~$ grep -i -e "ubuntu, with linux" /boot/grub/grub.cfg
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-recovery-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-recovery-XXXX' {

您可以强制在下次重新启动时使用 grub-reboot 加载旧内核:
sudo /usr/sbin/grub-reboot "Advanced options for Ubuntu>Ubuntu, with Linux 4.4.0-1049-aws"
sudo reboot

这将使用您拥有 nvidia 模块的旧内核启动实例。

关于amazon-web-services - 重启 AMI 后 NVidia 驱动程序未在 AWS 上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40201165/

相关文章:

Java Web 启动 AMI

ubuntu - 在 Ubuntu 上禁用 NVIDIA 3D Vision 立体

ubuntu - LG Ultrafine 5K 无法在 Ubuntu 20.04 双启动 Nvidia RTX 3090 GC Titan Ridge rev 2 上作为独立显示器工作

amazon-web-services - 如何添加 Cognito 用户名/密码来验证 ALB?

linux - Yum Install 需要永远读取 Amazon Linux 中的默认存储库

amazon-web-services - 多个 SQS 队列与 1 个 SNS 主题

amazon-web-services - AWS EC2 设置环境变量

amazon-ec2 - 亚马逊 Ec2 原型(prototype)设计

windows - 使用 NVIDIA 显卡运行 ".exe"文件的命令

SSH 访问 AWS EC2 - 权限被拒绝