本文最后更新于:2025年2月25日 中午

新版 docker 已经个不需要 nvidia-docker 即可使用 gpu,本文记录相关信息。

系统环境: Ubuntu 22.04

初始化 Docker

安装

1
sudo apt install docker.io

配置

1
2
3
4
sudo systemctl start docker.service # 开启 docker 服务
sudo systemctl enable docker.service # 开机自启动 docker 服务
sudo usermod -aG docker $USER # 让 docker 命令执行不需要 sudo
sudo docker --version # 查看 docker-ce 版本

注意:请确保 docker 版本高于 19.03,否则需要 nvidia-docker 才能使用 GPU

Nvidia GPU 支持

参考 Run GPU accelerated Docker containers with NVIDIA GPUs

主机 (host) 中只需要安装英伟达显卡驱动,不需要安装 cuda-toolkit.

测试:

1
2
docker pull nvidia/cuda:11.0-base-ubuntu18.04
docker run -it --gpus all nvidia/cuda:11.0-base-ubuntu18.04 nvidia-smi

问题

Failed to initialize NVML

docker 中执行 nvidia-smi 后报错:

1
Failed to initialize NVML: Unknown Error

原因 (见上面 wiki 链接,执行 systemctl --version 查看 systemd 版本,如果是 v248 或更高则可确认是该问题):

1
Note: libnvidia-containerAUR has no support for cgroups v2. You need to set the systemd.unified_cgroup_hierarchy=false kernel parameter and set no-cgroups = false in /etc/nvidia-container-runtime/config.toml if you are using systemd v248 or higher.

需要做的有:

  1. 添加内核参数 systemd.unified_cgroup_hierarchy=false
  2. /etc/nvidia-container-runtime/config.toml 修改参数 no-cgroups = false

其中内核参数修改方法(GRUB)为:编辑 /etc/default/grub,在 GRUB_CMDLINE_LINUX_DEFAULT 参数双引号内加上所需参数:GRUB_CMDLINE_LINUX_DEFAULT=“… systemd.unified_cgroup_hierarchy=false”,再执行 grub-mkconfig -o /boot/grub/grub.cfg 生成启动引导配置文件。然后重启电脑,执行 cat /proc/cmdline 确认参数已添加。

参考资料



文章链接:
https://www.zywvvd.com/notes/tools/docker/docker-with-gpu/docker-with-gpu/


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

Docker 使用 Nvidia GPU
https://www.zywvvd.com/notes/tools/docker/docker-with-gpu/docker-with-gpu/
作者
Yiwei Zhang
发布于
2025年2月25日
许可协议