NVIDIA-SMI(NVIDIA System Management Interface)是NVIDIA官方提供的命令行工具,用于监控和管理GPU设备。无论你是开发者、系统管理员,还是从事深度学习、高性能计算的工作者,掌握这一工具都能帮助你更高效地使用GPU资源。
一、NVIDIA-SMI 是什么?
nvidia-smi
是NVIDIA显卡驱动的内置工具,支持在Linux和Windows系统中运行(需安装NVIDIA驱动)。它能够实时显示GPU的详细信息,包括:
二、基础使用方法
1.查看GPU概要信息
在终端直接输入命令:
``bash
`
输出结果会展示GPU型号、温度、功耗、显存占用率及当前运行的进程。
2.实时监控GPU状态(动态刷新)
`bash
nvidia-smi -l 2 每2秒刷新一次数据
`
3.查看更详细的信息
`bash
nvidia-smi -q 显示所有可用参数,包括ECC错误、时钟频率等
`
三、常用参数与场景
`bash
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv
`
`bash
nvidia-smi -i 0 仅查看编号为0的GPU
`
`bash
nvidia-smi --loop-ms=5000 --filename=report.log 每5秒记录一次状态
`
四、常见问题与解决
1.命令无效?
。
2.GPU未被识别?
检查设备状态。
3.显存占用高但无活跃进程?
可能是内核未释放缓存,尝试重启服务或使用nvidia-smi --gpu-reset -i [GPU编号](谨慎操作)。
五、进阶技巧
命令持续监控:
`bash
watch -n 1 nvidia-smi 每秒刷新一次
`
库编程调用nvidia-smi功能,实现自动化监控。
掌握nvidia-smi`,意味着你能够快速定位性能瓶颈、优化资源分配,并确保GPU稳定运行。建议收藏常用命令,或在脚本中集成关键参数以提升工作效率。