配置ollama使用GPU

本文介绍了在Windows系统上配置Ollama使用GPU加速的步骤

努力的小Qin

4642人浏览 · 2025-07-30 18:06:22

努力的小Qin · 2025-07-30 18:06:22 发布

第一步：查看自己显卡是否支持

在这里插入图片描述

第二步：查看本机显卡参数

命令：nvidia-smi
在这里插入图片描述

第三步：安装cuda toolkit

cuda toolkit下载地址：https://developer.nvidia.com/cuda-toolkit-archive
请记住流程安装选local而非network
安装完后验证是否安装成功，命令：nvcc --version
在这里插入图片描述

第四步：设置ollama 环境变量

● 添加以下环境变量：
○ 变量名：OLLAMA_GPU_LAYER
○ 变量值：cuda
● 指定特定的 GPU，可以添加以下环境变量：
○ 变量名：CUDA_VISIBLE_DEVICES
○ 变量值：GPU的UUID（方法如下）

GPU的UUID查看命令： nvidia-smi -L

第五步：验证是否使用gpu

运行大模型
在这里插入图片描述

然后再起一个命令行输入 ollama ps 就可以看到 processor里面有cpu与gpu运行百分比
在这里插入图片描述

Ollama可配置环境变量

● OLLAMA_DEBUG: 显示额外的调试信息（例如：OLLAMA_DEBUG=1）。
● OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。
● OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值：“5m”），设置为-1表示常驻内存运行。
● OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
● OLLAMA_MAX_QUEUE: 请求队列的最大长度。
● OLLAMA_MODELS: 模型目录的路径。
● OLLAMA_NUM_PARALLEL: 最大并行请求数。
● OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
● OLLAMA_ORIGINS: 允许的源列表，使用逗号分隔。
● OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
● OLLAMA_TMPDIR: 临时文件的位置。
● OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
● OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

windows系统上设置直接在环境变量中设置即可。