简介
介绍如何通过 Ollama 在本地部署大模型,包括 Ollama 安装、配置及常用命令
安装 Ollama
windows
linux
1 | # 安装 Ollama |
通过 ollama.service 启停
安装 CUDA
参考
配置
环境变量
OLLAMA_HOST
指定Ollama服务端的IP地址,默认是本地127.0.0.1:11434
允许其他主机连接设置 0.0.0.0
如果跑在云服务器上,需要修改该变量
OLLAMA_MODELS
指定下载模型的路径,默认是当前用户的 HOME 目录下的.ollama/models
。
1 | # 查看系统用户 |
如果通过
ollama.service
方式启动,是以 ollama 用户的身份运行,其HOME目录是/usr/share/ollama
,因此下载的模型保存在/usr/share/ollama/.ollama/models
1
2
3$ systemctl show ollama.service -p User -p Group
User=ollama
Group=ollama如果通过
ollama serve
方式启动,是以当前用户lfp
的身份运行,其HOME目录是/home/lfp
,因此下载的模型保存在/home/lfp/.ollama/models
如果不通过系统环境变量指定下载模型的路径,则以上两种方式无法获取对方已经下载的模型
通过在/etc/environment
文件中添加系统变量,统一Ollama的下载模型路径
1 | # /etc/environmen 文件,设置后重启生效 |
OLLAMA_DEBUG
显示额外的调试信息,例如设置为OLLAMA_DEBUG=1。
OLLAMA_KEEP_ALIVE
模型在内存中保持加载的时间,默认是5分钟。
OLLAMA_LLM_LIBRARY
设置LLM库以绕过自动检测。
OLLAMA_MAX_LOADED_MODELS
设置最大加载模型数量,默认是1。
OLLAMA_MAX_QUEUE
设置请求队列的最大数量。
OLLAMA_MAX_VRAM
设置最大显存(VRAM)。
OLLAMA_MODELS
指定模型目录的路径。
OLLAMA_NOHISTORY
不保存Readline历史记录。
OLLAMA_NOPRUNE
启动时不修剪模型数据。
OLLAMA_NUM_PARALLEL
设置最大并行请求数量,默认是1。
OLLAMA_ORIGINS
指定允许访问的源的逗号分隔列表。
OLLAMA_RUNNERS_DIR
指定Runners的位置。
OLLAMA_SCHED_SPREAD
总是将模型调度在所有GPU上。
OLLAMA_TMPDIR
作用:指定临时文件的位置。
常用命令
ollama serve
启动ollama
ollama show
显示模型信息
ollama run <models-name>
运行模型,第一次会自动下载
1 | ollama run qwen2:1.5b |
ollama pull <models-name>
从注册表中拉取模型
ollama list
列出本地已安装的所有模型
ollama ps
列出当前正在运行的模型
ollama cp
复制模型
ollama rm
删除模型
ollama help
获取有关任何命令的帮助信息
下载模型
常用模型
qwen2
llama3
资源占用情况
模型的大小几乎全部映射到显存上面(专用GPU内存)
如果没有安装 CUDA,则映射到内存上面
通过 ollama serve 启动,看日志 library=cuda 还是 library=cpu
退出运行后,显存并不会马上释放,会根据后续使用情况按需释放
日志
通过 journalctl 查看或通过 ollama serve
启动查看
journalctl
1 | journalctl -u ollama.service |