在本地部署大模型

简介

介绍如何通过 Ollama 在本地部署大模型，包括 Ollama 安装、配置及常用命令

安装 Ollama

windows

下载

linux

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> NVIDIA GPU installed.

# 下载并启动大模型，本地地址是 http://localhost:11434
ollama run qwen2:1.5b

通过 ollama.service 启停

安装 CUDA

参考

配置

环境变量

OLLAMA_HOST

指定Ollama服务端的IP地址，默认是本地127.0.0.1:11434

允许其他主机连接设置 0.0.0.0

如果跑在云服务器上，需要修改该变量

OLLAMA_MODELS

指定下载模型的路径，默认是当前用户的 HOME 目录下的.ollama/models。

# 查看系统用户
$ cat /etc/passwd
root:x:0:0:root:/root:/bin/bash
lfp:x:1000:1000:lfp,,,:/home/lfp:/bin/bash
ollama:x:998:998::/usr/share/ollama:/bin/false

如果通过 ollama.service 方式启动，是以 ollama 用户的身份运行，其HOME目录是/usr/share/ollama，因此下载的模型保存在 /usr/share/ollama/.ollama/models
1
2
3
$ systemctl show ollama.service -p User -p Group
User=ollama
Group=ollama
如果通过ollama serve 方式启动，是以当前用户lfp的身份运行，其HOME目录是/home/lfp，因此下载的模型保存在/home/lfp/.ollama/models

如果不通过系统环境变量指定下载模型的路径，则以上两种方式无法获取对方已经下载的模型

通过在/etc/environment 文件中添加系统变量，统一Ollama的下载模型路径

1 2	# /etc/environmen 文件，设置后重启生效 OLLAMA_MODELS="/usr/share/ollama/.ollama/models"

OLLAMA_DEBUG

显示额外的调试信息，例如设置为OLLAMA_DEBUG=1。

OLLAMA_KEEP_ALIVE

模型在内存中保持加载的时间，默认是5分钟。

OLLAMA_LLM_LIBRARY

设置LLM库以绕过自动检测。

OLLAMA_MAX_LOADED_MODELS

设置最大加载模型数量，默认是1。

OLLAMA_MAX_QUEUE

设置请求队列的最大数量。

OLLAMA_MAX_VRAM

设置最大显存（VRAM）。

OLLAMA_MODELS

指定模型目录的路径。

OLLAMA_NOHISTORY

不保存Readline历史记录。

OLLAMA_NOPRUNE

启动时不修剪模型数据。

OLLAMA_NUM_PARALLEL

设置最大并行请求数量，默认是1。

OLLAMA_ORIGINS

指定允许访问的源的逗号分隔列表。

OLLAMA_RUNNERS_DIR

指定Runners的位置。

OLLAMA_SCHED_SPREAD

总是将模型调度在所有GPU上。

OLLAMA_TMPDIR

作用：指定临时文件的位置。

常用命令

ollama serve

启动ollama

ollama show

显示模型信息

ollama run <models-name>

运行模型，第一次会自动下载

1	ollama run qwen2:1.5b

ollama pull <models-name>

从注册表中拉取模型

ollama list

列出本地已安装的所有模型

ollama ps

列出当前正在运行的模型

ollama cp

复制模型

ollama rm

删除模型

ollama help

获取有关任何命令的帮助信息

下载模型

常用模型

models 列表

qwen2

llama3

资源占用情况

模型的大小几乎全部映射到显存上面（专用GPU内存）
如果没有安装 CUDA，则映射到内存上面

通过 ollama serve 启动，看日志 library=cuda 还是 library=cpu
退出运行后，显存并不会马上释放，会根据后续使用情况按需释放

日志

通过 journalctl 查看或通过 ollama serve 启动查看

journalctl

1	journalctl -u ollama.service

简介

安装 Ollama

windows

linux

安装 CUDA

配置

环境变量

OLLAMA_HOST

OLLAMA_MODELS

OLLAMA_DEBUG

OLLAMA_KEEP_ALIVE

OLLAMA_LLM_LIBRARY

OLLAMA_MAX_LOADED_MODELS

OLLAMA_MAX_QUEUE

OLLAMA_MAX_VRAM

OLLAMA_MODELS

OLLAMA_NOHISTORY

OLLAMA_NOPRUNE

OLLAMA_NUM_PARALLEL

OLLAMA_ORIGINS

OLLAMA_RUNNERS_DIR

OLLAMA_SCHED_SPREAD

OLLAMA_TMPDIR

常用命令

ollama serve

ollama show

ollama run <models-name>

ollama pull <models-name>

ollama list

ollama ps

ollama cp

ollama rm

ollama help

下载模型

常用模型

qwen2

llama3

资源占用情况

日志

journalctl

FAQ