你笑了

你的笑,是星星跳跃浪花的笑

0%

在本地部署大模型

简介

介绍如何通过 Ollama 在本地部署大模型,包括 Ollama 安装、配置及常用命令

website

github

安装 Ollama

windows

linux

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> NVIDIA GPU installed.

# 下载并启动大模型,本地地址是 http://localhost:11434
ollama run qwen2:1.5b

通过 ollama.service 启停

安装 CUDA

参考

配置

环境变量

OLLAMA_HOST

指定Ollama服务端的IP地址,默认是本地127.0.0.1:11434

允许其他主机连接设置 0.0.0.0

如果跑在云服务器上,需要修改该变量

OLLAMA_MODELS

指定下载模型的路径,默认是当前用户的 HOME 目录下的.ollama/models

1
2
3
4
5
# 查看系统用户
$ cat /etc/passwd
root:x:0:0:root:/root:/bin/bash
lfp:x:1000:1000:lfp,,,:/home/lfp:/bin/bash
ollama:x:998:998::/usr/share/ollama:/bin/false
  • 如果通过 ollama.service 方式启动,是以 ollama 用户的身份运行,其HOME目录是/usr/share/ollama,因此下载的模型保存在 /usr/share/ollama/.ollama/models

    1
    2
    3
    $ systemctl show ollama.service -p User -p Group
    User=ollama
    Group=ollama
  • 如果通过ollama serve 方式启动,是以当前用户lfp的身份运行,其HOME目录是/home/lfp,因此下载的模型保存在/home/lfp/.ollama/models

如果不通过系统环境变量指定下载模型的路径,则以上两种方式无法获取对方已经下载的模型

通过在/etc/environment 文件中添加系统变量,统一Ollama的下载模型路径

1
2
# /etc/environmen 文件,设置后重启生效
OLLAMA_MODELS="/usr/share/ollama/.ollama/models"

OLLAMA_DEBUG

显示额外的调试信息,例如设置为OLLAMA_DEBUG=1。

OLLAMA_KEEP_ALIVE

模型在内存中保持加载的时间,默认是5分钟。

OLLAMA_LLM_LIBRARY

设置LLM库以绕过自动检测。

OLLAMA_MAX_LOADED_MODELS

设置最大加载模型数量,默认是1。

OLLAMA_MAX_QUEUE

设置请求队列的最大数量。

OLLAMA_MAX_VRAM

设置最大显存(VRAM)。

OLLAMA_MODELS

指定模型目录的路径。

OLLAMA_NOHISTORY

不保存Readline历史记录。

OLLAMA_NOPRUNE

启动时不修剪模型数据。

OLLAMA_NUM_PARALLEL

设置最大并行请求数量,默认是1。

OLLAMA_ORIGINS

指定允许访问的源的逗号分隔列表。

OLLAMA_RUNNERS_DIR

指定Runners的位置。

OLLAMA_SCHED_SPREAD

总是将模型调度在所有GPU上。

OLLAMA_TMPDIR

作用:指定临时文件的位置。

常用命令

ollama serve

启动ollama

ollama show

显示模型信息

ollama run <models-name>

运行模型,第一次会自动下载

1
ollama run qwen2:1.5b

ollama pull <models-name>

从注册表中拉取模型

ollama list

列出本地已安装的所有模型

ollama ps

列出当前正在运行的模型

ollama cp

复制模型

ollama rm

删除模型

ollama help

获取有关任何命令的帮助信息

下载模型

常用模型

models 列表

qwen2

llama3

资源占用情况

  • 模型的大小几乎全部映射到显存上面(专用GPU内存)

  • 如果没有安装 CUDA,则映射到内存上面

    通过 ollama serve 启动,看日志 library=cuda 还是 library=cpu

  • 退出运行后,显存并不会马上释放,会根据后续使用情况按需释放

日志

通过 journalctl 查看或通过 ollama serve 启动查看

journalctl

1
journalctl -u ollama.service

FAQ