目录

Ollama

安装软件(Windows)

安装软件(Linux)

安装软件(Docker)最简单

下载模型

下载Ollama内置的模型

下载llama3模型(亲测垃圾机房都可以跑起来)

下载DeepSeek-V3模型

运行模型

搭建Web环境


Ollama

Ollama 是一个开源的大型语言模型服务工具,旨在帮助用户在本地环境中部署和运行大规模预训练语言模型(LLM)。它通过简化模型的下载、安装和管理流程,使得用户能够快速地在本地运行这些模型,并且支持多种流行模型如 GPT-4 和 LLaMA 等。

Ollama 提供了多种功能,包括:

  1. 模型管理:用户可以通过命令行工具(如 ollama serveollama runollama pull 等)来启动服务、运行模型、拉取模型、推送模型等操作。

  2. 多 GPU 支持:Ollama 支持多 GPU 配置,可以优化模型的运行效率,适应不同的计算资源需求。

  3. 热加载模型:用户可以在不重新启动服务的情况下切换不同的模型,这使得 Ollama 在灵活性和效率上具有优势。

  4. API 兼容性:Ollama 提供了与 OpenAI 兼容的 API 接口,方便用户通过 API 调用模型进行任务处理。

  5. Web 界面和客户端支持:Ollama 支持通过 WebUI 访问,并提供了多种客户端库(如 ollama-js 和 ollama-python),方便开发者在不同平台和语言环境中使用。

Ollama 的核心优势:

  1. 简单易用。用户只需通过简单的安装指令即可在本地运行复杂的 AI 模型。

  2. 通用性。可以在多种应用中使用,包括web方式部署。

  3. 安全性和私密性。模型、数据处理流程运行在本地机器。

  4. 支持并行请求和并发处理,进一步提升了其在多任务场景下的性能。

安装软件(Windows)

首先安装Ollama,它可以让我们非常方便地运行各种LLM。从Ollama官网直接下载傻瓜式安装即可,安装完成后在命令行测试Ollama是否已正常运行:

ollama -v

注意:Ollama默认安装在C盘中,如果想安装在别的盘,需要使用命令指定安装路径进行安装

OllamaSetup.exe /DIR=目录所在路径
例:OllamaSetup.exe /DIR=D:\LLM\OLLAMA

更改Ollama存储下载模型的位置(这个会占用很大的空间,建议修改),而不是使用你的C盘用户的AppData存储,可以在你的用户账户中设置环境变量 OLLAMA_MODELS。默认是安装在C盘用户的AppData中。如果 Ollama 已经在运行,请退出系统托盘中的应用程序,然后从开始菜单或在保存环境变量后启动的新终端中重新启动它。在cmd窗口中直接运行以下命令即可!

#默认安装路径
macOS: ~/.ollama/models 
Linux: **/usr/share/ollama/.ollama/models**
Windows: C:Users<username>.ollamamodels


set OLLAMA_MODELS=路径所在位置
例:set OLLAMA_MODELS=D:\LLM\OLLAMAMODELS

安装软件(Linux)

Ollama的安装极为简单,只需在终端中执行以下命令:

curl -fsSL https://ollama.com/install.sh | sh
#启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

更改Ollama存储下载模型的位置

关闭ollama服务,命令停止:

sudo systemctl stop ollama
sudo systemctl disable ollama.service

默认下的路径:/usr/share/ollama/.ollama/models

先创建一个新文件夹,用于存储模型

sudo mkdir /path/to/ollama/models

路径下的文件的权限用户和组都要是root,并且权限全开,为777

如果不是,可以用如下命令设置:
将目标路径的所属用户和组改为root

sudo chown -R root:root /path/to/ollama/models
sudo chmod -R 777 /path/to/ollama/models

更改service文件

sudo vim /etc/systemd/system/ollama.service

[Service]下面加入一行新的Environment,新一行!

Environment="OLLAMA_MODELS=/path/to/ollama/models" # 记得替换路径!!!

这里注意UserGroup都要设成root

重载配置并重启ollama

sudo systemctl daemon-reload
sudo systemctl restart ollama.service

可以删除默认的模型路径,让它重新生成

安装软件(Docker)最简单

一句话安装Ollama和WebUI

docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

这个命令的作用是:启动一个名为 open-webui 的容器,基于 ghcr.io/open-webui/open-webui:ollama 镜像。容器将在后台运行,暴露端口 8080,并将其映射到宿主机的端口 3000。
容器会使用所有可用的 GPU,且具有持久化存储(ollama 和 open-webui 卷)。
如果容器停止,它会自动重启,确保服务持续运行。这是一个针对 Web 应用程序的 Docker 配置,可能用于机器学习或 Web 服务的部署,尤其是在有 GPU 加速需求时。

安装后,可以通过http://localhost:3000访问 Open WebUI,初次访问会让你创建管理员账号,创建好即可!注意:初次也是没有模型的也就不能用,所以需要自行下载模型,可以使用以下命令直接完成阿里通义千问4b-chat模型的下载(没有好的网络和镜像可能很卡),如需要其他模型可看下面的教程,无非就是进入docker镜像里面操作。

docker exec -it ollama ollama run qwen:4b-chat

下载模型

下载Ollama内置的模型

Ollama可以直接下载内置的几种模型,但选择有限

内置的模型可通过以下命令直接拉取:

ollama pull 模型名称
例:ollama pull qwen2.5

下载llama3模型(亲测垃圾机房都可以跑起来)

HuggingFace(需要梯子)搜索llama3 ,设置LanguagesChinese,可以看到若干基于LLaMa3的中文模型

选择一个GGUF格式的模型,GGUF格式是llama.cpp团队搞的一种模型存储格式,一个模型就是一个文件,方便下载:

点击Files,可以看到若干GGUF文件,其中,q越大说明模型质量越高,同时文件也更大,我们选择q6,直接点击下载按钮,把这个模型文件下载到本地。

下载到本地的模型文件不能直接导入到Ollama,需要编写一个配置文件,随便起个名字,如config.txt,配置文件内容如下:

FROM "./Llama3-8B-Chinese-Chat.q6_k.GGUF"

TEMPLATE """{{- if .System }}
<|im_start|>system {{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""

SYSTEM """"""

PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

第一行FROM "..."指定了模型文件路径,需要修改为实际路径(我这里配置的就是在当前路径下有个Llama3-8B-Chinese-Chat.q6_k.GGUF文件),后面的模板内容是网上复制的,无需改动。

然后,使用以下命令导入模型:

ollama create llama3-cn -f ./config.txt

llama3-cn是我们给模型起的名字,成功导入后可以用list命令查看:

ollama list

NAME              ID            SIZE    MODIFIED
llama3-cn:latest  f3fa01629cab  6.6 GB  2 minutes ago

可以下载多个模型,给每个模型写一个配置文件(仅需修改路径),导入时起不同的名字,我们就可以用Ollama方便地运行各种模型。

下载DeepSeek-V3模型

 在HuggingFace(需要梯子)搜索deepseek,找到后缀为GGUF的都可以

选择Use this model,然后点击Ollama,然后点击Copy就可以把拉取命令拷贝到剪切板上,通过以下命令就可以安装DeepSeek-V3

ollama run hf.co/bullerwins/DeepSeek-V3-GGUF:BF16

运行模型

使用Ollama的run命令可以直接运行模型。我们输入命令

ollama run llama3-cn

搭建Web环境

使用命令行交互不是很方便,所以我们需要另一个使用Vue开源的[ollama-gui],搭建一个能通过浏览器访问的界面,这个比较轻量化使用体验还可以。直接把代码拉取下来使用Node.js16及以上版本进行构建即可!

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐