Ollama 介绍

Ollama 是一款为在本地机器上便捷部署和运行大型语言模型(LLM)而设计的开源框架。采用类似 Docker 的操作方式,有 list、pull、push、run 等命令,通过简单命令就能完成模型从下载到运行的一系列操作,降低了传统上与大模型部署相关的复杂性。不仅支持官方提供的多种预训练模型,如 DeepSeek、Llama 2、Mistral、Qwen 等,还能完美支持用户自己训练的模型,可满足不同用户的多样化需求。

核心功能包括:本地模型推理,模型微调,API 服务暴露,多模态扩展等

应用场景
  • 开发测试:开发者无需购买云端算力即可在本地调试模型,快速搭建语言模型环境,开发新的语言相关的应用程序,如智能客服机器人、文本生成工具等,并进行初步测试和优化。
  • 私有化部署:企业可以在其内网运行定制模型,保障数据隐私,尤其适用于医疗、金融等对数据安全和隐私要求极高的场景,确保敏感数据不泄露到外部。
  • 教育研究:学术机构能够以低成本探索 LLM 能力边界,为研究自然语言处理的学者或者对语言模型感兴趣的个人提供了一个方便的实验平台,可在本地加载不同的模型,对比性能,研究输出特性等。
  • 边缘计算:可在 IoT 设备(如 NVIDIA Jetson)上部署轻量级模型,实现边缘智能,使设备能够在本地进行一些简单的智能处理,减少对云端的依赖,提高响应速度和系统的稳定性

安装 Ollama

1,访问官网 Download Ollama on macOS, 下载对应操作系统的安装包

2,如下图点击 download 即可

3,本地安装 ollama 压缩包,老传统,一路点击下一步即可

4,安装完成后,浏览器访问 http://127.0.0.1:11434/ 显示 Ollama is running 即代表成功

部署 DeepSeek 本地小模型

在 ollama 的官网上可以找到很多开源的模型,打开 Ollama 地址,就可以下载各种模型了,这里以爆火的 deepseek 为例,有多个版本可选,下载的模型版本,一定要注意与本地的电脑对应的显存匹配才可以,否则会跑崩自己的电脑。

这里演示使用,我们直接运行命令,如果本地不存在,即会出发下载部署:

ollama run deepseek-r1:1.5b

运行效果展示

ollama命令行

测试完成后,输入/bye 退出终端

python sdk 调用

安装依赖库:

pip install ollama
#拉起服务,等同于在应用里面打开 ollama
ollama serve
# 浏览器打开 http://127.0.0.1:11434/ 验证是否启动成功

调用代码例子:

import ollama

stream = ollama.chat(model='deepseek-r1:1.5b', messages=[
  {
    'role': 'user',
    'content': '地球为什么是圆的',

  },
], stream=True)


for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

这下可以看到,是带有推理思考的回答:

使用总结

本地部署的优点在于:隐私性更好,数据更安全,无限次使用,但缺点也很明显受限于硬件显卡,无法部署满血版本,土豪请忽略,此外也不支持联网操作,如果需要联网运行,我们需要使用像 langchain 这样的库结合 RAG 功能实现。

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐