一、Ollama 是什么?

Ollama 是一款开源的大型语言模型(LLM)本地化部署工具,支持在 Windows、Mac、Linux 系统上运行多种模型(如 Llama3、Phi3、DeepSeek-R1 等)。其核心优势在于:

  • 隐私保护:完全离线运行,数据不泄露 。
  • 轻量化部署:无需高端显卡,普通设备即可流畅运行 。
  • 多场景兼容:支持命令行、API、Python/JS 库,甚至兼容 OpenAI API 。

二、安装与配置
1. 基础安装
  • Windows 用户

    1. 访问 官网 下载 .exe 安装包 。
    2. 双击安装,默认路径为 C:\Program Files\Ollama(建议不改动)。
    3. 验证安装:打开 PowerShell,输入 ollama version,显示版本号即成功 。
  • Linux/Mac 用户

  # 一键安装脚本
  curl -fsSL https://ollama.com/install.sh | sh

运行

或手动安装最新版本:

  mkdir -p \~/ollama/bin
  curl -L https://ollama.com/download/ollama-linux-amd64 -o \~/ollama/bin/ollama
  chmod +x \~/ollama/bin/ollama
  export PATH=$PATH:$HOME/ollama/bin  # 添加环境变量 

运行

2. 模型存储路径调整
  • 默认模型下载到 C:\Users\<用户名>\.ollama(Windows)或 \~/.ollama(Linux/Mac)。
  • 修改路径方法(以 Windows 为例):
    1. 右键桌面图标 → 属性 → 目标栏末尾添加 --ollama-dir D:\new_path 。

三、基础使用:快速运行模型
1. 下载与运行模型
  • 命令行交互
  ollama run llama3  # 下载并运行 Llama3 模型
  ollama run deepseek-r1  # 运行国产深度求索模型 

运行

首次运行会自动下载模型(网络慢可参考  提速技巧)。

  • 常用命令
    • ollama list:查看已安装模型。
    • ollama stop <模型名>:停止运行模型。
    • ollama rm <模型名>:删除模型 。
2. 图形化界面(适合新手)
  • Open WebUI:通过浏览器交互,支持多模态输入:
  docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

运行

访问 [http://localhost:3000 ](http://localhost:3000 ) 即可使用 。


四、进阶功能:开发与集成
1. API 调用
  • 原生 API
  import ollama
  response = ollama.generate(model='llama3', prompt='你好,世界!')
  print(response['text'])

运行

  • 兼容 OpenAI API
    设置环境变量 OPENAI_API_BASE=[http://localhost:11434/v1 ](http://localhost:11434/v1 ),直接调用 OpenAI 客户端库 。
2. 与开发工具集成
  • Python 虚拟环境
  python -m venv ollama_env
  source ollama_env/bin/activate
  pip install ollama jupyter  # 安装依赖 

运行

  • LangChain 整合
    使用 LangChain 实现复杂任务编排(如问答系统、函数调用)。
3. HPC 集群部署
  • Slurm 作业示例
  sbatch -p ampere --gres=gpu:1 --time=1:00:00 ollama_service.sh

运行

通过 tail -f serve_ollama_<作业ID>.log 实时查看日志 。


五、常见问题与优化
  1. 模型下载慢

    • 使用国内镜像源:OLLAMA_HOST=mirror.example.com ollama run llama3 。
    • 手动导入 GGUF 模型:ollama create my-model -f Modelfile 。
  2. 性能调优

    • 启用 GPU 加速:安装 CUDA 驱动后,Ollama 自动调用 。
    • 调整线程数:OLLAMA_NUM_PARALLEL=4 ollama run llama3 。

六、资源推荐
Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐