ollama+FastAPI部署后端大模型调用接口
记录一下开源大模型的后端调用接口过程。
·
ollama+FastAPI部署后端大模型调用接口
记录一下开源大模型的后端调用接口过程
一、ollama下载及运行
1. ollama安装
ollama是一个本地部署开源大模型的软件,可以运行llama、gemma、qwen等国内外开源大模型,也可以部署自己训练的大模型
下载安装,并运行
ollama图标出现在折叠的任务栏中,就算安装成功了
2. 下载并运行大模型
在ollama管理的模型中,找到自己想要部署的大模型,以qwen2.5-7B大模型为例
ollama启动状态下,终端执行如下命令:
ollama run qwen2.5
如果是首次运行,会先下载,下载之后,就可以运行起来了
此时,已经可以在终端访问大模型了
二、后端接口调用
ollama运行的本地大模型端口号为11434,可以在线调用
有多种方式可以实现大模型的后端调用,只要是后端语言,都可以
因为我的后端有其他深度学习模型要调用,所以我选用的后端语言是python,调用大模型时,自然也选择了python,接口框架使用的是fastapi
后端调用程序如下:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:HP
# datetime:2024/11/11 8:43
from fastapi import HTTPException, APIRouter
import requests
import json
from .inputData import GenerateRequest
big_model_api = APIRouter()
# 定义 Ollama API 的 URL
OLLAMA_API_URL = "http://localhost:11434/v1/completions" # Ollama 默认运行在本地 11434 端口
@big_model_api.post('/llama')
async def generate_text(request: GenerateRequest):
# 设置请求头和请求数据
headers = {"Content-Type": "application/json"}
data = {
"model": request.model,
"prompt": request.prompt,
"temperature": request.temperature,
"max_tokens": request.max_tokens,
}
# 发送请求给 Ollama API
response = requests.post(OLLAMA_API_URL, headers=headers, data=json.dumps(data))
# 检查响应状态并处理结果
if response.status_code == 200:
result = response.json()
return {
"generated_text": result.get("choices")[0].get("text")
}
else:
raise HTTPException(status_code=response.status_code, detail=response.text)
这里使用的是分布式路由接口,在fastapi的主程序中加入这个名为big_model_api的APIRouter实例,就可以在前端访问这个接口了
当然,需要配合pydantic定义好请求数据的结构,GenerateRequest类定义如下:
# 数据模型,用于接收请求数据
class GenerateRequest(BaseModel):
model: str = "qwen2.5" # 模型名称
prompt: str # 输入的 prompt
temperature: float = 0.7 # 温度参数,默认为 0.7
max_tokens: int = 1000 # 最大生成的 token 数,默认为 200
解释一下:
- 默认调用的模型是qwen2.5,如果传递其他参数,就可以调用其他模型
- prompt也就是提示词,就是前端传给后端的问题
- temperature不知道有啥用
- max_token其实就是支持返回多长的字符,这个值越大,消耗的资源越大
后端服务启动后,前端正常传递对话内容,请求后端接口,就可以调用大模型进行对话了
如果有自己训练的模型,也可以参考这种方式部署上线,但是ollama如何来调用,还需要单独研究
更多推荐
已为社区贡献1条内容
所有评论(0)