PDF 文档提取和解析 API：使用最先进的 OCR 和 Ollama 支持的模型

该 API 使用 FastAPI 构建，并使用 Celery 进行异步任务处理。Redis 用于缓存 OCR 结果。•基于 PyTorch 的 OCR（Marker）+ Ollama 通过 docker-compose 进行交付和配置，不会将任何数据发送到您的开发/服务器环境之外。•使用不同的 OCR 策略（包括 marker、surya-ocr 或 tessereact）进行 PDF 到 Mar

大靠山

1207人浏览 · 2024-11-13 20:40:38

大靠山 · 2024-11-13 20:40:38 发布

将任何图像或 PDF 转换为 Markdown 文本或 JSON 结构化文档，并具有超高的准确性，包括表格数据、数字或数学公式。

该 API 使用 FastAPI 构建，并使用 Celery 进行异步任务处理。Redis 用于缓存 OCR 结果。

无需云/外部依赖，您只需要：

•基于 PyTorch 的 OCR（Marker）+ Ollama 通过 docker-compose 进行交付和配置，不会将任何数据发送到您的开发/服务器环境之外。•使用不同的 OCR 策略（包括 marker、surya-ocr 或 tessereact）进行 PDF 到 Markdown 的转换，具有非常高的准确性。•使用 Ollama 支持的模型（例如 LLama 3.1）进行 PDF 到 JSON 的转换。•LLM 改善 OCR 结果，LLama 在修复 OCR 文本中的拼写和文本问题方面非常出色。•删除 PII，此工具可用于从 PDF 中删除个人身份信息 - 请参阅示例。•使用 Celery[1] 进行分布式队列处理。•使用 Redis 进行缓存 - OCR 结果可以在 LLM 处理之前轻松缓存。•用于发送任务和处理结果的 CLI 工具。

示例：

•将 MRI 报告转换为 Markdown + JSON。•将发票转换为 JSON 并删除 PII。

Docker 和 Docker Compose：

•克隆仓库：git clone https://github.com/CatchTheTornado/pdf-extract-api.git•进入目录：cd pdf-extract-api•设置环境变量：

•创建 .env 文件并设置必要的环境变量。•使用 .env.example 文件作为模板。•修改文件中的变量。

•构建并运行 Docker 容器：

•使用 Docker Compose 构建并运行 Docker 容器：docker-compose up --build•对于 GPU 支持，运行：docker-compose -f docker-compose.gpu.yml up --build

•这将启动以下服务：

•FastAPI 应用程序：运行 FastAPI 应用程序。•Celery 工作进程：处理异步 OCR 任务。•Redis：缓存 OCR 结果。•Ollama：运行 Ollama 模型。

CLI 工具：

•进入 client 目录：cd client•安装依赖：pip install -r requirements.txt•测试不同的 LLama 支持的模型：python client/cli.py llm_pull --model llama3.1•上传文件进行 OCR（转换为 Markdown）：python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache•上传文件进行 OCR（由 LLM 处理）：python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache --prompt_file=examples/example-mri-remove-pii.txt•通过任务 ID 获取 OCR 结果：python client/cli.py result -task_id {your_task_id_from_upload_step}•清除缓存：python client/cli.py clear_cache•使用 LLM 生成文本：python llm_generate --prompt "Your prompt here"

API 端点：

•/ocr：

•方法：POST•参数：

•file：要处理的 PDF 文件。•strategy：要使用的 OCR 策略（marker 或 tesseract）。•ocr_cache：是否缓存 OCR 结果（true 或 false）。•prompt：如果提供，将用于 Ollama 处理 OCR 结果。•model：如果与提示一起提供，此模型将用于 LLM 处理。

•示例：curl -X POST "http://localhost:8000/ocr" -F "file=examples/example-mri.pdf" -F "strategy=marker" -F "ocr_cache=true"

•/ocr/result/{task_id}：

•方法：GET•参数：

•task_id：OCR 端点返回的任务 ID。

•示例：curl -X GET "http://localhost:8000/ocr/result/{task_id}"

•/ocr/clear_cache：

•方法：POST•示例：curl -X POST "http://localhost:8000/ocr/clear_cache"

•/llm_pull：

•方法：POST•参数：

•model：首先拉取要使用的模型。

•示例：curl -X POST "http://localhost:8000/llama_pull" -H "Content-Type: application/json" -d '{"model": "llama3.1"}'

•/llm_generate：

•方法：POST•参数：

•prompt：Ollama 模型的提示。•model：要查询的模型。

•示例：curl -X POST "http://localhost:8000/llama_generate" -H "Content-Type: application/json" -d '{"prompt": "Your prompt here", "model":"llama3.1"}'

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述