【 86.9k 下载! 】Mistral AI开源Pixtral-12B多模态大模型,效果力压llama3.2/Qwen2-VL
Pixtral 12B 是由Mistral AI 推出的一款具有 12 亿参数的多模态语言模型,具备处理自然图像和文档的能力,在多模态基准测试中取得了领先性能。与许多其他开源模型不同,Pixtral 12B 在保持多模态任务优势的同时,也没有牺牲自然语言处理性能。多模态能力:Pixtral 12B 在多项多模态任务中表现出色,例如在 MMMU 推理基准测试中达到了 52.5% 的准确率。灵活的图像
本文目录
-
Pixtral 12B 多模型大模型介绍
-
Pixtral多模态大模型-架构介绍
-
Pixtral 12B多模态大模型-性能介绍
-
部署python代码实现Pixtral 12B多模态大模型推理
-
简单模式-推理代码
-
批量模式-推理代码
-
效果篇:多案例测试-效果炸裂
-
案例1:图片内容描述-效果展示
-
案例2:识别图片内表格内容转换为markdown语法-效果展示
-
案例3: 识别图片内多个表格内容转换为markdown语法-效果展示
-
案例4: 将图片内容绘制生成对应的html-效果展示
-
案例5:对图片内容进行数据分析理解-效果展示
-
案例6: 分析上证指数的现状和未来趋势-效果展示
Pixtral 12B 多模型大模型介绍
Pixtral 12B 是由Mistral AI 推出的一款具有 12 亿参数的多模态语言模型,具备处理自然图像和文档的能力,在多模态基准测试中取得了领先性能。与许多其他开源模型不同,Pixtral 12B 在保持多模态任务优势的同时,也没有牺牲自然语言处理性能。该模型使用了全新的视觉编码器,能够处理原始分辨率和宽高比的图像,为用户提供了处理图像的灵活性:
-
多模态能力:Pixtral 12B 在多项多模态任务中表现出色,例如在 MMMU 推理基准测试中达到了 52.5% 的准确率。
-
灵活的图像处理:模型支持可变图像大小和宽高比,能够处理任意数量的图像。
-
长上下文窗口:Pixtral 12B 拥有 128K tokens 的长上下文窗口,可以处理多张图像。
-
开源许可:该模型采用 Apache 2.0 许可证发布,为研究者和开发者提供了一个强大的工具。
在modelscope社区权重下载量高达86.9k!,非常受欢迎~
Pixtral多模态大模型-架构介绍
Pixtral通过一个新的从头开始训练的视觉编码器来支持可变图像大小。这个编码器可以将图像以原始分辨率和宽高比输入,并将图像分割成16x16像素的块,每个块转换成一个图像令牌。这些令牌被展平成一个序列,并在图像的行之间以及图像末尾添加特殊令牌[IMG BREAK]和[IMG END],以便模型能够处理不同宽高比的图像,如下图。Pixtral的这种设计使其能够准确理解高分辨率的复杂图表、图表和文档,同时也能快速处理小图像,如图标、剪贴画和方程式。
Pixtral的最终架构包括视觉编码器和多模态变换器解码器,模型在交错的图像和文本数据上进行训练,以预测下一个文本令牌,使其能够在128K令牌的上下文窗口中处理任意数量的图像。
Pixtral-12B 相关的参数说明:
Pixtral 12B多模态大模型-性能介绍
Pixtral 12B 在多模态任务上的性能表现非常出色,它在新的多模态、多轮次、指令遵循基准测试 MM-MT-Bench 上的性能显示了其在实际应用场景中的强大能力。此外,它在 LMSys 公共排行榜(视觉竞技场,2024年10月)上也展现了卓越的性能。Pixtral 12B 超越了同等规模的模型,如 Qwen2-VL 7B 和 Llama-3.2 11B,并且在某些多模态基准测试中超越了规模更大的模型,如 Llama-3.2 90B。此外,Pixtral 12B 在纯文本任务上也不落下风,展现了其在多模态和文本任务上的强大能力。
下面我将给大家实测一下Pixtral多模态效果,看看是否真的好用~
部署python代码实现Pixtral 12B多模态大模型推理
简单模式-推理代码
!pip install --upgrade vllm !pip install --upgrade mistral_common# mistral_common >= 1.4.4 from vllm import LLM from vllm.sampling_params import SamplingParams model_name = "mistralai/Pixtral-12B-2409" sampling_params = SamplingParams(max_tokens=8192) llm = LLM(model=model_name, tokenizer_mode="mistral") prompt = "Describe this image in one sentence." image_url = "https://picsum.photos/id/237/200/300" messages = [ { "role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}] }, ] outputs = llm.chat(messages, sampling_params=sampling_params) print(outputs[0].outputs[0].text)
批量模式-推理代码
from vllm import LLM from vllm.sampling_params import SamplingParams model_name = "mistralai/Pixtral-12B-2409" max_img_per_msg = 5 sampling_params = SamplingParams(max_tokens=8192, temperature=0.7) # Lower max_num_seqs or max_model_len on low-VRAM GPUs. llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_model_len=32768) prompt = "Describe the following image." url_1 = "https://hf-mirror.com/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png" url_2 = "https://picsum.photos/seed/picsum/200/300" url_3 = "https://picsum.photos/id/32/512/512" messages = [ { "role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}], }, { "role": "assistant", "content": "The images shows nature.", }, { "role": "user", "content": "More details please and answer only in French!." }, { "role": "user", "content": [{"type": "image_url", "image_url": {"url": url_3}}], } ] outputs = llm.chat(messages=messages, sampling_params=sampling_params) print(outputs[0].outputs[0].text)
效果篇:多案例测试-效果炸裂
由于Pixtral 12B大模型的权重参数过大,将近26G左右。在这里我使用官方的在线聊天版本来进行案例展示:https://chat.mistral.ai/chat;登录后就可以使用,支持国内访问,不需要翻墙。
案例1:图片内容描述-效果展示
这是Pixtral多模态大模型-网页版输出的结果:
对图片描述的非常到位!
案例2:识别图片内表格内容转换为markdown语法-效果展示
我的测试图片:
这是Pixtral多模态大模型-网页版输出的结果:
输出的markdown语法: 完全正确!
| | Pixtral 12B | Claude-3 Haiku | Gemini-1.5 Flash 8B (0827) | LLaVA-OV 72B | GPT-4o | Claude-3.5 Sonnet | |----------------|-------------|----------------|---------------------------|--------------|-------|------------------| | MMMU (CoT) | 52.5 | 50.4 | 50.7 | 54.4 | 68.6 | 68.0 | | Mathvista (CoT)| 58.0 | 44.8 | 56.9 | 57.2 | 64.6 | 64.4 | | ChartQA (CoT) | 81.8 | 69.6 | 78.0 | 66.9 | 85.1 | 87.6 | | DocVQA (ANLS) | 90.7 | 74.6 | 79.5 | 91.6 | 88.9 | 90.3 | | VQAv2 (VQA Match)| 78.6 | 68.4 | 65.5 | 83.8 | 77.8 | 70.7 |
案例3: 识别图片内多个表格内容转换为markdown语法-效果展示
测试图片(包含三个表格):
这是Pixtral多模态大模型-网页版识别的结果:
对应输出markdown语法: 图片中有多个表格,依然准确识别!
# 图像表现 | | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision | |----------------|-------------|-------------|-------------|--------------|---------------| | MMMU (CoT) | 52.5 | 47.6 | 45.1 | 40.3 | 38.3 | | Mathvista (CoT)| 58.0 | 54.4 | 36.1 | 36.4 | 39.3 | | ChartQA (CoT) | 81.8 | 38.6 | 67.1 | 72.0 | 67.7 | | DocVQA (ANLS) | 90.7 | 94.5 | 90.5 | 84.9 | 74.4 | | VQAv2 (VQA Match)| 78.6 | 75.9 | 78.3 | 42.4 | 56.1 | # 指令跟随 | | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision | |----------------|-------------|-------------|-------------|--------------|---------------| | MM MT-Bench | 6.05 | 5.43 | 4.12 | 3.70 | 4.46 | | Text MT-Bench | 7.68 | 6.41 | 6.94 | 6.27 | 6.31 | | MM IF-Eval | 52.7 | 38.9 | 42.5 | 41.2 | 31.4 | | Text IF-Eval | 61.3 | 50.1 | 51.4 | 50.9 | 47.4 | # 文本基准 | | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision | |----------------|-------------|-------------|-------------|--------------|---------------| | MMLU (5-shot) | 69.2 | 68.5 | 67.9 | 63.5 | 63.6 | | Math (Pass@1) | 48.1 | 27.8 | 38.6 | 29.2 | 28.4 | | Human Eval (Pass@1) | 72.0 | 64.6 | 65.9 | 48.8 | 49.4 |
案例4: 将图片内容绘制生成对应的html-效果展示
我的测试图片内容:
这是Pixtral多模态大模型-网页版输出的结果:
复制对应的html语法在本地渲染结果:
卧槽,着实牛逼!几乎是完全还原图片的效果!!
案例5:对图片内容进行数据分析理解-效果展示
现在有一个模型训练曲线图如下:
这是Pixtral多模态大模型-网页版识别的结果:
分析的完全正确,不错不错!
案例6: 分析上证指数的现状和未来趋势-效果展示
最近一段时间A股非常刺激;我们让Pixtral大模型来帮我们分析一下;
这是Pixtral多模态大模型-网页输出的结果:
这分析结果怎么样,是不是很哇塞,太强了!你心动Pixtral多模态大模型的能力了吗?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)