【 86.9k 下载! 】Mistral AI开源Pixtral-12B多模态大模型，效果力压llama3.2/Qwen2-VL

Pixtral 12B 是由Mistral AI 推出的一款具有 12 亿参数的多模态语言模型，具备处理自然图像和文档的能力，在多模态基准测试中取得了领先性能。与许多其他开源模型不同，Pixtral 12B 在保持多模态任务优势的同时，也没有牺牲自然语言处理性能。多模态能力：Pixtral 12B 在多项多模态任务中表现出色，例如在 MMMU 推理基准测试中达到了 52.5% 的准确率。灵活的图像

程序猿李巡天

1067人浏览 · 2024-10-14 20:10:23

程序猿李巡天 · 2024-10-14 20:10:23 发布

本文目录

Pixtral 12B 多模型大模型介绍
Pixtral多模态大模型-架构介绍
Pixtral 12B多模态大模型-性能介绍
部署python代码实现Pixtral 12B多模态大模型推理
简单模式-推理代码
批量模式-推理代码
效果篇:多案例测试-效果炸裂
案例1:图片内容描述-效果展示
案例2:识别图片内表格内容转换为markdown语法-效果展示
案例3: 识别图片内多个表格内容转换为markdown语法-效果展示
案例4: 将图片内容绘制生成对应的html-效果展示
案例5：对图片内容进行数据分析理解-效果展示
案例6: 分析上证指数的现状和未来趋势-效果展示

Pixtral 12B 多模型大模型介绍

Pixtral 12B 是由Mistral AI 推出的一款具有 12 亿参数的多模态语言模型，具备处理自然图像和文档的能力，在多模态基准测试中取得了领先性能。与许多其他开源模型不同，Pixtral 12B 在保持多模态任务优势的同时，也没有牺牲自然语言处理性能。该模型使用了全新的视觉编码器，能够处理原始分辨率和宽高比的图像，为用户提供了处理图像的灵活性:

多模态能力：Pixtral 12B 在多项多模态任务中表现出色，例如在 MMMU 推理基准测试中达到了 52.5% 的准确率。
灵活的图像处理：模型支持可变图像大小和宽高比，能够处理任意数量的图像。
长上下文窗口：Pixtral 12B 拥有 128K tokens 的长上下文窗口，可以处理多张图像。
开源许可：该模型采用 Apache 2.0 许可证发布，为研究者和开发者提供了一个强大的工具。

在modelscope社区权重下载量高达86.9k!，非常受欢迎~

Pixtral多模态大模型-架构介绍

Pixtral通过一个新的从头开始训练的视觉编码器来支持可变图像大小。这个编码器可以将图像以原始分辨率和宽高比输入，并将图像分割成16x16像素的块，每个块转换成一个图像令牌。这些令牌被展平成一个序列，并在图像的行之间以及图像末尾添加特殊令牌[IMG BREAK]和[IMG END]，以便模型能够处理不同宽高比的图像，如下图。Pixtral的这种设计使其能够准确理解高分辨率的复杂图表、图表和文档，同时也能快速处理小图像，如图标、剪贴画和方程式。

Pixtral的最终架构包括视觉编码器和多模态变换器解码器，模型在交错的图像和文本数据上进行训练，以预测下一个文本令牌，使其能够在128K令牌的上下文窗口中处理任意数量的图像。

Pixtral-12B 相关的参数说明:

Pixtral 12B多模态大模型-性能介绍

Pixtral 12B 在多模态任务上的性能表现非常出色，它在新的多模态、多轮次、指令遵循基准测试 MM-MT-Bench 上的性能显示了其在实际应用场景中的强大能力。此外，它在 LMSys 公共排行榜（视觉竞技场，2024年10月）上也展现了卓越的性能。Pixtral 12B 超越了同等规模的模型，如 Qwen2-VL 7B 和 Llama-3.2 11B，并且在某些多模态基准测试中超越了规模更大的模型，如 Llama-3.2 90B。此外，Pixtral 12B 在纯文本任务上也不落下风，展现了其在多模态和文本任务上的强大能力。

下面我将给大家实测一下Pixtral多模态效果,看看是否真的好用~

部署python代码实现Pixtral 12B多模态大模型推理

简单模式-推理代码

!pip install --upgrade vllm   !pip install --upgrade mistral_common# mistral_common >= 1.4.4   from vllm import LLM   from vllm.sampling_params import SamplingParams   model_name = "mistralai/Pixtral-12B-2409"   sampling_params = SamplingParams(max_tokens=8192)   llm = LLM(model=model_name, tokenizer_mode="mistral")   prompt = "Describe this image in one sentence."   image_url = "https://picsum.photos/id/237/200/300"   messages = [       {           "role": "user",           "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}]       },   ]   outputs = llm.chat(messages, sampling_params=sampling_params)   print(outputs[0].outputs[0].text)

批量模式-推理代码

from vllm import LLM   from vllm.sampling_params import SamplingParams      model_name = "mistralai/Pixtral-12B-2409"   max_img_per_msg = 5      sampling_params = SamplingParams(max_tokens=8192, temperature=0.7)      # Lower max_num_seqs or max_model_len on low-VRAM GPUs.   llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_model_len=32768)      prompt = "Describe the following image."      url_1 = "https://hf-mirror.com/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"   url_2 = "https://picsum.photos/seed/picsum/200/300"   url_3 = "https://picsum.photos/id/32/512/512"   messages = [       {           "role": "user",           "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}],       },       {           "role": "assistant",           "content": "The images shows nature.",       },       {           "role": "user",           "content": "More details please and answer only in French!."       },       {           "role": "user",           "content": [{"type": "image_url", "image_url": {"url": url_3}}],       }   ]   outputs = llm.chat(messages=messages, sampling_params=sampling_params)   print(outputs[0].outputs[0].text)

效果篇:多案例测试-效果炸裂

由于Pixtral 12B大模型的权重参数过大，将近26G左右。在这里我使用官方的在线聊天版本来进行案例展示:https://chat.mistral.ai/chat;登录后就可以使用，支持国内访问，不需要翻墙。

案例1:图片内容描述-效果展示

这是Pixtral多模态大模型-网页版输出的结果:

对图片描述的非常到位！

案例2:识别图片内表格内容转换为markdown语法-效果展示

我的测试图片:

这是Pixtral多模态大模型-网页版输出的结果:

输出的markdown语法: 完全正确！

|                | Pixtral 12B | Claude-3 Haiku | Gemini-1.5 Flash 8B (0827) | LLaVA-OV 72B | GPT-4o | Claude-3.5 Sonnet |   |----------------|-------------|----------------|---------------------------|--------------|-------|------------------|   | MMMU (CoT)     | 52.5        | 50.4           | 50.7                      | 54.4         | 68.6  | 68.0             |   | Mathvista (CoT)| 58.0        | 44.8           | 56.9                      | 57.2         | 64.6  | 64.4             |   | ChartQA (CoT)  | 81.8        | 69.6           | 78.0                      | 66.9         | 85.1  | 87.6             |   | DocVQA (ANLS)  | 90.7        | 74.6           | 79.5                      | 91.6         | 88.9  | 90.3             |   | VQAv2 (VQA Match)| 78.6       | 68.4           | 65.5                      | 83.8         | 77.8  | 70.7             |

案例3: 识别图片内多个表格内容转换为markdown语法-效果展示

测试图片(包含三个表格):

这是Pixtral多模态大模型-网页版识别的结果:

对应输出markdown语法: 图片中有多个表格，依然准确识别！

# 图像表现      |                | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision |   |----------------|-------------|-------------|-------------|--------------|---------------|   | MMMU (CoT)     | 52.5        | 47.6        | 45.1        | 40.3         | 38.3          |   | Mathvista (CoT)| 58.0        | 54.4        | 36.1        | 36.4         | 39.3          |   | ChartQA (CoT)  | 81.8        | 38.6        | 67.1        | 72.0         | 67.7          |   | DocVQA (ANLS)  | 90.7        | 94.5        | 90.5        | 84.9         | 74.4          |   | VQAv2 (VQA Match)| 78.6       | 75.9        | 78.3        | 42.4         | 56.1          |      # 指令跟随      |                | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision |   |----------------|-------------|-------------|-------------|--------------|---------------|   | MM MT-Bench    | 6.05        | 5.43        | 4.12        | 3.70         | 4.46          |   | Text MT-Bench  | 7.68        | 6.41        | 6.94        | 6.27         | 6.31          |   | MM IF-Eval     | 52.7        | 38.9        | 42.5        | 41.2         | 31.4          |   | Text IF-Eval   | 61.3        | 50.1        | 51.4        | 50.9         | 47.4          |      # 文本基准      |                | Pixtral 12B | Qwen2 7B VL | LLaVA-OV 7B | Phi-3 Vision | Phi-3.5 Vision |   |----------------|-------------|-------------|-------------|--------------|---------------|   | MMLU (5-shot)  | 69.2        | 68.5        | 67.9        | 63.5         | 63.6          |   | Math (Pass@1)  | 48.1        | 27.8        | 38.6        | 29.2         | 28.4          |   | Human Eval (Pass@1) | 72.0   | 64.6        | 65.9        | 48.8         | 49.4          |

案例4: 将图片内容绘制生成对应的html-效果展示

我的测试图片内容:

这是Pixtral多模态大模型-网页版输出的结果:

复制对应的html语法在本地渲染结果:

卧槽，着实牛逼！几乎是完全还原图片的效果!!

案例5：对图片内容进行数据分析理解-效果展示

现在有一个模型训练曲线图如下：

这是Pixtral多模态大模型-网页版识别的结果:

分析的完全正确，不错不错！

案例6: 分析上证指数的现状和未来趋势-效果展示

最近一段时间A股非常刺激；我们让Pixtral大模型来帮我们分析一下;

这是Pixtral多模态大模型-网页输出的结果:

这分析结果怎么样，是不是很哇塞，太强了！你心动Pixtral多模态大模型的能力了吗？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述