前言

一、多模态模型 & 理论

1. CLIP

2. BLIP

3. BLIP2

4. InstructBLIP

二、多模态实践

1. 以 CLIP 为例

[2. 以 VisualGLM 为例](https://blog.csdn.net/qq_51175703/article/details/136901379?spm=1001.2014.3001.5502#2.以 VisualGLM 为例)

三、多模态应用领域

总结

参考说明


前言

​ (Frankly speaking,博主太懒了)章节一只对CLIP、BLIP、BLIP2、InstructBLIP进行了整理,章节二以CLIP、VisualGLM作为实践案例。

​ 实际上多模态模型除了CLIP、BLIP、BLIP2、InstructBLIP,还有LLaVA、miniGPT4,以及国内清华的VisualGLM、阿里的Qwen-VL等。(更多多模态原理可以看文末的参考说明)


一、多模态模型 & 理论

1. CLIP

img

图1. CLIP结构

paper: https://arxiv.org/abs/2103.00020

github: https://github.com/openai/CLIP

**基本思想:**CLIP通过大规模的图像和文本对进行对比学习,学习在特征空间中对齐文本和图像,从而理解图像内容和文本描述之间的关联。

模型结构:

  • 图像编码器:通常使用Vision Transformer (ViT) 或者其他卷积神经网络 (CNN) 如ResNet作为backbone。
  • 文本编码器:通常采用BERT或类似基于Transformer的模型。
  • 特征提取后,图像和文本特征通过归一化处理,然后通过点积计算余弦相似度,使用对比损失(info-NCE loss)进行训练。

2. BLIP

img

图2. BLIP结构

paper: https://arxiv.org/abs/2201.12086

github: https://github.com/salesforce/BLIP

**基本思想:**BLIP旨在通过自举方法来提升模型在视觉-语言理解和生成任务上的性能。BLIP还可以通过生成合成图像描述并使用过滤器去除噪声描述,有效地利用了网络上收集的噪声图像-文本对。

模型结构: BLIP模型采用了多模态混合编码器-解码器(Multimodal Mixture of Encoder-Decoder, MED)架构,该架构可以作为单模态编码器、图像引导的文本编码器或图像引导的文本解码器来操作。MED模型通过三种视觉-语言目标进行联合预训练:图像-文本对比学习(image-text contrastive learning)、图像-文本匹配(image-text matching)和图像条件语言建模(image-conditioned language modeling)

  • 图像编码器:使用视觉Transformer(如ViT)作为图像编码器,将输入图像分割成多个小块(patches),并将其编码为一系列嵌入向量,同时使用额外的[CLS]标记来表示整个图像的特征。
  • 文本编码器:采用BERT或类似的基于Transformer的模型作为文本编码器,在文本输入的开始处附加[CLS]标记,以汇总句子的表示。
  • 图像引导的文本编码器:在文本编码器的基础上,通过在自注意力(self-attention)层和前馈网络(feed-forward network)之间插入额外的交叉注意力(cross-attention)层来注入视觉信息。
  • 图像引导的文本解码器:替换了图像引导的文本编码器中的双向自注意力层为因果自注意力层,并使用[Decode]标记来指示序列的开始和结束。

3. BLIP2

img

图3. BLIP2结构

paper: https://arxiv.org/abs/2301.12597

github: https://github.com/salesforce/LAVIS/tree/main

**基本思想:**BLIP2 提出了一种通用且高效的预训练策略,利用现成的预训练图像编码器和大型语言模型来引导视觉-语言预训练。BLIP2通过一个轻量级的查询转换器(Q-Former),在两个阶段进行预训练,以弥合模态间的差距。第一阶段从冻结的图像编码器中引导视觉-语言表示学习,第二阶段从冻结的LLM中引导视觉到语言的生成学习。

BLIP2模型结构:

  • Q-Former(Querying Transformer):作为BLIP2中可训练的模块,Q-Former是一个轻量级的Transformer,它使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former由两个Transformer子模块组成,它们共享自注意力层:一个图像Transformer用于与冻结的图像编码器交互,提取视觉特征;一个文本Transformer可以作为文本编码器和解码器,处理文本输入。
  • 冻结的图像编码器:BLIP2使用现成的预训练图像编码器(如ViT-L/14或ViT-g/14)作为视觉特征提取器。这些图像编码器在预训练过程中保持冻结状态,以减少计算成本并避免灾难性遗忘问题。
  • 冻结的大型语言模型(LLMs):BLIP-2利用预训练的大型语言模型(如OPT和FlanT5)进行文本生成。这些语言模型在预训练过程中也保持冻结状态。
  • 两阶段预训练策略:

(1)视觉-语言表示学习:在这一阶段,Q-Former连接到冻结的图像编码器,并使用图像-文本对进行预训练。目标是训练Q-Former,使其能够提取与文本最相关的视觉表示。
**(2)视觉到语言的生成学习:**在这一阶段,Q-Former连接到冻结的LLM,以利用LLM的文本生成能力。通过一个全连接层将Q-Former的输出查询嵌入投影到与LLM的文本嵌入相同的维度,然后将这些投影的查询嵌入作为视觉提示附加到输入文本嵌入的前面。

4. InstructBLIP

img

图4. InstructBLIP结构

paper: https://arxiv.org/abs/2305.06500

github: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

基本思想:InstructBLIP旨在通过指令调整(instruction tuning)来构建通用的视觉-语言模型,这些模型能够通过统一的自然语言接口解决广泛的视觉-语言任务。InstructBLIP基于预训练的BLIP-2模型,并通过多样化的指令数据集对多模态大型语言模型(LLM)进行训练。该框架使用了一系列公开可用的数据集,覆盖了多种任务和能力,并将它们转换为指令调整格式。InstructBLIP通过指令感知的视觉特征提取机制,使得模型能够灵活并根据给定指令提取信息性特征,从而显著提高了模型在各种视觉-语言任务上的零样本(zero-shot)泛化能力。

**模型结构:**InstructBLIP的模型结构基于BLIP2,包含以下关键组件。

  • **图像编码器:**使用预训练的图像编码器(如ViT-g/14)来提取图像特征。
  • **大型语言模型:**采用预训练的大型语言模型(如FlanT5或Vicuna),这些模型在指令调整过程中保持冻结状态。
  • **查询转换器(Q-Former):**一个轻量级的Transformer结构,用于从图像编码器中提取视觉特征。Q-Former包含一组可学习的查询嵌入,通过交叉注意力与图像编码器的输出进行交互。
  • **指令感知机制:**InstructBLIP提出了一个新颖的指令感知视觉特征提取机制。文本指令不仅提供给冻结的LLM,还提供给Q-Former,使其能够根据给定指令从冻结的图像编码器中提取视觉特征。
  • **平衡采样策略:**为了同步跨数据集的学习进度,InstructBLIP提出了一种平衡采样策略,根据数据集的大小或训练样本数量进行采样。

​ InstructBLIP通过这些组件和策略,在多种视觉-语言任务上实现了最先进的零样本性能,并且在个别下游任务的微调上也取得了最先进的性能。


二、多模态实践

1. 以 CLIP 为例

import torch



import clip



from PIL import Image



 



 



# (1)配置GPU & 导入model、preprocess



device = "cuda" if torch.cuda.is_available() else "cpu"



model, preprocess = clip.load("ViT-B/32", device=device)



 



# (2)导入本地image、text



image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)



text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)



 



# (3)通过CLIP的对比学习算出每个text和image的匹配概览



with torch.no_grad():



    image_features = model.encode_image(image)



    text_features = model.encode_text(text)



    



    logits_per_image, logits_per_text = model(image, text)



    probs = logits_per_image.softmax(dim=-1).cpu().numpy()



print("Label probs:", probs)  



# prints: [[0.9927937  0.00421068 0.00299572]]

2. 以 VisualGLM 为例

(摘自 HuggingFace 官网:https://huggingface.co/THUDM/visualglm-6b)

​ VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

​ VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。

from transformers import AutoTokenizer, AutoModel



 



 



# (1) 导入tokenizer & model



tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)



model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).half().cuda()



 



# (2) 导入图片路径



image_path = "your image path"



 



# (3) model.chat()



response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])



print(response)



response, history = model.chat(tokenizer, image_path, "这张图片可能是在什么场所拍摄的?", history=history)



print(response)

三、多模态应用领域

​ 多模态模型库如下,可用于以下领域:多模态、计算机视觉、自然语言处理、强化学习、表格任务、音频任务、科学计算(蛋白子结构预测、蛋白质序列预测等)、时序技术…

​ 以下四张图分别来自Huggingface(国外ML & DL社区)、Modelscope(阿里旗下的社区)、PaddlePaddle(百度飞桨社区)平台。

img

img

imgimg


总结

​ 章节一整理了Multi-model Large Language Models常用基座和原理,章节二以CLIP、VisualGLM为例对章节一理论进行实践。章节三展示了多模态模型库和在真实业务场景中的一些应用场景。

最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖
👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码关注免费领取【保证100%免费】🆓

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐