大模型训练到底需要什么样的数据（微调）？

上一期介绍了大模型预训练需要使用的数据–不能直接使用平时我们使用的 Word、PDF、网页等数据，需要经过清洗整理成 TXT 或者 JSON 格式的文本片段。那么在大模型微调阶段能否直接使用这些文本片段呢？答案是不能，因为大模型在微调和预训练阶段的目的不一样，那么大模型微调到底需要什么样的数据？👉[CSDN大礼包。

大模型玩家

1637人浏览 · 2025-01-08 10:46:56

大模型玩家 · 2025-01-08 10:46:56 发布

一、前言

上一期介绍了大模型预训练需要使用的数据–不能直接使用平时我们使用的 Word、PDF、网页等数据，需要经过清洗整理成 TXT 或者 JSON 格式的文本片段。那么在大模型微调阶段能否直接使用这些文本片段呢？答案是不能，因为大模型在微调和预训练阶段的目的不一样，那么大模型微调到底需要什么样的数据？

在这里插入图片描述

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]👈

二、什么是大模型微调？

在上篇文章中简要介绍过大模型训练会分为预训练和微调两个阶段，如下图所示。预训练是语言模型学习的初始阶段，这个阶段的目标是捕获文本语料库中的底层模式、结构和语义知识，对应人从婴儿成长到大学阶段。大模型微调是在预训练模型的基础上进行任务定制化调整。预训练让模型学会了通用的语言模式、结构和语义知识，微调则让模型针对特定的任务或领域需求进行调整优化。对应人学校毕业以后走向工作岗位，在上岗之前需要针对岗位要求进行针对性的学习和训练。

微调例子一：电商客服场景

假设你是一家电商平台的客服经理，想要通过人工智能帮助分析客户的评价，判断他们对产品的情感态度（比如“满意”或“不满意”）。这时候，你可以使用一个已经预训练的大语言模型（比如 GPT）。

问题是：未经微调的预训练模型能直接用吗？

答案是否定的。预训练模型虽然能力强大，但它对你的具体任务（情感分析）并不“专业”。例如：

用户评价：“这件衣服太大了，但质量不错。”

没有微调的模型可能只会生成一些通用的回答，比如“这是一段关于衣服的评论”,它不能准确判断客户的情感是“部分满意”或“中立”。

那么微调如何解决这个问题？

微调就像给模型上了一堂专门的“情感分析课”。我们会准备一个情感标注的训练集，例如：

然后，用这些标注数据对模型进行微调，模型会学会用户评论中的情感线索，例如：
“太大了”是个负面反馈，但“质量不错”是正面反馈，所以整体是中立。

“物流太慢了”“客服态度也很差”这些表达明确传递了不满意。

微调后的效果：微调后模型不仅能理解情感，还能快速分类。比如，你输入以下评价：

用户评价：“颜色比图片暗，但穿着很舒服。” --> 中立

用户评价：“真的很差，居然有瑕疵！” --> 不满意

用户评价：“物流快，包装好，非常满意。”–> 满意

微调例子二：行政咨询场景

你是行政部门的工作人员，日常会收到大量员工的咨询，比如公司政策、报销流程、请假规定等。为了提高效率，公司决定用一个大语言模型来回答这些问题。

问题是：未经微调的预训练模型能直接用吗？

预训练模型虽然很强大，但它对公司内部的具体政策并不了解。如果直接用，可能会给出一些看似合理但完全错误的回答。例如：

员工问：“公司的年度体检可以带家属参加吗？”

没有微调的模型可能回答：“一般情况下，公司体检是员工福利，通常不包括家属。”实际上，这与贵公司的规定（比如“可以带一名家属，费用自理”）完全不符。

微调如何解决这个问题？

微调就像给模型上了一堂“公司行政政策课”。我们可以用公司内部常见问题和正确答案作为训练数据，对模型进行微调。例如：

通过这些专门数据的微调，模型会变得更加熟悉公司政策，回答更精准。

微调后的效果，当员工提出类似的问题时，模型能准确地回答：

员工问题“年度体检可以带家属参加吗？”–>“可以，每位员工可带一名家属参加，但需要自理费用。”

员工问题“请假超过 3 天需要什么手续？”–>“根据公司规定，请假超过 3 天需部门经理和 HR 审批。”

员工问题“报销单需要哪些附件？”–>“需附上发票原件、相关审批表和支付凭证。”

模型微调总结

预训练模型就像一个“全能选手”，会写文章、会聊天，但它对具体的某个业务场景并不精通，例如客服、行政咨询等，微调就是结合具体的业务场景需求，给全能选手上一门专门的课。上课的内容是基于特定的标注数据集（如情感分析、行政问答等），通过有监督学习或其他定制化方法，对模型的参数进行调整，以提高其在目标任务上的性能，变成某个场景里的专家，直接帮你解决实际问题！

三、微调数据长什么样？

通过上述两个微调的例子可以看出，微调与预训练所需的数据，最大的不同是微调需要经过标注的数据集，通过标注数据把更加精确的要求和表述教给大模型，就像一个学生毕业后做客服，那么在做客服工作这个具体的任务，所需知识和技巧，需要有人教会他。

微调数据中根据实际的业务场景需求，其数据的内容会有不同，下面罗列几种常见的格式：

1、指令跟随格式

这种格式能够明确地告诉模型需要执行的具体任务和操作，使得模型能够更有针对性地生成符合要求的输出，很好地将预训练模型的通用语言能力引导到特定的任务场景中，增强模型在不同任务上的表现和泛化能力。

使用范围：极其广泛，几乎涵盖了自然语言处理的各类任务，如文本生成、翻译、总结、情感分析、问答等。例如，在文本生成任务中，可以给出 “根据以下关键词生成一篇短文” 的指令；在翻译任务中，指令可以是 “将以下中文句子翻译成英文” 等.

示例：

{

"instruction": "将以下句子转换为被动语态",

"input": "他们正在修理那辆汽车",

"output": "那辆汽车正在被修理"

}

2、多轮对话格式

该格式能够捕捉到对话的上下文信息和交互逻辑，让模型学习如何根据之前的对话历史来生成合适的回复，从而提高对话的连贯性、合理性和自然度，更好地满足用户在实际对话中的各种需求。

使用范围：主要适用于构建和微调对话模型，广泛应用于聊天机器人、智能客服等需要进行多轮交互的场景，以模拟用户与 AI 之间的自然流畅对话

示例：

{

"conversation": \[

    {

        "from": "human", //角色 A

        "value": "你好，能帮我推荐一部电影吗"

    },

    {

        "from": "gpt", //角色 B

    "value": "当然可以，你喜欢什么类型的电影呢"

    },

    {

        "from": "human",

        "value": "我喜欢科幻电影"

    },

    {

        "from": "gpt",

        "value": "那我推荐《星际穿越》，它的剧情和特效都非常精彩"

    }

\]

}

3、文本对齐数据格式

文本与标签或答案之间的明确对应关系，使得模型能够直接学习到从给定文本到特定推理结果或答案的映射，有助于提高模型在这些需要对文本进行深度理解和准确推理以得出正确结果的任务上的性能。

使用范围：在自然语言推理和问答系统等任务中使用较为广泛

示例：

问题,答案

今天天气怎么样?,今天天气很好

你喜欢吃什么?,我喜欢吃水果

4、序列到序列数据格式

能够直接对输入序列和输出序列之间的映射关系进行建模，很好地适应了这些任务中需要将一种文本序列转换为另一种文本序列的需求，例如在机器翻译中实现从源语言到目标语言的转换，在对话系统中根据输入的对话历史生成下一轮的回复等 。

使用范围：在机器翻译、对话系统、文本摘要等任务中有着广泛的应用

示例：

源语言,目标语言

我喜欢苹果, I like apples

他在跑步, He is running

上述是简单的示例，实际微调数据是大量以上指令格式的微调指令数据

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。