一、前言

我们都知道大模型训练需要提供数据,企业常见的数据有网页、Word、PDF 等文档数据,那么能否直接把 Word、PDF 和网页直接给大模型训练呢? 答案是否定的,因为这些文档格式不统一、内容分散且未经处理,难以直接用于训练,那么大模型训练需要的数据到底长什么样?

二、大模型训练通常会分为哪几个阶段?

要了解大模型训练需要什么样的数据之前,先要搞清楚大模型训练的过程,因为不同的阶段所需要的数据类型不同。 目前大模型的训练主要会分为预训练和微调两个阶段,预训练又可以分为全量预训练和二次预训练。

如上图所示,大模型的训练跟一个人从婴儿成长到能独立工作的过程类似,分了多个阶段(后面再单独介绍为什么这样划分),不同阶段训练的目标不同,因此需要用的数据内容和格式也是不同的。本文先重点介绍预训练阶段的数据,后续再介绍微调用的数据。

三、大模型预训练在做什么?需要什么样的数据?

预训练在做什么?

预训练是语言模型学习的初始阶段,通过处理大量未标注的文本数据来进行。这些数据包括书籍、文章和网站内容等。在预训练期间,模型的目标是捕获文本语料库中的底层模式、结构和语义知识。

预训练在实践中可以分为两个阶段:全量预训练和二次预训练。

1、全量预训练:是指从零开始对模型进行训练,生成一个预训练模型。这种模型的特点是通用性强,类似于一个婴儿经过大量培养教育达到高中水平的学生。它具备了语文、数学、英语和地理等通用知识,但对于特定行业领域的专业知识了解有限。举例来说,通用的预训练模型如通义千问、Llama2、GPT-3 等,它们在许多领域都有良好的表现,但在特定行业应用中可能需要进一步的定制。

2、二次预训练:则是在已有的全量预训练模型的基础上,结合具体场景数据进行再次训练。其目的是让模型学习特定领域或场景的知识,使其更具专业化和针对性。例如,我们可以使用地理测绘行业的数据对预训练模型进行二次预训练,让模型能够理解和回答与地理测绘相关的问题。

通过二次预训练,模型可以逐步积累更多的领域知识,提高在特定领域的表现。这种定制化的训练方法使得模型在应用到实际场景时能够更加准确地理解和处理特定领域的问题,提升了模型的实用性和适用性。总的来说,全量预训练和二次预训练相辅相成,共同构建了一个通用性和专业性并存的语言模型体系,为各种应用场景提供了强大的支持和应用基础。

预训练需要提供什么样的数据?

前面提到预训练的目的,是让模型学习到文本语料库中的底层模式、结构和语义知识。这其实和我们学生时期学习语文或英语很相似。我们在学习语文和英语时,也是在掌握语言的结构和语义知识,最终能够做到阅读理解、写作和总结。

举个例子,当你看到填空题“村里有个姑娘叫__ ",你的第一反应是什么?相信 99% 的人都会回答“小芳”,而不是“刘亦菲”。为什么会这样?这是因为在我们接触的语言环境中,“村里有个姑娘叫小芳”这个搭配出现的概率最高。经过长时间的影响(可以看作大脑在学习),形成了固定的搭配模式。

类似的,大语言模型在预训练阶段,就是通过输入大量的文本语料,学习语言的这种规律。语料通常来自数百万本书籍、文章和网站内容,内容形式包括百科知识、新闻报道、社交媒体对话、技术文档、文学作品等。通过预训练,模型能够理解和生成符合语言习惯的文本,从而具备强大的语言处理能力,以下列举一个用于预训练的新闻数据(新浪体育):

“马晓旭意外受伤让国奥警惕 无奈大雨格外青睐殷家军

记者傅亚雨沈阳报道 来到沈阳,国奥队依然没有摆脱雨水的困扰。7 月 31 日下午 6 点,国奥队的日常训练再度受到大雨的干扰,无奈之下队员们只慢跑了 25 分钟就草草收场。

31 日上午 10 点,国奥队在奥体中心外场训练的时候,天就是阴沉沉的,气象预报显示当天下午沈阳就有大雨,但幸好队伍上午的训练并没有受到任何干扰。

下午 6 点,当球队抵达训练场时,大雨已经下了几个小时,而且丝毫没有停下来的意思。抱着试一试的态度,球队开始了当天下午的例行训练,25 分钟过去了,天气没有任何转好的迹象,为了保护球员们,国奥队决定中止当天的训练,全队立即返回酒店“

以上是一个简单的体育新闻内容例子,这些内容是从网站爬取后,经过整理形成的文本文档。回到最初的问题,用户手中的 Word、PDF 等文档并不能直接用来训练大模型,而是需要将文档中的内容清洗成文本文档(如 TXT 或 JSON 格式)。

大模型如何从这些整理好的文本中学习的?

想想我们是如何学习中文或英语的——通过大量阅读培养语感。所谓语感,其实就是学会如何组词造句。当你看到“窈窕淑女”,自然会联想到“君子好逑”。你可能说不清具体原因,但这是因为你看到和听到的这种组合次数最多,在大脑中形成了强烈的联想模式。

大模型的学习原理和这个过程类似。在预训练阶段,通常采用无监督学习方法。模型被要求根据输入的数据预测一些内容,比如被掩盖的部分或周围的上下文(如下图所示)。训练时会根据一定规则掩盖某个字、词或句子,然后让模型自动尝试预测,生成结果后与正确答案对比,再进行反馈和迭代优化。

这种训练方式其实和我们学习语文或英语时做填空题很像,通过不断尝试和纠正,模型逐步学习到丰富的语言或数据表示形式。这种预训练的特点是可以从大规模数据中提取有用的特征和模式,而无需人工标注的标签信息。具备训练背后的技术原理可以参考本文末尾附录的往期文章。

四、总结

大模型的预训练阶段对其性能和应用意义至关重要。以通义千问、 LLaMA 2 等开源模型为例,这些模型通过在大规模通用数据集上进行预训练,学习到丰富的语言模式、语义结构和知识库。预训练让模型具备广泛的语言理解和生成能力,能够在多种任务中表现出色,例如文本分类、机器翻译和问答系统。预训练的意义在于提升了模型的泛化能力,为后续微调奠定坚实基础,使开发者能够快速针对特定任务调整模型,大幅减少了数据需求和训练成本。

常见预训练中文语料库:

1、通用知识类语料

维基百科(中文部分):提供系统化的百科知识,覆盖广泛主题,常被用作模型的基本通识知识来源。

百度百科、互动百科:类似于维基百科的本地化知识库,内容丰富且结构化,增强模型对中文知识的理解。

2、网络文本

中文社区和论坛数据:如知乎、豆瓣、天涯论坛的公开数据,用于增强对中文用户交互场景的建模能力,包括问答形式、评论和讨论内容。

新闻语料:来自新华网、人民网等主流新闻网站的公开文本,内容涵盖政治、经济、社会、科技等领域,用于增强模型对正式语体和时事的理解。

3、文学与书籍

中国现代文学数据:例如 Project Gutenberg 中的中文文学作品,提升模型在中文文学语言生成中的表现。

开放书籍项目:开源中文书籍数据,如青少年读物、经典文学等。

4、技术与专业领域数据

学术数据:来自中国知网(CNKI)的公开论文摘要或科研报告,提供领域知识。

开源代码和技术文档:开源代码库(如 Gitee)以及相关的技术问答社区(如 SegmentFault)。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐