彻底搞懂CNN、RNN、GAN、transformer！

本文聚焦于介绍CNN、RNN、GAN、Transformers等神经网络架构，涵盖图像与自然语言处理领域，掌握这些结构将助力我们在具体任务中实现更精准的决策。。

冻感糕人~

809人浏览 · 2024-12-09 10:42:35

冻感糕人~ · 2024-12-09 10:42:35 发布

01引言

本文旨在以通俗的方式介绍深度学习关键架构，涵盖卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）、transformer及编码器-解码器模型。

02
卷积神经网络

CNN，一种人工神经网络，擅长分析图像和视频等网格数据。可视其为多层过滤器，对图像进行处理，提取关键特征，进行预测。比如，识别手写数字，CNN通过逐层应用滤波器，从图像中提取从边缘、线条到形状、数字的复杂特征，层层深入。

在这里插入图片描述

CNN的主要层型包括卷积层、池化层及全连接层。

卷积层：通过滑动滤波器在图像上处理，计算滤波器与像素点积，形成新的特征图，突出图像特定模式。使用多种滤波器多次处理，生成多组特征图，全面捕捉图像特征。

池化层：通过下采样特征图，池化层既保留了关键特征又缩减了数据空间维度，从而减少计算负担并预防过拟合。最大值池化是最常用的类型，它选取像素邻域内的最大值进行操作。

全连接层：与常规神经网络层相似，这些层将一层所有神经元与下一层每个神经元连接。卷积层和池化层输出经展平后，输入全连接层进行计算，以实现如图像数字识别等预测任务。

CNN是一种神经网络，专为处理结构化数据如图像设计。其运作机制是利用滤波器或核函数逐步挖掘图像的复杂特征，接着通过池化层降低维度，避免过拟合，最终通过全连接层输出预测结果。

03循环神经网络

循环神经网络（RNN）是一种神经网络，专用于处理时间序列、语音和自然语言等序列数据。如同传送带逐个传递元素，RNN能够“记住”前一个元素，以此预测下一个元素。例如，计算机预测单词序列中的下一个单词时，RNN逐词分析并利用前词信息进行预测。RNN的核心是递归连接，它使信息得以在时间步间传递，让神经元“记住”先前状态。

在这里插入图片描述

RNN由三部分构成：输入端、递归单元和输出端。

输入层：接收序列各时刻的输入，如单字。递归层：利用递归连接“记忆”前一时信息，处理输入层数据。该层神经元互连，并接收到当前输入。输出层：基于递归层信息，预测序列中下一个最可能出现的单词。

RNN作为一种神经网络，擅长处理序列数据。它逐个处理信息，通过递归结构保留先前元素的记忆，适用于语言翻译、语音识别和时间序列预测等多种任务。

04生成对抗网络架构

GAN，即生成对抗网络，通过两个神经网络（生成器和判别器）的对抗训练，模拟艺术家创作与鉴赏的过程，旨在生成逼真的图像、音频和文本等数据。生成器构造新样本，判别器评估其真实性。二者相互博弈，生成器力求生成更逼真的数据，判别器则不断提高识别伪造样本的能力。

GAN 的两个主要组成部分如下：

生成器网络负责从随机噪声生成新样本，如图像或句子。它通过不断优化以减少生成样本与真实数据间的差异。判别器网络则评估样本的真伪，输出概率以判断样本真假。两者在GAN中相互竞争，生成器力求欺骗判别器，判别器则努力提升分辨能力。此对抗训练持续进行，直至生成器能生成难以与真实数据区分的高质量样本。

GAN，即生成对抗网络，是一种深度学习框架，由生成器和判别器两个神经网络构成，用于生成逼真的新数据。生成器负责生成新样本，判别器则鉴定样本的真伪。双方在对抗中训练，生成器力求生成更逼真的样本，判别器不断提升识别能力。GAN已广泛应用于图像、视频、音乐及文本等领域。

05Transformers架构

Transformers，一种在2017年开创性论文“Attention Is All You Need”中提出的神经网络架构，现广泛用于自然语言处理的NLP任务，涵盖翻译、文本分类和问答系统等领域。

将Transformers视为一种高级语言模型，它能将文本拆解为更细微的单元，分析其内在联系，进而生成连贯、自然的回答。

在这里插入图片描述

Transformers由层层递进模块构成。每层内置两大核心部件：

自注意力机制：此机制能解析输入文本各部分间的联系，通过为每个词赋予权重，体现其与语境的关联度。模型聚焦关键词汇，弱化非相关词的重要性。前馈神经网络：基于自注意力机制输出，多层感知机学习词间复杂关联。

Transformers核心创新为自注意机制，大幅提升长序列文本处理效率，省去昂贵递归或卷积操作，显著增强计算效能，高效应对NLP挑战。

简言之，Transformers是专为自然语言处理打造的强大神经网络，通过分割文本并利用自注意机制分析片段间关联，以生成流畅连贯的回答。

06encoder-decoder架构
编码器-解码器结构在NLP领域广受欢迎，尤其适用于序列到序列任务，如机器翻译，旨在将源语言文本准确转化为目标语言文本。

将编码器-解码器架构比作一位翻译，他一边听人说外语，一边即时将其转换成听者的母语。

在这里插入图片描述

该架构由两个主要部分组成：

编码器：接受输入序列（源文本）并转换成简明表示（context vector或context embedding），该表示综合了语法、语义和上下文信息。编码器可能为RNN或Transformer，视任务而定。解码器：基于编码器的输出，逐步构建输出序列（目标文本）。通常为RNN或Transformer，类似于编码器，依据上下文和先前单词预测序列中的每个元素。

训练时，解码器获取真实目标序列，旨在预测序列中的后续单词；而推理时，解码器依据已生成的文本内容，预测下一个单词。

编码器-解码器架构是NLP领域广受欢迎的方法，尤其擅长序列到序列任务，如翻译。它包括编码器和解码器两部分，前者处理输入序列生成向量，后者根据向量生成输出序列，从而实现语言间的文本翻译。

07总结

本文聚焦于介绍CNN、RNN、GAN、Transformers等神经网络架构，涵盖图像与自然语言处理领域，掌握这些结构将助力我们在具体任务中实现更精准的决策。