NLP入门--新闻文本分类Task6

Task6 基于深度学习的文本分类3学习目标Transformer基于预训练语言模型的词表示ELMoGPTBERT总结这个task仍然是基于深度学习的文本分类。学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetuneTransformer模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分

长风过境

294人浏览 · 2020-08-02 14:47:40

长风过境 · 2020-08-02 14:47:40 发布

Task6 基于深度学习的文本分类3

学习目标
Transformer
基于预训练语言模型的词表示
- ELMo
- GPT
- BERT
总结

这个task仍然是基于深度学习的文本分类。

学习目标

了解Transformer的原理和基于预训练语言模型（Bert）的词表示
学会Bert的使用，具体包括pretrain和finetune

Transformer

模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。
在这里插入图片描述
其中，在编码部分每个结构都是一样的，每个编码器的详细结构又包括两层：self-attention层和Feed Forward层

其中，self-attention层保证编码器在编码当前词的时候能够看到输入序列中的其他单词，除此之外，编码器当中还有一个细节，就是在每个子层中（Self-attention, FFNN），都有残差连接，并且紧跟着layer-normalization。
在这里插入图片描述

基于预训练语言模型的词表示

这种词表示因为可以建模上下文信息，因此解决了传统模型中无法解决的一词多义问题
最早提出的ELMo基于两个单向LSTM，将从左到右和从右到左两个方向的隐藏层向量表示拼接学习上下文词嵌入。而GPT用Transformer代替LSTM作为编码器，首先进行了语言模型预训练，然后在下游任务微调模型参数。但GPT由于仅使用了单向语言模型，因此难以建模上下文信息。为了解决以上问题，研究者们提出了BERT，BERT模型结构如下图所示，它是一个基于Transformer的多层Encoder，通过执行一系列预训练，进而得到深层的上下文表示。
在这里插入图片描述
较之于这些方法，传统的词向量表示方法在事先为每个词构建静态词向量之后就一劳永逸了，不会随着上下文的变化发生改变，但是尤其对于中文来说一词多义的现象十分普遍，所以这样的静态表示方法就存在弊端了。

ELMo

为了解决这一问题，ELMo首先进行了语言模型预训练，然后在下游任务中动态调整Word Embedding，因此最后输出的词表示能够充分表达单词在上下文中的特定语义，进而解决一词多义的问题。

GPT

GPT来自于openai，是一种生成式预训练模型。GPT 除了将ELMo中的LSTM替换为Transformer 的Encoder外，更开创了NLP界基于预训练-微调的新范式。尽管GPT采用的也是和ELMo相同的两阶段模式，但GPT在第一个阶段并没有采取ELMo中使用两个单向双层LSTM拼接的结构，而是采用基于自回归式的单向语言模型。

BERT

BERT,全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的EncoderBERT的两阶段——预训练-微调，
第一阶段：在第一阶段的预训练过程中，BERT提出掩码语言模型，即类似完形填空的方式，通过上下文来预测单词本身，而不是从右到左或从左到右建模，这允许模型能够自由地编码每个层中来自两个方向的信息。而为了学习句子的词序关系，BERT将Transformer中的三角函数位置表示替换为可学习的参数，其次为了区别单句和双句输入，BERT还引入了句子类型表征。BERT的输入如图所示。此外，为了充分学习句子间的关系，BERT提出了下一个句子预测任务。具体来说，在训练时，句子对中的第二个句子有50％来自与原有的连续句子，而其余50%的句子则是通过在其他句子中随机采样。

在这里插入图片描述
这里的Embedding由三种Embedding求和而成：

Token Embeddings是词向量，第一个单词是CLS标志，可以用于之后的分类任务
Segment Embeddings用来区别两种句子，因为预训练不光做LM还要做以两个句子为输入的分类任务
Position Embeddings和之前文章中的Transformer不一样，不是三角函数而是学习出来的

第二阶段：与GPT相同，BERT也使用Fine-Tuning模式来微调下游任务。
可以调整的参数和取值范围有：

Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Number of epochs: 3, 4

总结

BERT是截至2018年10月的最新state of the art模型，通过预训练和精调横扫了11项NLP任务，这首先就是最大的优点了。而且它还用的是Transformer，也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型，它捕捉到的是真正意义上的bidirectional context信息。
缺点：