MachineLearning-阅读笔记

Attention Is All You Need

The story behind the paper and the origins of its ideas are as rich and interesting as the paper itself. It’s about a group of people who got together because of one idea, and they became really focused and obsessed with it. It has enough going on that it would be a hit at the box office if someone made it into a film. Adam McKay or David Fincher, if you’re reading this: I’m ready to script this instant classic! Guaranteed.

Transformer的故事

Q:LSTM和RNN的关系？
A:RNN=>LSTM

Q:BERT是否有解码器（Decoder）?
A:BERT本身没有解码器，因为它主要专注于生成上下文相关的表示。如果需要进行文本生成或机器翻译等任务，可以结合其他模型（如Transformer、GPT等）来实现。

▶

BERT-and-Transformer

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练语言模型，它主要由编码器（Encoder）组成，而没有解码器（Decoder）部分。BERT的设计目标是通过无监督学习生成高质量的语言表示，这些表示可以用于多种自然语言处理任务。

BERT的架构

BERT是基于Transformer架构的，但只使用了Transformer中的编码器部分。具体来说：

编码器（Encoder）：BERT包含多个编码器层（通常是12层或24层），每一层都包含多头自注意力机制（Multi-Head Self-Attention）和前馈神经网络（Feed-Forward Neural Network）。编码器的作用是将输入的文本序列（如单词或标记）转换为上下文相关的表示。
没有解码器（Decoder）：BERT不包含解码器部分，因为它主要用于生成上下文表示，而不是生成文本序列。

为什么BERT没有解码器？

BERT的主要任务是生成上下文相关的表示，而不是生成文本。它的预训练任务包括：

Masked Language Model（MLM）：随机掩盖输入序列中的一些单词，然后预测这些被掩盖的单词。这个任务帮助BERT学习单词之间的上下文关系。
Next Sentence Prediction（NSP）：预测两个句子是否是连续的句子。这个任务帮助BERT学习句子之间的关系。

这些任务都只需要编码器来完成，而不需要解码器。

如果需要解码器怎么办？

如果需要生成文本（如机器翻译、文本生成等任务），通常会使用类似Transformer的架构，但包含编码器和解码器。例如：

Transformer模型：包含编码器和解码器，适用于机器翻译等任务。
GPT（Generative Pre-trained Transformer）：基于Transformer的解码器架构，主要用于文本生成任务。
T5（Text-to-Text Transfer Transformer）：将所有任务都转化为文本到文本的任务，包含编码器和解码器。

总结

BERT本身没有解码器，因为它主要专注于生成上下文相关的表示。如果需要进行文本生成或机器翻译等任务，可以结合其他模型（如Transformer、GPT等）来实现。

Q:神经网络的那些激活函数是如何拟合高阶函数的？
A:神经网络通过非线性激活函数和多层结构逼近复杂函数。

▶

数学原理

激活函数的种类有很多，常见的包括：

线性函数（Linear）：
$f(x) = x$
Sigmoid函数：
$f(x) = \frac{1}{1 + e^{-x}}$
Tanh函数：
$f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
ReLU函数：
$f(x) = \max(0, x)$
Leaky ReLU函数：
$f(x) = \begin{cases}x & \text{if } x \geq 0 \\alpha x & \text{if } x < 0\end{cases}$
Softmax函数：
$f(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$

其中，线性函数是一次函数，但其他激活函数并非一次函数。这些非线性激活函数是神经网络能够拟合复杂函数的关键。

神经网络如何拟合高次多项式？

神经网络通过组合多层的非线性激活函数和线性变换，可以拟合高次多项式。具体来说，每一层神经网络可以表示为：
$y = f(Wx + b)$
其中，( W ) 是权重矩阵，( b ) 是偏置向量，( f ) 是激活函数。通过多层这样的结构堆叠，可以形成一个复杂的非线性映射。

背后的数学原理是什么？

神经网络能够拟合高次多项式的数学原理主要基于以下几点：

非线性激活函数：非线性激活函数使得神经网络的每一层都可以引入非线性，这是拟合复杂函数的基础。
复合函数：多层神经网络可以看作是多个函数的复合，即 ( f(g(h(x))) )。通过调整这些函数的参数，可以拟合复杂的函数形式。
万能逼近定理（Universal Approximation Theorem）：该定理表明，只要给定足够的隐藏层和适当的非线性激活函数，多层前馈神经网络可以逼近任何连续函数。