Attention注意力机制

发表于 2019-02-23 | 更新于: 2019-03-09 | 分类于神经网络

字数统计: 1.9k | 阅读时长 ≈ 7

为什么需要注意力机制

一般对于输入输出的不同部分具有不同的重要程度。例如，在翻译任务中，输出的第一个单词是一般是基于输入的前几个词，输出的最后几个词可能基于输入的几个词。例如在阅读理解任务中，编码时还不知道可能会接收到什么样的问句。这些问句可能会涉及到背景文章的所有信息点，因此丢失任何信息都可能导致无法正确回答问题。

注意力一般分为两种：一种是自上而下的有意识的注意力，称为聚焦式（focus）注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；另一种是自下而上的无意识的注意力，称为基于显著性（saliency-based）的注意力。基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。

阅读全文 »

word2vec

发表于 2019-02-21 | 更新于: 2019-03-29 | 分类于 NLP

字数统计: 2.8k | 阅读时长 ≈ 11

两种模型

SKip-gram 中心词预测上下文词的概率分布

CBOW 上下文词预测中心词的词向量

阅读全文 »

循环神经网络

发表于 2019-02-11 | 更新于: 2019-03-29 | 分类于神经网络

字数统计: 2.3k | 阅读时长 ≈ 9

RNN

基本结构

在前馈神经网络中，隐藏层的节点之间是无连接的，而简单循环网络增加了从隐藏层到隐藏层的反馈连接。

RNN本质上是一个递推函数，假设在时刻$t$，隐藏层的状态为$h_t$，此时隐藏层不仅和当前时刻的输入$x_t$有关，还和上一个时刻的隐层状态$h_{t-1}$ 有关。

阅读全文 »

网络优化

发表于 2019-02-05 | 更新于: 2019-03-19 | 分类于神经网络

字数统计: 7.6k | 阅读时长 ≈ 28

神经网络会遇到许多困难：

数据集的问题包括：不平衡数据集，数据集的大小，训练测试的分布不一致，数据质量（数据清洗）
对于浅层的神经网络来说，其困难主要来自于凸问题（优化问题）
深层神经网络的困难则是为了防止过拟合（泛化问题），超参数优化，梯度消失，当然还有加快性能

凸问题

为什么有凸优化问题

ML/DL在计算模型中都在寻找全局最优解，那么如果损失函数为凸函数，意味着存在全局的最小值，如果是非凸的，则找不到全局最小值。

大多数DL中损失函数都是非凸的[2]，其非凸为什么很难优化？[1]

阅读全文 »

激活函数

发表于 2019-01-23 | 更新于: 2019-03-26 | 分类于神经网络

字数统计: 1.8k | 阅读时长 ≈ 6

使用激活函数的目的

事实证明，如果你使用线性激活函数(恒等激励函数)或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。在我们的简明案例中，事实证明如果你在隐藏层用线性激活函数，在输出层用Sigmoid函数，那么这个模型的复杂度和没有任何隐藏层的标准Logistic回归是一样的。

在这里线性隐层一点用也没有，因为这两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，即使你的网络层数再多也不行；只有一个地方可以使用线性激活函数———，就是你在做机器学习中的回归问题。是一个实数，举个例子，比如你想预测房地产价格，就不是二分类任务0或1，而是一个实数，从0到正无穷。如果是个实数，那么在输出层用线性激活函数也许可行，你的输出也是一个实数，从负无穷到正无穷。

阅读全文 »

杀死庸碌的时间

为什么需要注意力机制

相关知识

两种模型

RNN

基本结构

凸问题

为什么有凸优化问题

使用激活函数的目的