锦鲤木兰


  • 首页

  • 归档

Attention注意力机制

发表于 2019-02-23 | 更新于: 2019-03-09 | 分类于 神经网络
字数统计: 1.9k | 阅读时长 ≈ 7

为什么需要注意力机制

一般对于输入输出的不同部分具有不同的重要程度。例如,在翻译任务中,输出的第一个单词是一般是基于输入的前几个词,输出的最后几个词可能基于输入的几个词。例如在阅读理解任务中,编码时还不知道可能会接收到什么样的问句。这些问句可能会涉及到背景文章的所有信息点,因此丢失任何信息都可能导致无法正确回答问题。

注意力一般分为两种:一种是自上而下的有意识的注意力,称为聚焦式(focus)注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;另一种是自下而上的无意识的注意力,称为基于显著性(saliency-based)的注意力。基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关。

阅读全文 »

word2vec

发表于 2019-02-21 | 更新于: 2019-03-29 | 分类于 NLP
字数统计: 2.8k | 阅读时长 ≈ 11

相关知识

GloVe与word2vec根据词汇的共现(co-occurrence)信息,将词汇编码成一个向量(所谓共现,即语料中词汇一块出现的频率)。两者最直观的区别在于,word2vec是predictive的模型,而GloVe是count-based的模型。

独热编码 离散编码,丢失了单词之间的相似性

词向量 分布式表达,能够编码词之间的关系

两种模型

SKip-gram 中心词预测上下文词的概率分布

CBOW 上下文词预测中心词的词向量

阅读全文 »

循环神经网络

发表于 2019-02-11 | 更新于: 2019-03-29 | 分类于 神经网络
字数统计: 2.3k | 阅读时长 ≈ 9

RNN

基本结构

在前馈神经网络中,隐藏层的节点之间是无连接的,而简单循环网络增加了从隐藏层到隐藏层的反馈连接。

RNN本质上是一个递推函数,假设在时刻$t$,隐藏层的状态为$h_t$,此时隐藏层不仅和当前时刻的输入$x_t$有关,还和上一个时刻的隐层状态$h_{t-1}$ 有关。

阅读全文 »

网络优化

发表于 2019-02-05 | 更新于: 2019-03-19 | 分类于 神经网络
字数统计: 7.6k | 阅读时长 ≈ 28

神经网络会遇到许多困难:

  • 数据集的问题包括:不平衡数据集,数据集的大小,训练测试的分布不一致,数据质量(数据清洗)

  • 对于浅层的神经网络来说,其困难主要来自于凸问题(优化问题)

  • 深层神经网络的困难则是为了防止过拟合(泛化问题),超参数优化,梯度消失,当然还有加快性能

凸问题

为什么有凸优化问题

ML/DL在计算模型中都在寻找全局最优解,那么如果损失函数为凸函数,意味着存在全局的最小值,如果是非凸的,则找不到全局最小值。

大多数DL中损失函数都是非凸的[2],其非凸为什么很难优化?[1]

阅读全文 »

激活函数

发表于 2019-01-23 | 更新于: 2019-03-26 | 分类于 神经网络
字数统计: 1.8k | 阅读时长 ≈ 6

使用激活函数的目的

事实证明,如果你使用线性激活函数(恒等激励函数)或者没有使用一个激活函数,那么无论你的神经网络有多少层一直在做的只是计算线性函数,所以不如直接去掉全部隐藏层。在我们的简明案例中,事实证明如果你在隐藏层用线性激活函数,在输出层用Sigmoid函数,那么这个模型的复杂度和没有任何隐藏层的标准Logistic回归是一样的。

在这里线性隐层一点用也没有,因为这两个线性函数的组合本身就是线性函数,所以除非你引入非线性,否则你无法计算更有趣的函数,即使你的网络层数再多也不行;只有一个地方可以使用线性激活函数———,就是你在做机器学习中的回归问题。 是一个实数,举个例子,比如你想预测房地产价格, 就不是二分类任务0或1,而是一个实数,从0到正无穷。如果是个实数,那么在输出层用线性激活函数也许可行,你的输出也是一个实数,从负无穷到正无穷。

阅读全文 »
12

杀死庸碌的时间

13 日志
3 分类
34 标签
0%
© 2019
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4