锦鲤木兰


  • 首页

  • 归档

动态记忆网络

发表于 2019-03-31 | 更新于: 2019-04-07 | 分类于 NLP
字数统计: 1.3k | 阅读时长 ≈ 6

写在前面

很多文本处理的问题都可以变成QA问题:

  • 机器翻译machine translation: (What is the translation into French?)

  • 命名实体识别named entity recognition (NER) :(What are the named entity tags in this sentence?)

  • 词性识别part-of-speech tagging (POS) :(What are the part-of-speech tags?)

  • 文本分类classification problems like sentiment analysis: (What is the sentiment?)

  • 指代问题coreference resolution: (Who does ”their” refer to?)

这篇主要介绍QA问答系统中的动态记忆网络模型(Dynamic Memory Network),它是由4部分构成的,包括输入模块、问题模块、情景记忆模块、输出模块。

阅读全文 »

依存句法

发表于 2019-03-29 | 更新于: 2019-03-31 | 分类于 NLP
字数统计: 2.3k | 阅读时长 ≈ 8

什么是依存句法

依存句法分析( Dependency Parsing, DP) 或者依存关系分析,是通过分析语言单位内成分之间的依存关系揭示其句法结构。

依存语法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对。其中两个词之间的弧表示这两个词有依存关系,弧上的标签为二者的关系,弧的始发点为父亲节点,箭头指向为孩子节点。比如The 和 fox 是冠词+名词(det)的名词短语。

依存句法通常分为:基于图的依存句法和基于转移的依存句法。从理论上进行分析,基于图的依存分析与基于转移的依存分析有很多的不同。

阅读全文 »

GBDT

发表于 2019-03-18 | 更新于: 2019-04-01 | 分类于 机器学习
字数统计: 2.7k | 阅读时长 ≈ 10

背景知识

CART

GBDT以CART(弱学习器)作为基分类器。在CART当中,采用基尼系数作为分裂标准,基尼系数是熵公式下的一阶展开[2],衡量的是特征的不纯度,基尼系数越小越好,基尼的不纯度相当于熵所对应的混乱程度。

bagging & boosting

Bagging

阅读全文 »

胶囊网络

发表于 2019-03-16 | 更新于: 2019-03-26 | 分类于 神经网络
字数统计: 2k | 阅读时长 ≈ 7

卷积神经网络

  • 局部感知
  • 共享权重(与RNN中的共享参数相区别)

padding

填充像素通常有两个选择,分别叫做Valid卷积和Same卷积。

Valid卷积意味着不填充,这样的话,如果你有一个$n×n$的图像,用一个$f×f$的过滤器卷积,它将会给你一个$(n-f+1)×(n-f+1)$维的输出。这类似于我们在前面的视频中展示的例子,有一个6×6的图像,通过一个3×3的过滤器,得到一个4×4的输出。

阅读全文 »

ELMo

发表于 2019-03-15 | 更新于: 2019-03-18 | 分类于 NLP
字数统计: 1.3k | 阅读时长 ≈ 5

写在前面

记得在的文章中提到,Glove和Word2vec,对于每一个单词都有唯一的一个embedding表示,而对于多义词显然这种做法不符合直觉,而单词的意思又和上下文相关。ELMo (Embeddings from Language Models)的做法是只预训练language model(LM),而word embedding是通过输入的句子实时输出的, 这样单词的意思就是上下文相关的了,这样就很大程度上缓解了歧义的发生,且ELMo输出多个层的embedding表示,试验中已经发现每层LM输出的信息对于不同的任务效果不同, 因此对每个token用不同层的embedding表示会提升效果。

阅读全文 »

lda主题模型

发表于 2019-03-03 | 更新于: 2019-03-09 | 分类于 NLP
字数统计: 4.5k | 阅读时长 ≈ 18

写在前面

PLSA:多项分布+EM算法[2]

PLSA并没有考虑参数的先验知识,这时候出现了另一个改进的算法:

LDA:Dirichlet分布+Gibbs采样

LDA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibbs Sampling、EM算法等。涉及概念众多,所以也是导致它晦涩难懂的主要原因。

伯努利分布

伯努利分布(the Bernoulli distribution,又名两点分布或者0-1分布),是一个离散型概率分布,记其成功概率为p(0≤p≤1),失败概率为q=1-p。

阅读全文 »

GloVe

发表于 2019-02-28 | 更新于: 2019-03-20 | 分类于 NLP
字数统计: 1.1k | 阅读时长 ≈ 4

相关知识

目前主流的两种模型都存在一些显著的不足。对于一些global matrix factorization方法(如LSA),在词类比任务的表现不好,表明这种方法得到的是向量空间的次优解;对于一些local context window方法(如skip-gram)可能在词类比任务上表现比较好,但这种方法没有很好得利用语料库的统计信息因为它们只在局部上下文中进行训练。

GloVe模型就是将这两中特征合并到一起的,包括:全局特征的矩阵分解方法(global matrix factorizations)和局部上下文窗口(local context window),为了做到这一点GloVe模型引入了Co-occurrence Probabilities Matrix。

阅读全文 »

Transformer

发表于 2019-02-25 | 更新于: 2019-03-09 | 分类于 神经网络
字数统计: 1.8k | 阅读时长 ≈ 7

背景

Attention model虽然解决了输入句仅有一个context vector的缺点,但依旧存在不少问题。

  1. context vector计算的是输入句、目标句间的关联,却忽略了输入句中文字间的关联,和目标句中文字间的关联性。
  2. 不管是Seq2seq或是Attention model,其中使用的都是RNN,RNN的缺点就是无法平行化处理,导致模型训练的时间很长。

Self attention是Google在Attention is all you need论文中提出的The transformer模型中主要的概念之一。Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。

Transformer在计算attention的方式有三种:

阅读全文 »
12

杀死庸碌的时间

13 日志
3 分类
34 标签
0%
© 2019
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4