在保证高频词容易被抽到的大方向下,通过权重 3/4 次幂的方式,适当提升低频词、罕见词被抽到的概率。如果不这么做,低频词,罕见词很难被抽到,以至于不被更新到对应 Embedding。
1.第一种改进为基于层序 softmax 的模型。
首先构建哈夫曼树,即以词频作为 n 个词的节点权重,不断将最小权重的节点进行合并,最终形成一棵树,权重越大的叶子结点越靠近根节点,权重越小的叶子结点离根节点越远。
然后进行哈夫曼编码,即对于除根节点外的节点,左子树编码为 1,右子树编码为 0。 最后采用二元逻辑回归方法,沿着左子树走就是负类,沿着右子树走就是正类,从训练样本中学习逻辑回归的模型参数。
优点:
2.第二种改进为基于负采样的模型。
通过采样得到少部分的负样本,对正样本和少部分的负样本,利用二元逻辑回归模型,通过梯度上升法,来得到每个词对应的模型参数。
具体负采样的方法为:根据词频进行采样,也就是词频越大的词被采到的概率也越大。
CNN 是一种前馈神经网络,通常包含 5 层,输入层,卷积层,激活层,池化层,全连接 FC 层,其中核心部分是卷积层和池化层。
优点:
缺点:
给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布密度。
条件随机场假设输出变量构成马尔科夫随机场,而我们平时看到的大多是线性链条随机场,也就是由输入对输出进行预测的判别模型。求解方法为极大似然估计或正则化的极大似然估计。
Transformer 本身是一个典型的 encoder-decoder 模型,Encoder 端和 Decoder 端均有6个 Block,Encoder 端的 Block 包括两个模块,多头 self-attention 模块以及一个前馈神经网络模块;
Decoder 端的 Block 包括三个模块:
需要注意:Encoder 端和 Decoder 端中的每个模块都有残差层和 Layer Normalization 层。
elmo 词向量是包含上下文信息的,不是一成不变的,而是根据上下文而随时变化。
(1)LSTM 和 GRU 的性能在很多任务上不分伯仲;
(2)GRU 参数更少,因此更容易收敛,但是在大数据集的情况下,LSTM性能表现更好;
(3)GRU 只有两个门(update和reset),LSTM 有三个门(forget,input,output),GRU 直接将hidden state 传给下一个单元,而 LSTM 用 memory cell 把 hidden state 包装起来。
阅读量:2032
点赞量:0
收藏量:0