第二章:速记Day2-灵析社区

英勇黄铜

问题 1:分词如何做?

  • 基于规则(超大词表)
  • 基于统计(两字同时出现越多,就越可能是词)
  • 基于网络 LSTM + CRF 词性标注,也可以分词

问题 2:word2vector 负采样时为什么要对频率做 3/4 次方?

在保证高频词容易被抽到的大方向下,通过权重 3/4 次幂的方式,适当提升低频词、罕见词被抽到的概率。如果不这么做,低频词,罕见词很难被抽到,以至于不被更新到对应 Embedding。

问题 3:word2vec 的两种优化方式

1.第一种改进为基于层序 softmax 的模型。

首先构建哈夫曼树,即以词频作为 n 个词的节点权重,不断将最小权重的节点进行合并,最终形成一棵树,权重越大的叶子结点越靠近根节点,权重越小的叶子结点离根节点越远。

然后进行哈夫曼编码,即对于除根节点外的节点,左子树编码为 1,右子树编码为 0。 最后采用二元逻辑回归方法,沿着左子树走就是负类,沿着右子树走就是正类,从训练样本中学习逻辑回归的模型参数。

优点:

  • 计算量由 V(单词总数)减小为 log2V;
  • 高频词靠近根节点,所需步数小,低频词远离根节点。

2.第二种改进为基于负采样的模型。

通过采样得到少部分的负样本,对正样本和少部分的负样本,利用二元逻辑回归模型,通过梯度上升法,来得到每个词对应的模型参数。

具体负采样的方法为:根据词频进行采样,也就是词频越大的词被采到的概率也越大。

问题 4:CNN 原理及优缺点

CNN 是一种前馈神经网络,通常包含 5 层,输入层,卷积层,激活层,池化层,全连接 FC 层,其中核心部分是卷积层和池化层。

优点:

  1. 共享卷积核,对高维数据处理无压力;
  2. 无需手动选取特征

缺点:

  1. 需要调参;
  2. 需要大量样本

问题 5:描述下 CRF 模型及应用

给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布密度。

条件随机场假设输出变量构成马尔科夫随机场,而我们平时看到的大多是线性链条随机场,也就是由输入对输出进行预测的判别模型。求解方法为极大似然估计或正则化的极大似然估计。

问题 6:transformer 结构

Transformer 本身是一个典型的 encoder-decoder 模型,Encoder 端和 Decoder 端均有6个 Block,Encoder 端的 Block 包括两个模块,多头 self-attention 模块以及一个前馈神经网络模块;

Decoder 端的 Block 包括三个模块:

  • 多头 self-attention 模块,
  • 多头 Encoder-Decoder attention 交互模块
  • 以及一个前馈神经网络模块;

需要注意:Encoder 端和 Decoder 端中的每个模块都有残差层和 Layer Normalization 层。

问题 7:elmo 和 Bert 的区别

  • BERT 采用的是 Transformer 架构中的 Encoder 模块;
  • GPT 采用的是 Transformer 架构中的 Decoder 模块;
  • ELMo 采用的双层双向 LSTM 模块

问题 8:elmo 和 word2vec 的区别

elmo 词向量是包含上下文信息的,不是一成不变的,而是根据上下文而随时变化。

问题 9:lstm 与 GRU 区别

(1)LSTM 和 GRU 的性能在很多任务上不分伯仲;

(2)GRU 参数更少,因此更容易收敛,但是在大数据集的情况下,LSTM性能表现更好;

(3)GRU 只有两个门(update和reset),LSTM 有三个门(forget,input,output),GRU 直接将hidden state 传给下一个单元,而 LSTM 用 memory cell 把 hidden state 包装起来。

问题 10:图像处理的基本知识:直方图均衡化、维纳滤波、锐化的操作

  1. 直方图均衡化(Histogram Equalization)是一种增强图像对比度(Image Contrast)的方法,其主要思想是将一副图像的直方图分布通过累积分布函数变成近似均匀分布,从而增强图像的对比度。
  2. 维纳滤波器一种以最小平方为最优准则的线性滤波器。在一定的约束条件下,其输出与一给定函数(通常称为期望输出)的差的平方达到最小。
  3. 锐化滤波器则使用邻域的微分作为算子,增大邻域间像素的差值,使图像的突变部分变的更加明显。锐化的作用是加强图像的边沿和轮廓,通常也成为高通滤波器。

阅读量:2032

点赞量:0

收藏量:0