假设原图像输出的特征维度为2048维,通过哈希的索引技术,将原图的2048维度映射到128维度的0/1值中,再进⾏特征维度对⽐。
正则化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个 rate 比率来权衡模型复杂度与以往经验风险的权重。
如果模型复杂度越高,结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化,可以防止模型训练过度复杂,有效的降低过拟合的风险。 奥卡姆剃刀原理,能够很好的解释已知数据并且十分简单才是最好的模型。
如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
SVM两种都有(看线性核还是高斯核)。
Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。
区别:
所以,LN 不依赖于 batch 的大小和输入 sequence 的长度,因此可以用于 batchsize 为 1 和 RNN 中
sequence 的 normalize 操作。
Self Attention 与传统的 Attention 机制非常的不同:
传统的 Attention 是基于 source 端和 target 端的隐变量(hidden state)计算 Attention 的,得到的结果是源端的每个词与目标端每个词之间的依赖关系。
但 Self Attention 不同,它分别在 source 端和 target 端进行,仅与 source input 或者 target input 自身相关的 Self Attention,捕捉 source 端或 target 端自身的词与词之间的依赖关系;
然后再把 source 端的得到的 self Attention 加入到 target 端得到的 Attention 中,捕捉 source 端和 target端词与词之间的依赖关系。
因此,self Attention Attention 比传统的 Attention mechanism 效果要好,主要原因之一是,传统的Attention 机制忽略了源端或目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。
Bert 的预训练主要包含两个任务,MLM 和 NSP,Masked Language Model 任务可以理解为完形填空,随机 mask 每一个句子中 15% 的词,用其上下文来做预测;Next Sentence Prediction 任务选择一些句子对 A 与 B,其中 50% 的数据 B 是 A 的下一条句子,剩余 50% 的数据 B 是语料库中随机选择的,学习其中的相关性。
BERT 预训练阶段实际上是将上述两个任务结合起来,同时进行,然后将所有的 Loss 相加。
在同一设置下,Pre Norm(也就是Norm and add)的效果是要优于 Post Norm(Add and Norm)的,但是单独调整的话,Post Norm 的效果是更好的,Pre Norm 结构无形地增加了模型的宽度而降低了模型的深度,Post Norm 每 Norm 一次就削弱一次恒等分支的权重,所以 Post Norm 反而是更突出残差分支的。
(1) GPT 是单向模型,无法利用上下文信息,只能利用上文;而 BERT 是双向模型。
(2) GPT 是基于自回归模型,可以应用在 NLU 和 NLG 两大任务,而原生的 BERT 采用的基于自编码模型,只能完成 NLU 任务,无法直接应用在文本生成上面。
函数调用形成栈帧,该函数所定义的所有临时(局部)变量都在该函数的栈帧内进行空间开辟。函数返回时自动释放该函数的栈帧结构。
不合法的递归容易产生栈溢出。合法的递归是有限次的。
1.开放地址法(再散列法)
开放地执法有一个公式: Hi=(H(key)+di) MOD m i=1,2,…,k(k<=m-1)
其中,m 为哈希表的表长;di 是产生冲突的时候的增量序列。
2.再哈希法 Rehash
当发生冲突时,使用第二个、第三个、哈希函数计算地址,直到无冲突时。
这种方法是同时构造多个不同的哈希函数:
Hi=RH1(key) i=1,2,…,k
当哈希地址 Hi=RH1(key)发生冲突时,再计算 Hi=RH2(key)……,直到冲突不再产生。
这种方法不易产生聚集,但增加了计算时间。
3 .链地址法(拉链法)
将所有关键字为同义词的记录存储在同一线性链表中,基本思想就是,将所有哈希地址为i的元素构成一个称为同义词链的单链表,并将单链表的头指针存在哈希表的第i个单元中,因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。
4.建立一个公共溢出区
假设哈希函数的值域为 [0,m-1], 则设向量 HashTable [0…m-1] 为基本表,另外设立存储空间向量 OverTable[0…v] 用以存储发生冲突的记录。
阅读量:238
点赞量:0
收藏量:0