目前公认最强大语言模型仍然是 GPT4 ,但由于 OpenAI 没有将其开源,商业部署成本较高,且难以进行微调,因此众多开源模型进入了大众的视野,包括国外的 LLaMa、Bloom;国内的 ChatGLM、Baichuan、Qwen、InterLM 等等,这些都是优秀的开源模型。
LLaMA:由 Meta 研发,目前有 LLaMA 和 LLaMa2 两个版本,LLaMA 包含 7B、13B、33B、65B 四个规模的模型,LLaMA2包含 7B、13B、34B,70B 四个规模的模型。LLaMA 和 LLaMa2 都是 Decoder-only 架构的模型。但由于 LLaMA 的训练数据集中中文数据含量极低,因此 LLaMA 在中文能力方面非常弱,无法直接使用,一般使用中文 LLaMA 项目,例如Chinese-LLaMA-Alpaca。
BLOOM:是由 Hugging Face 在内由数百名研究人员合作开发和发布,模型规模为 176B,训练数据包含包含46种自然语言和13种编程语言,采用 Decoder-only 架构,同时 BLOOM 使用 ALiBi 来向模型注入位置信息。
Mixtral:MistralAI 开源全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE,Mixtral-8x7B 是首个被证明有效的 开源的 MoE LLM,相比于古早的 Switch-Transformer 、 GLaM 等 Research, Mixtral-8x7B 证明了 MoE 真的可以落地,且效果远好于相同激活值的 Dense 模型。Mistral-8x7B-MoE 由8个拥有 7B 参数的专家网络组成,每个token的处理交由最相关的两个专家进行。这种结构不仅提高了模型处理信息的效率,还降低了运行成本。
ChatGLM:由清华大学 KEG 实验室和智谱 AI 共同打造,目前已开源 ChatGLM-6B、ChatGLM2-6b、ChatGLM3-6b 三个模型,这三个模型都是由 130B 的 ChatGLM 模型蒸馏得到的,训练数据集包含中英双语,采用 GLM 架构(GLM Pretraining Framework),GLM 使用单个 Transformer ,并对其 Layer Normalization 的顺序、残差连接、激活函数进行了修改。
Baichuan:由前搜狗公司 CEO 王小川创立的百川智能研发,半年时间里,接连发布 Baichuan-7B/13B、Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,训练数据包括从各种来源收集数据包括通用互联网网页、书籍、研究论文、代码库等,基于 Transformer 架构。
Qwen:由阿里云开发,训练数据来源于公共网络文档、百科全书、书籍、代码等,主要语种为中文和英文,包含1.8B、7B、14B、72B 四个规模的模型,Qwen 采用了改进版的 Transformer 架构。
perfix LM(前缀语言模型)和 causal LM(因果语言模型)区别在于生成文本的方式和训练目标。
prefix LM:prefix LM 是一种生成模型,生成每个词时可以考虑之前的上下文信息。在生成时可以根据给定的前缀预测下一个可能的词。常用于文本生成、机器翻译等任务。
causal LM:causal LM 是一种自回归模型,只能根据之前的文本生成后续的文本,而不能根据之后的文本生成之前的文本。训练时,因果模型的目标是预测下一个词的概率。常用于文本生成、语言建模等任务。
涌现能力是指随着 LLM 规模的扩大,达到了一些临界规模,在这些规模上模型新的能力被“解锁”。LLM 并没有被直接训练拥有这些能力,但它们快速地以不可预测的方式出现,这些新兴能力包括执行运算、回答问题、总结段落等,LLM 仅需观察自然语言即可习得这些能力。目前并没有关于涌现能力明确的解释。
原因猜想:
LLM通常基于 Transformer,Transformer 基于 self-attention,通过多头自注意力机制和前馈神经网络可以处理长时间序列,并有良好的语言建模性能。大模型架构主要有 Decode-Only(Causal)、Pre-LN、RoPE、GeGLU、Bais 等, L、H 在100左右、d_model 在 10k 左右、Seq 大都为2048。
阅读量:2030
点赞量:0
收藏量:0