LLM常见问题（基础部分）-灵析社区

1. 目前主流的开源LLM模型有哪些？

目前公认最强大语言模型仍然是 GPT4 ，但由于 OpenAI 没有将其开源，商业部署成本较高，且难以进行微调，因此众多开源模型进入了大众的视野，包括国外的 LLaMa、Bloom；国内的 ChatGLM、Baichuan、Qwen、InterLM 等等，这些都是优秀的开源模型。

LLaMA：由 Meta 研发，目前有 LLaMA 和 LLaMa2 两个版本，LLaMA 包含 7B、13B、33B、65B 四个规模的模型，LLaMA2包含 7B、13B、34B，70B 四个规模的模型。LLaMA 和 LLaMa2 都是 Decoder-only 架构的模型。但由于 LLaMA 的训练数据集中中文数据含量极低，因此 LLaMA 在中文能力方面非常弱，无法直接使用，一般使用中文 LLaMA 项目，例如 Chinese-LLaMA-Alpaca。

BLOOM：是由 Hugging Face 在内由数百名研究人员合作开发和发布，模型规模为 176B，训练数据包含包含46种自然语言和13种编程语言，采用 Decoder-only 架构，同时 BLOOM 使用 ALiBi 来向模型注入位置信息。

Mixtral：MistralAI 开源全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE，Mixtral-8x7B 是首个被证明有效的开源的 MoE LLM，相比于古早的 Switch-Transformer 、 GLaM 等 Research， Mixtral-8x7B 证明了 MoE 真的可以落地，且效果远好于相同激活值的 Dense 模型。Mistral-8x7B-MoE 由8个拥有 7B 参数的专家网络组成，每个token的处理交由最相关的两个专家进行。这种结构不仅提高了模型处理信息的效率，还降低了运行成本。

ChatGLM：由清华大学 KEG 实验室和智谱 AI 共同打造，目前已开源 ChatGLM-6B、ChatGLM2-6b、ChatGLM3-6b 三个模型，这三个模型都是由 130B 的 ChatGLM 模型蒸馏得到的，训练数据集包含中英双语，采用 GLM 架构（GLM Pretraining Framework），GLM 使用单个 Transformer ，并对其 Layer Normalization 的顺序、残差连接、激活函数进行了修改。

Baichuan：由前搜狗公司 CEO 王小川创立的百川智能研发，半年时间里，接连发布 Baichuan-7B/13B、Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型，训练数据包括从各种来源收集数据包括通用互联网网页、书籍、研究论文、代码库等，基于 Transformer 架构。

Qwen：由阿里云开发，训练数据来源于公共网络文档、百科全书、书籍、代码等，主要语种为中文和英文，包含1.8B、7B、14B、72B 四个规模的模型，Qwen 采用了改进版的 Transformer 架构。

2. prefix LM 和 causal LM 区别是什么？

perfix LM（前缀语言模型）和 causal LM（因果语言模型）区别在于生成文本的方式和训练目标。

prefix LM：prefix LM 是一种生成模型，生成每个词时可以考虑之前的上下文信息。在生成时可以根据给定的前缀预测下一个可能的词。常用于文本生成、机器翻译等任务。

causal LM：causal LM 是一种自回归模型，只能根据之前的文本生成后续的文本，而不能根据之后的文本生成之前的文本。训练时，因果模型的目标是预测下一个词的概率。常用于文本生成、语言建模等任务。

3. 涌现能力是什么原因？

涌现能力是指随着 LLM 规模的扩大，达到了一些临界规模，在这些规模上模型新的能力被“解锁”。LLM 并没有被直接训练拥有这些能力，但它们快速地以不可预测的方式出现，这些新兴能力包括执行运算、回答问题、总结段落等，LLM 仅需观察自然语言即可习得这些能力。目前并没有关于涌现能力明确的解释。

原因猜想：

对LLM的评价指标不够平滑。
任务过于复杂，复杂任务由多个子任务组成，子任务符合 Scaling Law，最终体现为涌现能力。
Grokking现象，模型长时间训练后会由记忆训练数据转变为对未训练数据存在较强的泛化能力。

4. 大模型LLM的架构介绍

LLM通常基于 Transformer，Transformer 基于 self-attention，通过多头自注意力机制和前馈神经网络可以处理长时间序列，并有良好的语言建模性能。大模型架构主要有 Decode-Only(Causal)、Pre-LN、RoPE、GeGLU、Bais 等， L、H 在100左右、d_model 在 10k 左右、Seq 大都为2048。

层归一化位置：Post-LN(泛化性更好)、Pre-LN(训练更稳定)、Sandwich-LN(稳定+泛化的结合)。
层归一化方法：LayerNorm(标准LN)、RMSNorm(剔除bais减少参数与计算量)、DeepNorm(层数衰减可构建1k层)。
激活函数：Relu(梯度不会消失、阈值化计算简单)、GELU(处理负数、门控机制非线性处理大数/接近0的数、引入随机正则)、Swish、SwiGLU、GeGLU。
位置编码：Abs(绝对编码, 可训练)、Rel(相对, 展开魔改)、RoPE(相对, 引入复数)、Alibi(操控 Attention、复杂)等。

阅读量：2044

点赞量：0

收藏量:0