基准测试揭秘大模型“字数危机”:26 个模型长文本生成普遍拉胯,最大输出长度过度宣传-灵析社区

AI资讯

大语言模型(LLMs)在长度指令遵循上存在显著问题,尤其是在长文本生成任务中表现较差。最新的研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一个全新的基准测试集 LIFEBENCH,专门评估大语言模型在执行长度指令时的能力。 LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH是一套评估大语言模型在长度指令下表现的测试集,覆盖从短文到长文的任务,并支持多语种(中文、英文)。测试集通过多种任务类型,如问答、摘要、推理和创意生成,全面揭示模型在长度控制方面的能力边界。 主要特性 - 数据集多样性:包含短文本和长文本场景,以及双语支持。 - 评测指标:LIFEBENCH设计了长度偏差(LD)和长度评分(LS),提供更精准的模型评测。 - 任务与语言影响:模型在不同语言和任务类型下表现差异明显,中文任务普遍表现较差,且存在过度生成现象。 实验结果:大语言模型的“长度危机” 研究对26个主流大语言模型进行了评测,发现大多数模型在长度指令遵循上表现糟糕,特别是长文本生成任务。尽管短文本生成表现相对稳定,但随着生成文本长度增加,模型表现急剧下降,很多模型在长文本生成任务中评分低于40分。 模型“过度宣传”最大输出长度 研究揭示,大多数大语言模型在面对极限长度指令时,生成能力远低于其宣传的“最大输出能力”。仅有少数模型(如Claude系列、Qwen系列)能够勉强达到宣传的输出长度。 长文本生成质量的挑战 大部分模型在长文本生成时表现不佳,生成质量随着文本长度的增加而下降。任务越复杂,模型越倾向于“提前终止”或“拒绝生成”,这暴露了大语言模型在长文本生成中的局限性。 结论 通过LIFEBENCH,研究者能够更全面地评估大语言模型在不同长度指令下的表现,指出当前LLMs在长文本生成上仍有显著问题。要解决这些问题,模型的感知能力、信息处理能力和生成策略都需要进行全面优化。

阅读量:280

点赞量:9

收藏量:0