open-source-model

When Does Sparsity Mitigate the Curse of Depth in LLMs

日期 5月6日时间 16:10 - 16:40 地点 Open Stage

近期研究揭示了大语言模型（LLM）中的深度诅咒现象，即后层对学习和表示的贡献小于前层。这种利用不足与 Pre-Layer Normalization 中方差的累积增长有关，可能将深层模块推向近恒等行为。在本文中，我们证明稀疏性不仅能提升效率，还能作为方差传播的调节器，从而改善深度利用。我们的研究涵盖两类稀疏性来源：（i）隐式稀疏性，由训练和数据条件自然产生，包括权重衰减引起的权重稀疏性和长上下文输入引起的注意力稀疏性；（ii）显式稀疏性，通过架构设计强制实现，包括 Grouped-Query Attention 中的键/值共享稀疏性和 Mixture-of-Experts 中的专家激活稀疏性。我们的论点通过受控的深度扩展实验和针对性的层有效性干预得到了充分验证。在各种设置下，我们观察到一致的关系：稀疏性通过降低输出方差和促进功能分化来改善层利用率。我们最终将研究结果提炼为训练深度高效 LLM 的实用经验法则，在下游任务上取得了 4.6% 的显著准确率提升。我们的结果揭示了稀疏性——作为标准设计选择中自然产生的机制——是 LLM 有效深度扩展中一个关键但此前被忽视的因素。

演讲嘉宾

Shiwei Liu Group Leader & PI, Max Planck Institute for Intelligent Systems