When Does Sparsity Mitigate the Curse of Depth in LLMs
Date6 maiHeure16:10 - 16:40Lieu Open Stage
Des travaux récents ont démontré la malédiction de la profondeur dans les grands modèles de langage (LLM), où les couches profondes contribuent moins à l’apprentissage et à la représentation que les couches initiales. Cette sous-utilisation est liée à la croissance accumulée de la variance dans la Pre-Layer Normalization, qui peut pousser les blocs profonds vers un comportement quasi-identitaire. Dans cet article, nous démontrons que la parcimonie (sparsity), au-delà de son rôle d’optimisation de l’efficacité, agit comme un régulateur de la propagation de la variance et améliore ainsi l’utilisation de la profondeur. Notre étude couvre deux sources de parcimonie : (i) la parcimonie implicite, qui émerge des conditions d’entraînement et des données, incluant la parcimonie des poids induite par le weight decay et la parcimonie de l’attention induite par les entrées en contexte long ; et (ii) la parcimonie explicite, imposée par la conception architecturale, incluant la parcimonie de partage clé/valeur dans le Grouped-Query Attention et la parcimonie d’activation d’experts dans le Mixture-of-Experts. Notre thèse est étayée par des expériences contrôlées de mise à l’échelle en profondeur et des interventions ciblées sur l’efficacité des couches. Dans tous les cas, nous observons une relation cohérente : la parcimonie améliore l’utilisation des couches en réduisant la variance de sortie et en favorisant la différenciation fonctionnelle. Nous distillons finalement nos résultats en une recette pratique pour entraîner des LLM exploitant efficacement la profondeur, obtenant une amélioration notable de 4,6 % de la précision sur les tâches en aval. Nos résultats révèlent que la parcimonie, émergeant naturellement des choix de conception standard, est un mécanisme clé mais jusqu’ici négligé pour une mise à l’échelle efficace en profondeur des LLM.