1. 首页
  2. 7x24H 快讯

Muon悄悄「饿死」25%的神经元:Aurora修复后数据效率翻百倍

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

据动察 Beating 监测,Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Aurora 并开源。一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。 问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。训练初期,一部分神经元碰巧收到了较弱的梯度信号。AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。 此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。 未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。 代码和 1.1B 预训练模型均已开源。

<
OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册
相关文章