
Xin Zhiyuan报告编辑:Dinghui Aeneas [Xin Zhiyuan简介]大型模型变得越来越大,但是很难推理和扩展吗?直到现在,华为诺亚(Huawei Noah)建议的pangu灯框架摧毁了“修剪分支机构的诅咒意味着减少智慧”,这是在倒下的摇摆中,宣布了LLM减肥的新途径。毫无疑问,算法变化和国内平台的结合也将以难以想象的潜力爆炸!在开发LLM到今天,我们接下来应该探索哪个方向?显然,当今最明显的问题是,大型模型的参数量表绝大多数 - DeepSeek-V3的参数为671B,最大Llama 3.1系列为405B,GPT-4O为200B,Claude 3.5 SONNET为175b。参数的大小增长,高计算成本和识别延迟可能会被打破吗?显然,无论是推理还是部署,没有老行的“卡”,很难前进。如果这一天真的来了,我们必须解决这个问题,而不是与未准备的战斗进行战斗是最好的方法。在这里,提出了一个关键问题 - 如何将算法变化与AI计算的国内平台相结合。具体而言,有必要在保持模型性能的同时实现良好的压缩和加速度。 “在主要动脉中虐待员工?”解决此问题的关键之一是结构化修剪技术。顾名思义,这种“激进”压缩技术是通过完全去除冗余组件(例如头部注意力等)来实现的。概述的修剪更适合阶段智能软件很快,因为它维护了模型的常规结构。扩展全文
但是,简单而粗糙的修剪经常遇到滑铁卢,导致重大问题。
这种做法表明,当试图从相同的宽度(网络通道数)和深度(层数)等宽度(等宽度(网络数量))时时间,模型性能将大大降低 - 毕竟,大型模型仍然是人们的黑匣子:
修剪的根本操作将严重干扰模型参数的原始分布平衡和精心学习的信息流的路径,从而使修剪模型的结构不可逆,大大降低了性能,甚至很难通过随后完善。
举一个不适当的例子,它说明了撤离员工并删除主要动脉,或者删除看似不重要但果断的组成部分。
幸运的是,面对这个问题,华为诺亚方舟实验室的研究人员直接了解了主要问题 -
修剪后,剩余的模型参数应仔细重新定义和调整!
因此,他们基于NPU -Pangu Light推出了结构化的修剪和优化图。
通过创新的介绍一系列的重量调整和技术Ologies Reset,他们终于成功地填补了当前方法和性能机制的后期模型的稳定性中的关键空白。
Pangu Light的主要技术包括:
跨层注意修剪(拍手)旨在优化Malalim NA修剪
稳定层用于修剪宽度的修剪(SLNP)
rmsnorm融合优化方法对架构架构,并针对Ascend硬件平台进行了定制的体系结构优化。
跨层注意修剪(拍手)旨在优化深度修剪
稳定的分层修剪(SLNP)用于修剪宽度
rmsnorm融合优化方法对架构架构,并针对Ascend硬件平台进行了定制的体系结构优化。
实验结果表明,Pangu Light在压缩率和速度识别方面取得了重大改善。
此外,与某些现有的修剪框架相比(例如一些NVIDIA微型/拼图技术),Pangu Light具有更好的结果。
在许多基准测试中,Pangu系列模型修剪的pangu系列模型比LLM领导该行业(例如QWEN3系列)具有更高的准确性效率曲线。
结构化修剪的“噩梦”:
为什么模型越来越差?
大规模结构的修剪模型的原始意图当然是不错的 - 可以通过删除不重要的参数或结构单元来实现“减肥和配件”。
但是,当修剪的“手术刀”达到同一时间的深度,宽度,关注机理,甚至模型的前馈网络(FFN)时,可能会开始潜在的“噩梦”。
传统的修剪方法通常依赖于评分机制的一定重要性来确定“停留或离开”,例如激活神经元的成本,L2重量标准等等。
只是删除“看上去没有摩尔哈拉”部分会导致将发生的整个模型参数的分布发生猛烈的变化,例如从构件塔楼卸下基础构件。
在删除了与他们合作的大量“同事”之后,可能无法确认谨慎练习所获得的权重。
激活值的统计属性是 - 出现的,并且信息流通过不完整的网络的交付阻塞,这最终导致修剪模型性能的显着下降,并陷入“在切割时会破裂,如果损坏它将很难维修”的困境。尽管大量资源用于后续维修,但通常没有影响。
这正是因为这种“后稳定稳定”的主要关键是Pangu Light Framework推出了CarringWang“ Trump Card” - Cross-Layer注意修剪(CLAP)和稳定的Layernorm修剪(SLNP)。
这两种技术旨在开始解决修剪模型的问题。
光核技术的分析:
稳定性是贝特r比其他任何东西
Pangu Light成功的关键在于修剪后“修复和重建”的独特哲学,也就是说,通过准确地重置参数和结构调整,我们确保模型在“ Slimming”之后保持“肌肉和骨骼的强度”。
跨层注意修剪(拍手):修剪层后“智能缝制”
当删除整个网络层(深度修剪)时,通常会完全丢弃注意力单位,这是推理无疑是一个很大的打击的模型信息。
传统的逐层独立修剪未能使用剪切层信息。相比之下,Pangu Light拍手技术显示出更微妙的“跨层智慧”。
从研究人员看来,即使确定层是可降低的,但其中的某些注意力头(尤其是KV组)仍然可以带来重要的基本信息。
因此,切割1+1的层时,拍手不会C绝对放弃其注意力机制,但共同评估了1+1层中所有KV组的重要性。
这种重要性是基于仍然存在的查询头的最初重要性:
哪里,哪里,
指示查询头的最初重要性,
代表在KV组中保留的查询头的集合,
指示保留在KV组中的查询数量。从这两层中的所有KV组中,选择最重要的TOP-K组,“端口”其参数,然后将其包括在Lth层中。
这相当于巧妙地“缝制”切割层L+1的注意力的重量,并以L层L层的注意机制进行修复,实现了跨层信息的维护以及功能结构的有效修复。
稳定的分层修剪(SLNP):修剪宽后的“丁海申针”
当网络宽度被压缩时,即修剪隐藏层通道时,学到的仿射γP的大小RMSNORM(或LaiseNorm)层中的芳烃也会减少。
这种变化似乎很简单,但是很容易触发“蝴蝶效应”:γ的L2标准(即其整体规模)可能会发生暴力变化,这将大大变化,以截止分布的统计数据,即激活RMSNORM层输出的价值。
这种漂移分布是按一层传输和加强的,这最终导致整个网络中过度不稳定的激活状态,从而在修剪后严重激励和恢复模型的性能。
该怎么办?因此,研究人员建议使用SLNP技术,而解决此权重的解决方案将有效地针对此问题。
他们发现,修剪后可以准确控制rmsnorm层的γ参数的L2标准,以便在修剪之前可以将其恢复到水平,这对于维持模型的稳定性很重要。
具体而言,对于每个修剪的RMSNORM层L,SLNP计算重新定性标量:
(分子和分母分别是修剪前后参数γ的L2标准标准)。然后,使用此标量保存修剪的γ参数。
这个简单的重新定性步骤与“ Dinghai Shen针”一样有效。
它对应于输出量表,并显着改善模型修剪后的稳定性和随后的细化的收敛性。
RMSNORM融合优化方法
此外,模型还采用了独特的“三明治”归一化(深度为缩放)NDWICH-NORM,DSSN)体系结构,也就是说,在FFN的注意力和FRONSURES的FFN FFN注意力模块模块和模块之后,添加了另一层RMSNORM。
这种设计大大提高了大型模型训练的稳定性,并实现了“零损失尖峰”。
但是,这种归一化将不可避免地为开销带来进一步的计算。
通常的RMSNorm计算公式是引起启动的公式OWOD:
RMSNORM将实时计算每个令牌输入的统计值,这极大地影响了模型识别的效率。
直到今天,为了添加后RMSNorm,研究人员通过一小部分校准获得了统计的含义,并取代了实时RMSNorm计算的含义。表达如下:
替换后,正常层计算公式表示如下:
这种变化有效地用逐通道操作有效地替换了rmsnorm层。
同时,此缩放的操作可能包括线性投影层矩阵的重量的归一层层的参数,从而删除了后词引入的其他参数。
实验验证
为了验证Pangu Light框架的实际影响,研究团队对Huawei Ascend NPUAI处理器基础进行了一系列详细的压缩d在Pangu 38b模型上。
从实验结果可以看出,光可以在不同的压缩比下有效地维持模型的准确性。
与具有相似参数的著名QWEN3-32B行业的模型相比,Pangu Light的压缩模型在许多活动中表现出更强的竞争,并且具有更高的平均精度。
以相同的速度为2.1倍,Pangu Light保留了原始型号原始容量的98.9%,这超过了NVIDIA拼图压缩的建议压缩方案(保持98.4%的精度)。
在理解吞吐量方面,研究小组在调整了Ascend NPU下进行了NG测试。
结果表明,Pangu Light的修剪模型与Ascend Hardware平台表现出极大的连贯性。
以32B量表模型为例,与QWEN3-32B相比,Pangu Light-32B的吞吐量增加了约16.2%(2585(2585),而2225个令牌/s)。
这个完美Y证明了软和硬协调优化的有效性,并在模型性能和速度识别之间取得了更好的平衡。
实验校园
为了进一步证明各种现代技术对Pangu Light的独立贡献,研究团队还仔细设计了有关谈判的实验。
在基于14B量表模型的少量评估调整中,比较了基于修剪的激活值(Solunvidia minitron)中的技术,而使用CLA则使用了照明模型,这是“宽度调整”(实际重量重置和结构调整)P和SLNP技术,已在平均准确性上提高了3.6%。
这个重要的空间完美地表明了修剪后系统参数调整和重置的强烈重要性,以及pangu光提出的技术的效率。
深入探讨促进内部参数的方法的影响模型,尤其是如何重置SLNP重量的基本方法,研究人员还仔细审查了修剪前后仿射γ建模参数分布的变化。
分析专用于对应于Chansnel和修剪后的层和层的伽马参数。
结果清楚地表明,在应用技术重置耶和华和slnp之后,这些保留的γ参数的含义和共同偏差在修剪每一层之前都保持了高度的一致性。
这种现象强烈表明,重置和重置光重量的方法可以有效地维持通过此缩放的关键参数所学的统计特性,从而避免严重的分布。
该参数级别的稳定性是整体稳定性的重要基础,并且在修剪后模型的行为预测。
上升赋予力量,华为带领AI的道路
可以看出,Pangu轻框架毫无疑问,提案是强大的新势头注入了LLM的有效膨胀。
它将系统的结构修剪与创新的“后重量重置和结构调整”概念相结合,并强调了激进修剪后“ Restable”模型的关键步骤。
结果,该框架成功地解决了该行业长期以来一直存在的“单切”问题。
即使计算Ascend AI处理器的强大力量,Pangu Light不仅达到了超高的模型压缩率和加速度的痴迷,而且还保持了模型的高精度,并显示了出色的“准确性”平衡艺术。
可以说,这项由华为Noah的方舟实验室主持的研究结果是软件和硬件协作概念的另一个成功技能(“软件和硬件尚可固定”),这完全证明了可以通过Algor In -Depth Interation of Algor集成的巨大潜力ITHM变更和国内AI计算平台(Soyce)。
从那时起,不仅Pangu系列的大型模型具有强大的“减肥”和加速工具,而且该行业也有一个有希望的道路 -
在确保高性能的同时,大型模型应用程序的阈值将继续显着降低!
参考:
https://arxiv.org/abs/2505.20155回到sohu以查看更多