后摩智能三篇论文入选ACL和ICML两大人工智能顶会
01【ACL-2026】BWLA:面向LLMs的1-bit权重与低比特激活后训练量化框架
后摩智能芯片算法团队提出BWLA(Binarized Weights and Low-bit Activations),这是首个在无需重训练的后训练量化框架下,同时实现1-bit权重与低比特激活(如6-bit)的大语言模型压缩方法。现有二值化方法虽然能够将权重压缩到接近1bit,但大多无法有效处理激活中的重尾离群值,因此仍需保留高精度激活,推理时还需要进行权重反量化,难以真正实现端到端加速。BWLA从权重与激活的统计分布出发,通过联合重塑权重分布与抑制激活离群值,显著提升了W1AX场景下的量化