首页 > 新车资讯 > 新车资讯 > 微软BitDistill将LLM压缩到1.58比特:10倍省内存、2.65倍推理加速

微软BitDistill将LLM压缩到1.58比特:10倍省内存、2.65倍推理加速

发布时间:2025-10-21 10:43:33来源: 18811119908

大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大,这些挑战被进一步放大,尤其是在资源受限的设备上(如智能手机),内存占用和计算开销都变得极其昂贵。

为应对这些问题,近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。

然而,要让 1.58 比特的 BitNet 在下游任务中达到与高精度模型相媲美的准确率,通常需要从零开始在大规模语料上进行预训练,这会带来巨大的计算和能耗成本。

如图 1 所示,直接对已有的全精度 LLM 进行 1.58 比特量化感知训练(Quantization-Aware Training, QAT)时,在特定下游任务上的训练过程往往不稳定,难以保持原有的性能,并表现出较差的可扩展性:当模型规模从 0.6B 增大到 4B 时,相对于全精度基线的性能差距从 13.9 扩大到 15.3。



这一现象凸显出:迫切需要专门为 1.58 比特 BitNet 设计的更有效的量化感知训练方法。

在本研究中,来自微软的研究者聚焦于将已有的 LLM 微调至 1.58 比特以适配特定下游任务,同时保持与全精度模型相当的性能。为此,本文提出了 BitDistill(BitNet Distillation)—— 一种具备良好可扩展性的量化感知训练(QAT)框架,旨在弥合极端 1.58 比特量化与实际部署之间的性能差距。

在四个基准任务及多种模型规模上的大量实验表明,BitDistill 具有出色的可扩展性,其下游任务性能可与全精度基线持平。同时,如图 1 所示,BitDistill 在 CPU 上实现了 10 倍的内存节省和 2.65 倍的推理加速,显著改善了延迟、吞吐量、内存效率和能耗,使其特别适合部署在资源受限的硬件平台上。

新车资讯更多>>

Keychron推出75%配列键盘B31:3.5mm键程剪刀脚,出厂预润 真我Neo8发布:首销2399元起 全球首发165Hz三星苍穹屏 11小时10分霸榜!REDMI Turbo 5 Max把2.5K档续航卷成“友商噩梦”? 全新OriginOS 6新一轮公测招募开始报名,覆盖vivo S20等机型 小米汽车Apple Music现已支持杜比全景声播放 华为Pura 90系列再次被确认:20GB +鸿蒙OS 6.1,无3D人脸! Meta宣布Threads平台月活跃用户突破4亿,面向全球推出广告 阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍 第二届CVPR 2026 CV4CHL Workshop征稿启动 AI大模型守护儿童未来 日系彩电时代“彻底落幕” 双3D缓存新王登基!AMD锐龙9 9950X3D2跑分曝光:单多核均超9950X3D 消息称华为Mate 80单品激活150万,逆袭成年底国产旗舰第一 2026开年旗舰:苹果狂卖1726万台,华为、小米、OV、荣耀谁在掉队 L3自动驾驶也来合川尝年味 开源版Cowork爆火,逼得Anthropic下放Cowork 月产80万公斤,纺织巨头宣布破产 深康佳:因工作安排原因,总裁曹士平请求辞职 Indigo 3000:一个瑞典跑车创业梦的始末 消息称OPPO拥抱国产影像传感器:中端线导入思特威,旗舰线豪威 突发!iPhone 18 Pro要砍灵动岛?苹果这步棋赌上了未来三年的口碑 2025中国手机出货量公布:华为4670万台排名第一,荣耀跌出前五 从不到1500元成本到估值数千万,深夜宣布更名的“死了么”还有“钱”途吗? 390亿美元Figure做不到的事,这家中国团队做到了 荣耀MagicOS 10更新全攻略:老机流畅度飙升50%,这2款真无缘? 荣耀亲选iotapk AI通话耳机发布,799元可独立通话 摩托罗拉首款“AI感知伴侣”硬件曝光 海南封关不是封岛!iPhone省2000+,购物、医疗、就业红利全解析 7.2英寸屏,主动散热风扇,华为要干游戏手机了? 从月销过万到盈利突破,智己2025年做对了什么?解读增长密码 丰田卡罗拉各代车型尺寸排名:其车身的不断增大也同样引人入胜