谷歌近日推出了一种新的压缩算法TurboQuant,旨在降低人工智能系统的内存需求。该算法特别针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题。随着上下文窗口的增大,这些缓存成为主要的内存瓶颈。TurboQuant可以在无需重新训练或微调模型的情况下,将键值缓存压缩至3比特精度,并且基本保持模型准确率不受影响。
测试结果显示,TurboQuant对包括Gemma和Mistral在内的开源模型实现了约6倍的键值缓存内存压缩效果。在英伟达H100加速器上的测试中,与未量化的键向量相比,该算法最高可实现约8倍的性能提升。研究人员表示,这项技术不仅适用于AI模型,还能增强大规模搜索引擎的向量检索能力。谷歌计划在2026年4月的国际学习表征会议上展示这一技术。
中纪委连打“两虎”:反腐行动再升级
中央纪委国家监委网站5月7日发布两条重要消息。新疆维吾尔自治区政协原党组成员、副主席金之镇因严重违纪违法被开除党籍和公职。调查发现,金之镇丧失理想信念,背弃初心使命,对抗组织审查
0评论2026-05-0816
若美军真的大规模撤军欧洲会怎样 开启战略调整新篇章
美国国防部于5月1日宣布,计划在未来6至12个月内从德国撤出约5000名驻军。德国是美国海外驻军规模最大的国家之一,驻军人数仅次于日本。美军欧洲司令部和非洲司令部均设在德国斯图加特
0评论2026-05-0815
欧盟修订《网络安全法》有何后果 或致巨额经济损失
欧盟中国商会与毕马威在布鲁塞尔联合发布的一份分析报告指出,若欧盟《网络安全法》修订草案通过,强制替换中资供应商,5年内欧盟成员国将面临3678亿欧元经济损失。受影响最严重的行业包括能源、电信、物流与制造业
0评论2026-05-0813