KVQuant

KVQuant是由SqueezeAILab开发的一种创新方法,旨在解决大规模语言模型(LLM)推理时的内存瓶颈问题。通过高效的KV缓存量化技术,KVQuant能够实现超长上下文长度的模型推理,为LLM的应用开辟了新的可能性。

SqueezeLLm量化笔记

SqueezeLLM的新型量化框架,旨在解决大型语言模型(LLMs)在推理部署时面临的内存带宽瓶颈问题。SqueezeLLM通过两种创新方法实现超低比特精度量化,同时保持模型性能:一是敏感度基于的非均匀量化,根据权重的二阶信息为不同权重分配最优的比特精度;二是密集-稀疏分解,将异常值以高效的稀疏格式存储

KV cache 量化之KIVI

KIVI是一种针对大型语言模型(LLMs)的键值(KV)缓存的2位非对称量化算法,旨在减少内存需求并提高推理速度,而无需调整参数。通过深入分析KV缓存的元素分布,KIVI为键缓存提供逐通道量化,为值缓存提供逐令牌量化。实验表明,KIVI能够在保持模型质量几乎不变的情况下,减少2.6倍的峰值内存使用,并提高至多4倍的批处理大小和2.35至3.47倍的吞吐量