Google Test 学习笔记
gtest学习笔记
gtest学习笔记
Atom低比特权重激活以及Cache量化,使用通道重新排序后混合精度,细粒度分组量化,动态激活量化以最小化量化误差
KVQuant是由SqueezeAILab开发的一种创新方法,旨在解决大规模语言模型(LLM)推理时的内存瓶颈问题。通过高效的KV缓存量化技术,KVQuant能够实现超长上下文长度的模型推理,为LLM的应用开辟了新的可能性。
SqueezeLLM的新型量化框架,旨在解决大型语言模型(LLMs)在推理部署时面临的内存带宽瓶颈问题。SqueezeLLM通过两种创新方法实现超低比特精度量化,同时保持模型性能:一是敏感度基于的非均匀量化,根据权重的二阶信息为不同权重分配最优的比特精度;二是密集-稀疏分解,将异常值以高效的稀疏格式存储
使用vscode调试coredump文件,配置以及使用