记录量化LLM中的总结。
配套文章:
- 逐层推理技术
- 量化和推理入门例子
- Deepseek-R1推理溢出问题
- 深度解析Qwen-2.5-VL-7B-Instruct量化
- QQQ论文解读
- 旋转矩阵在量化中的使用
- 使用quarot量化qwen3并实现在线推理
- ResQ(ResQuant)适配量化Qwen3模型
- 使用transformers推理w8a8量化后的模型
- 使用qwen2的模型推理qwen3
- quarot旋转的最佳实践
- sageattention3和gpt-oss使用的mxfp4是什么?
- LLM中使用sageattention
- 使用旋转变换处理Qwen3-VL的LLM
- 对gpt_oss模型进行quarot旋转变换
- 为什么nvfp4量化不能使用hadamard变换?
- 为什么mxfp4使用hadamard变换有效而nvfp4不行?
- nvfp4和mxfp4应该怎么量化?