AWQ 量化(quantize_awq_llmcompressor.py)
仓库提供 quantize_awq_llmcompressor.py:一次性脚本,用 AutoAWQ 做 4bit 量化并导出。
量化通常用于吞吐/显存优化;是否适合评测要以实际分数与稳定性为准。
依赖
建议在单独环境安装:requirements-quantize-awq.txt。
准备校准集
脚本默认使用仓库内 calib_8192.jsonl。
你也可以从 data.jsonl 抽样生成:
N=8192 MAX_LEN=2048 OUT_JSONL=calib_8192.jsonl OUT_TXT=calib_8192.txt python3 sample_calib_from_data.py
运行示例
python3 quantize_awq_llmcompressor.py \
--model_dir model/YukinoStuki/Qwen2.5-0.5B-Plus-LLM \
--output_dir model/YukinoStuki/Qwen2.5-0.5B-Plus-AWQ
常用覆盖(用环境变量):
AWQ_CALIB_JSONL:指定校准 jsonl 路径AWQ_MODEL_DIR/AWQ_OUTPUT_DIR:覆盖输入/输出目录
常见问题
- OOM:优先降低校准阶段的
AWQ_MAX_SEQ_LEN或AWQ_NUM_CALIB(脚本内常量)。 - 量化后掉分:提高校准样本数量,或让校准文本分布更贴近线上题目。