LLM 评测推理服务与工程说明
核心接口固定:GET / 健康检查、POST /predict 预测。务必保持快速返回、 并在响应里剔除 <think>...</think>。
<think>...</think>
用本地脚本模拟评测机调用方式,快速回归效果与吞吐。 评测输出为空会直接记 0 分。
提供参数透传、System Prompt 管理、Batch 测试入口,并可按需启用 RAG。 评测环境 Run 阶段断网,请保持默认关闭或确保不触网。
支持 AWQ 量化、上传到 ModelScope、以及自动调参脚本(断点续跑)。