#DPO

共 1 篇相关文章。

合成数据驱动的 Agent 微调实战：把结构化输出成功率从 68% 提升到 96%

不依赖人工标注，用 Self-Instruct + 自动验证 Pipeline 构建 500 条高质量训练数据，对比 LoRA / DPO 两种微调策略在 JSON Schema 遵循率上的效果，附完整数据集构建脚本和评估代码。