提示词优化居然可以这么简单
上传一份带标注的数据,剩下的交给 ProofHound。它会自动分析错例、优化提示词,一轮轮迭代,朝设定目标推进——从分析、优化到发布、回滚,一整条线闭环。
每一次优化,都在烧人力
提示词优化本来应该靠数据和系统推进,但现实中常常变成手动看错例、优化、跑测试。每一轮优化都在重复同样的动作,而真正需要判断力的,只是决定往哪个方向改的那一步。
手动调优,速度太慢
优化不是一次完成的事,每一轮都要等结果、看变化、再调整;轮次一多,节奏就慢下来。
机械的事,人扛着
分析、改写、验证、对比——每一步都有章可循,本该交给系统自动跑,却还压在人身上。
过程留不下来
每轮改了什么、指标怎么变、哪些方向试过无效,如果没有系统记录,下次还是从头判断。
快速开始,只需两步
上传带标注的数据集,设定要优化的目标指标。ProofHound 会自动分析错误样本、改写提示词、跑实验,把表现最好的版本和指标一起交给你。

别只看总准确率。高风险类别的召回率、容易误报类别的精确率,都可以单独盯住,关键问题不会被总分藏起来。
上传带标注的数据集
支持 CSV、TSV、JSONL、JSON 数组和 ZIP。上传后在界面里选择字段映射即可,不用提前改成固定模板。
设定优化目标
选择要优化的指标,也可以指定到某个类别:比如提高某类召回率,或稳住某类精确率。
你拿到的是表现最好的提示词版本、各类别指标,以及完整的迭代记录。
一个平台从实验到上线
从提示词、数据集、模型、实验,到连接器、优化、发布、标注和监控, ProofHound 把完整链路放进一个工作台。
资产管理
模型、数据集、提示词和连接器统一管理,团队不用到处找。
提示词
版本不可变,标签可移动;变量、输出字段、判定规则和差异都能追踪。
数据集
支持 CSV、TSV、JSONL、JSON 数组和 ZIP,字段映射后即可浏览样本、跑实验,并导出结果。
多端接入
支持 Web UI、Webhook、API Token 和 MCP,业务系统和 AI Agent 都能接入。
自动优化
自动分析失败样本、改写提示词并跑实验,一轮轮把指标往目标上推。
运行结果
每次实验、优化和发布调用都会记录输入、输出、判定和指标。
人工标注
标注结果独立保存,后续分析可以同时看到模型输出和人工判断。
发布
支持灰度接入、新旧双跑、正式发布和快速回退,让提示词发布可控可追踪。
自动分析错误样本优化提示词
每轮优化都会从运行结果开始:分析错例和回退样本,改写提示词,跑实验,表现更好的版本会自动成为新的基准。
错误样本分析 — 找出模型在哪些样本上出错
易混类别分析 — 把容易互相判错的类别放在一起看
问题线索整理 — 合并重复信号,过滤互相冲突的线索
定向改写提示词 — 只针对错误指向的问题点改写
避免重复试错 — 已经试过无效的方向,不再反复尝试
最佳版本保护 — 只有指标更好时,才更新当前最佳版本
优化策略可插拔,Pairwise Preference、Beam Search 等能力会陆续加入。
实验结果,完整可追溯
每次实验使用了哪个提示词版本、哪份数据集,得到什么输出,错在哪些样本上,都会被完整记录下来。一个版本为什么好、哪里还不好,可以从具体样本、类别指标和整体指标里看清楚。

ProofHound 是你最棒的提示词工程师
让每一次调整都有依据
无论是分类判断、内容审核,还是风控识别,只要任务能用样本和标签验证,ProofHound 就能帮你分析错误、优化提示词,并用实验结果判断版本有没有变好。
分类任务,尤其是不均衡数据
业务团队也能参与
提示词发布,完整可追踪
通过实验验证的版本可以先作为灰度候选接入真实流量,和正式版本并行观察。确认表现稳定后再提升为正式发布,出现异常时也能快速切回原来的稳定版本。
冻结版本
灰度接入
新旧双跑
上线或回滚

每次发布都会绑定提示词版本、模型配置、实验结果、灰度策略和线上指标。团队知道为什么能上线,也知道出问题时该切回哪个稳定版本。
专注于分类任务
ProofHound 现在聚焦分类场景,尤其是不均衡数据和按类别优化。已上线和计划中的能力如下。
想省钱,就自己部署,想省心,就交给我们
开源自托管版永久免费,适合自己掌控模型和数据;需要免运维、团队空间和优先支持,可以预约托管版 PRO。
PRO · ProofHound Cloud
全托管
一起把它做得更好
ProofHound 是开源、自托管项目。欢迎在 GitHub 提 Issue、发 PR,在 Discord 或 QQ 群交流,也可以直接邮件联系。
QQ 群
中文用户交流群
318412485