提示词优化自动化

提示词优化居然可以这么简单

上传一份带标注的数据,剩下的交给 ProofHound。它会自动分析错例、优化提示词,一轮轮迭代,朝设定目标推进——从分析、优化到发布、回滚,一整条线闭环。

大家现在怎么做

每一次优化,都在烧人力

提示词优化本来应该靠数据和系统推进,但现实中常常变成手动看错例、优化、跑测试。每一轮优化都在重复同样的动作,而真正需要判断力的,只是决定往哪个方向改的那一步。

01

手动调优,速度太慢

优化不是一次完成的事,每一轮都要等结果、看变化、再调整;轮次一多,节奏就慢下来。

02

机械的事,人扛着

分析、改写、验证、对比——每一步都有章可循,本该交给系统自动跑,却还压在人身上。

03

过程留不下来

每轮改了什么、指标怎么变、哪些方向试过无效,如果没有系统记录,下次还是从头判断。

自动优化闭环

快速开始,只需两步

上传带标注的数据集,设定要优化的目标指标。ProofHound 会自动分析错误样本、改写提示词、跑实验,把表现最好的版本和指标一起交给你。

ProofHound 优化任务详情,展示优化进度、指标趋势和最佳版本

别只看总准确率。高风险类别的召回率、容易误报类别的精确率,都可以单独盯住,关键问题不会被总分藏起来。

01

上传带标注的数据集

支持 CSV、TSV、JSONL、JSON 数组和 ZIP。上传后在界面里选择字段映射即可,不用提前改成固定模板。

02

设定优化目标

选择要优化的指标,也可以指定到某个类别:比如提高某类召回率,或稳住某类精确率。

你拿到的是表现最好的提示词版本、各类别指标,以及完整的迭代记录。

核心能力

一个平台从实验到上线

从提示词、数据集、模型、实验,到连接器、优化、发布、标注和监控, ProofHound 把完整链路放进一个工作台。

资产管理

模型、数据集、提示词和连接器统一管理,团队不用到处找。

提示词

版本不可变,标签可移动;变量、输出字段、判定规则和差异都能追踪。

数据集

支持 CSV、TSV、JSONL、JSON 数组和 ZIP,字段映射后即可浏览样本、跑实验,并导出结果。

多端接入

支持 Web UI、Webhook、API Token 和 MCP,业务系统和 AI Agent 都能接入。

自动优化

自动分析失败样本、改写提示词并跑实验,一轮轮把指标往目标上推。

运行结果

每次实验、优化和发布调用都会记录输入、输出、判定和指标。

人工标注

标注结果独立保存,后续分析可以同时看到模型输出和人工判断。

发布

支持灰度接入、新旧双跑、正式发布和快速回退,让提示词发布可控可追踪。

生成版本
跑实验
分析错例
自动优化怎么跑
自动优化怎么跑

自动分析错误样本优化提示词

每轮优化都会从运行结果开始:分析错例和回退样本,改写提示词,跑实验,表现更好的版本会自动成为新的基准。

  • 错误样本分析找出模型在哪些样本上出错

  • 易混类别分析把容易互相判错的类别放在一起看

  • 问题线索整理合并重复信号,过滤互相冲突的线索

  • 定向改写提示词只针对错误指向的问题点改写

  • 避免重复试错已经试过无效的方向,不再反复尝试

  • 最佳版本保护只有指标更好时,才更新当前最佳版本

优化策略可插拔,Pairwise Preference、Beam Search 等能力会陆续加入。

实验验证

实验结果,完整可追溯

每次实验使用了哪个提示词版本、哪份数据集,得到什么输出,错在哪些样本上,都会被完整记录下来。一个版本为什么好、哪里还不好,可以从具体样本、类别指标和整体指标里看清楚。

整体指标和各类别指标自动计算
每条样本的输入、输出、标签和判定结果都可追溯
实验结果可以对比、复现,也可以导出继续分析
ProofHound 实验验证列表,展示指标、模型、数据集和状态
适用场景

ProofHound 是你最棒的提示词工程师

让每一次调整都有依据

无论是分类判断、内容审核,还是风控识别,只要任务能用样本和标签验证,ProofHound 就能帮你分析错误、优化提示词,并用实验结果判断版本有没有变好。

分类任务,尤其是不均衡数据

适用于风控、金融、内容审核、客服意图识别等分类链路
样本少但影响大的类别,可以单独看指标表现
目标可以按类别设置:比如提高某类召回率,或稳住某类精确率

业务团队也能参与

运营、风控、业务和分析师,都能参与提示词迭代
字段、变量、输出和判定规则都在界面里配置,不用写脚本
业务系统接入一次,之后优化、验证和发布都在 ProofHound 内完成
发布上线

提示词发布,完整可追踪

通过实验验证的版本可以先作为灰度候选接入真实流量,和正式版本并行观察。确认表现稳定后再提升为正式发布,出现异常时也能快速切回原来的稳定版本。

01

冻结版本

02

灰度接入

03

新旧双跑

04

上线或回滚

ProofHound 发布详情,展示发布线路拓扑、灰度候选和实时指标

每次发布都会绑定提示词版本、模型配置、实验结果、灰度策略和线上指标。团队知道为什么能上线,也知道出问题时该切回哪个稳定版本。

队列连接器支持渐进放量:先给灰度候选少量真实流量,再和正式版本并行观察,最后提升为正式发布
进入发布流程的提示词版本会自动冻结,避免上线后被悄悄改动
正式发布、灰度候选和可切回的稳定版本都会保留记录,出问题时更容易定位和处理
当前边界 · Roadmap

专注于分类任务

ProofHound 现在聚焦分类场景,尤其是不均衡数据和按类别优化。已上线和计划中的能力如下。

已支持
面向分类任务的自动优化,支持不均衡数据和各类别指标
数据集实验验证、提示词版本、灰度发布、线上结果和人工标注
单工作区自托管、自接模型和连接器接入,方便接进现有业务系统
规划中
生成式任务的评估、对比与优化
ProofHound Cloud 托管版
定价

想省钱,就自己部署,想省心,就交给我们

开源自托管版永久免费,适合自己掌控模型和数据;需要免运维、团队空间和优先支持,可以预约托管版 PRO。

自托管

开源版

免费永久免费 · 核心能力完整开放
完整自动优化闭环
你的模型,你的数据
单工作区自托管
快速自托管部署
社区支持

PRO · ProofHound Cloud

全托管

早期体验
即将上线早期名额有限 · 开放后优先接入
包含自托管版全部能力
全托管,免运维
团队协作,多工作区
优先支持与服务保障

只留个邮箱,30 秒。Cloud 开放当天优先通知你,早期团队优先接入名额。

社区

一起把它做得更好

ProofHound 是开源、自托管项目。欢迎在 GitHub 提 Issue、发 PR,在 Discord 或 QQ 群交流,也可以直接邮件联系。

GitHub

Star 仓库、提 Issue、发 PR

Discord

提问题、聊用法、关注更新

QQ 群

中文用户交流群

318412485

邮件

商务合作、Cloud 早期接入

z@proofhound.org

发邮件