生产级 AI 的 Harness 工程:从演示到可治理交付
Harness 工程:Edmund Ng 受治理 Vibe Coding 与可审计 AI — 独立创始人 Harness 方法探索
发布于 更新于 6 分钟阅读
ai-architectureharness

Harness 工程 的价值在于:当你从 demo 速度走向生产级审查时,不能只靠英雄提示。本文是 Edmund Ng 关于 AI testing protocol、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。
On this page
- 要点
- 是什么 — AI testing protocol — Harness 工程
- 为什么 — production AI harness — 演示会(善意地)撒谎
- 何时 — AI testing protocol — 投资 Harness
- 何地 — production AI harness — 栈中的 10/80/10
- 如何 — AI testing protocol — 起步 Harness 而不过度建设
要点
- Harness 工程 需要书面规则——不能只有英雄提示。
- AI testing protocol 防止 demo 速度变成生产后悔。
- production AI harness 连接本 spoke 与 wider 可审计 AI 旅程。
- 在宣称「完成」前,交叉链接 Phase 文档、Harness 复检与 Decision Log。
是什么 — AI testing protocol — Harness 工程
Harness 工程是 Edmund Ng 对 AI 系统周边 QA 与审查机制 的命名 — 冻结快照、并行轴审查、修复循环、冒烟层级(如 Playwright+)与长跑场景包。
它回答:「系统在审查下是否 behave,而不只是在演示里?」
前置: 阶段文档系统。
在 Act 2 架构与 Harness 旅程的 是什么 层,harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
为什么 — production AI harness — 演示会(善意地)撒谎
最可怕的 bug,往往是演示还在庆祝的那些。
API 全绿 ≠ 代理安全。UI 全绿 ≠ Harness 全绿。没有 Harness 工程,Vibe Coding 会把 快速失败 直接送进生产。
在 Act 2 架构与 Harness 旅程的 为什么 层,harness engineering 是运营契约而非营销口号。依赖 AI testing protocol 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
何时 — AI testing protocol — 投资 Harness
| 信号 | 行动 |
|---|---|
| 首个外部用户 / 客户 | 最低冒烟 + Constitution 检查 |
| 多代理工作流 | 10/80/10 并行泳道 |
| 受监管领域 | 证据 + Harness 先于规模化 |
在 Act 2 架构与 Harness 旅程的 何时 层,harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。
何地 — production AI harness — 栈中的 10/80/10
| 阶段 | 谁 | 做什么 |
|---|---|---|
| PRE(10%) | Frontier | 真实 API 跑一次;冻结规范快照 |
| PARALLEL(80%) | 6–8 子代理 | 同一快照;每泳道一条;不重跑执行 |
| POST(10%) | Frontier | 根因、修复、复测 — 绝不止于报告 |
层级说明: 10/80/10 是 开发/QA 方法论。运行时编排(受治理的顺序路径)是另一层 — 二者不矛盾。
在 Act 2 架构与 Harness 旅程的 何地 层,harness engineering 是运营契约而非营销口号。依赖 AI testing protocol 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
如何 — AI testing protocol — 起步 Harness 而不过度建设
- 每个发布候选定义 一份冻结快照
- 分配 泳道(缺口、错误、矛盾、边界、过度承诺、质量)
- Frontier 合并 — 单一修复计划
- 增加 Playwright 冒烟 做路由级回归
- 诚实记录结果 — 冒烟层级 ≠ 全量公路封闭测试
下一篇:10/80/10 测试协议。
在 Act 2 架构与 Harness 旅程的 如何 层,harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
总结
Harness 工程 在 Edmund Ng 旅程中意味着:用 AI testing protocol、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格,请先读前置 spoke。继续阅读 10/80/10 AI 治理测试协议 以沿旅程 spine 前进。智能在结构:模型会变,书面规则、Decision Log 与可审计 AI 模式应留存。
FAQ
什么是 Harness 工程?
Harness 工程 是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志,而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。
如何理解 what is harness engineering for AI?
关于 what is harness engineering for AI:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。Harness 工程 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 how to test AI systems beyond demos?
关于 how to test AI systems beyond demos:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。Harness 工程 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 when do you need an AI harness layer?
关于 when do you need an AI harness layer:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。Harness 工程 应出现在 Phase 文档、审查仪式与 Decision Log 中。
为什么 AI testing protocol 对 Harness 工程 很重要?
AI testing protocol 是支撑纪律,防止 Harness 工程 在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。
关于作者

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn。
