Harness 工程的价值在于：当你从 demo 速度走向生产级审查时，不能只靠英雄提示。本文是 Edmund Ng 关于 AI testing protocol、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。

要点
是什么 — AI testing protocol — Harness 工程
为什么 — production AI harness — 演示会（善意地）撒谎
何时 — AI testing protocol — 投资 Harness
何地 — production AI harness — 栈中的 10/80/10
如何 — AI testing protocol — 起步 Harness 而不过度建设

要点

Harness 工程 需要书面规则——不能只有英雄提示。
AI testing protocol 防止 demo 速度变成生产后悔。
production AI harness 连接本 spoke 与 wider 可审计 AI 旅程。
在宣称「完成」前，交叉链接 Phase 文档、Harness 复检与 Decision Log。

是什么 — AI testing protocol — Harness 工程

Harness 工程是 Edmund Ng 对 AI 系统周边 QA 与审查机制 的命名 — 冻结快照、并行轴审查、修复循环、冒烟层级（如 Playwright+）与长跑场景包。

它回答：「系统在审查下是否 behave，而不只是在演示里？」

前置： 阶段文档系统。

在 Act 2 架构与 Harness 旅程的 是什么 层，harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队，较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调：代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时，能否跟上链条，才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化，比事后补救信任危机便宜得多。

为什么 — production AI harness — 演示会（善意地）撒谎

最可怕的 bug，往往是演示还在庆祝的那些。

API 全绿 ≠ 代理安全。UI 全绿 ≠ Harness 全绿。没有 Harness 工程，Vibe Coding 会把 快速失败 直接送进生产。

在 Act 2 架构与 Harness 旅程的 为什么 层，harness engineering 是运营契约而非营销口号。依赖 AI testing protocol 的团队，较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调：代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时，能否跟上链条，才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

角色分离至关重要：构建模型可以清扫 diff，Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色，是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。

何时 — AI testing protocol — 投资 Harness

信号	行动
首个外部用户 / 客户	最低冒烟 + Constitution 检查
多代理工作流	10/80/10 并行泳道
受监管领域	证据 + Harness 先于规模化

在 Act 2 架构与 Harness 旅程的何时层，harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队，较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调：代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时，能否跟上链条，才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI，结构比换模型更重要：当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时，聊天记录救不了你。

何地 — production AI harness — 栈中的 10/80/10

阶段	谁	做什么
PRE（10%）	Frontier	真实 API 跑一次；冻结规范快照
PARALLEL（80%）	6–8 子代理	同一快照；每泳道一条；不重跑执行
POST（10%）	Frontier	根因、修复、复测 — 绝不止于报告

层级说明： 10/80/10 是 开发/QA 方法论。运行时编排（受治理的顺序路径）是另一层 — 二者不矛盾。

在 Act 2 架构与 Harness 旅程的何地层，harness engineering 是运营契约而非营销口号。依赖 AI testing protocol 的团队，较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调：代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时，能否跟上链条，才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化，比事后补救信任危机便宜得多。

如何 — AI testing protocol — 起步 Harness 而不过度建设

每个发布候选定义 一份冻结快照
分配泳道（缺口、错误、矛盾、边界、过度承诺、质量）
Frontier 合并 — 单一修复计划
增加 Playwright 冒烟 做路由级回归
诚实记录结果 — 冒烟层级 ≠ 全量公路封闭测试

下一篇：10/80/10 测试协议。

在 Act 2 架构与 Harness 旅程的如何层，harness engineering 是运营契约而非营销口号。依赖 production AI harness 的团队，较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调：代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时，能否跟上链条，才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

总结

Harness 工程在 Edmund Ng 旅程中意味着：用 AI testing protocol、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格，请先读前置 spoke。继续阅读 10/80/10 AI 治理测试协议以沿旅程 spine 前进。智能在结构：模型会变，书面规则、Decision Log 与可审计 AI 模式应留存。

FAQ

什么是 Harness 工程？

Harness 工程是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志，而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。

如何理解 what is harness engineering for AI？

关于 what is harness engineering for AI：Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色，用 Harness 证明行为而非 demo 点击。Harness 工程应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 how to test AI systems beyond demos？

关于 how to test AI systems beyond demos：Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色，用 Harness 证明行为而非 demo 点击。Harness 工程应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 when do you need an AI harness layer？

关于 when do you need an AI harness layer：Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色，用 Harness 证明行为而非 demo 点击。Harness 工程应出现在 Phase 文档、审查仪式与 Decision Log 中。

为什么 AI testing protocol 对 Harness 工程很重要？

AI testing protocol 是支撑纪律，防止 Harness 工程在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。

关于作者

Edmund Ng — AI 系统架构师肖像

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn。

生产级 AI 的 Harness 工程：从演示到可治理交付

On this page

要点

是什么 — AI testing protocol — Harness 工程

为什么 — production AI harness — 演示会（善意地）撒谎

何时 — AI testing protocol — 投资 Harness

何地 — production AI harness — 栈中的 10/80/10

如何 — AI testing protocol — 起步 Harness 而不过度建设

总结

FAQ

什么是 Harness 工程？

如何理解 what is harness engineering for AI？

如何理解 how to test AI systems beyond demos？

如何理解 when do you need an AI harness layer？

为什么 AI testing protocol 对 Harness 工程很重要？

关于作者

相关文章

On this page

要点

是什么 — AI testing protocol — Harness 工程

为什么 — production AI harness — 演示会（善意地）撒谎

何时 — AI testing protocol — 投资 Harness

何地 — production AI harness — 栈中的 10/80/10

如何 — AI testing protocol — 起步 Harness 而不过度建设

总结

FAQ

什么是 Harness 工程？

如何理解 what is harness engineering for AI？

如何理解 how to test AI systems beyond demos？

如何理解 when do you need an AI harness layer？

为什么 AI testing protocol 对 Harness 工程 很重要？

关于作者

相关文章

为什么 AI testing protocol 对 Harness 工程很重要？