10/80/10 测试协议:冻结真相、并行审查、负责修复
10/80/10 测试协议:Edmund Ng 受治理 Vibe Coding 与可审计 AI — 独立创始人 Harness 方法探索
发布于 更新于 6 分钟阅读
ai-architecturetestinggovernance

10/80/10 测试协议 的价值在于:当你从 demo 速度走向生产级审查时,不能只靠英雄提示。本文是 Edmund Ng 关于 10/80/10 AI testing、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。
On this page
- 要点
- 是什么 — 10/80/10 AI testing — 10/80/10 协议
- 为什么 — AI governance testing — 没有复测的报告是戏
- 何时 — 10/80/10 AI testing — 应用 10/80/10
- 何地 — AI governance testing — 连接 Act 2 → Act 3
- 如何 — 10/80/10 AI testing — 跑一轮周期
要点
- 10/80/10 测试协议 需要书面规则——不能只有英雄提示。
- 10/80/10 AI testing 防止 demo 速度变成生产后悔。
- AI governance testing 连接本 spoke 与 wider 可审计 AI 旅程。
- 在宣称「完成」前,交叉链接 Phase 文档、Harness 复检与 Decision Log。
是什么 — 10/80/10 AI testing — 10/80/10 协议
10/80/10 是 Edmund Ng 面向 AI 系统的 开发/QA Harness:
| 阶段 | 占比 | 负责人 | 行动 |
|---|---|---|---|
| PRE | 10% | Frontier | 执行一次;冻结快照 |
| PARALLEL | 80% | 子代理 | 按泳道分析冻结工件 |
| POST | 10% | Frontier | 修复并复测 |
与 运行时编排(生产中受治理的顺序执行)不同 — 两层皆需,不矛盾。
前置: Harness 工程。
在 Act 2 架构与 Harness 旅程的 是什么 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
为什么 — AI governance testing — 没有复测的报告是戏
许多团队在并行发现 PDF 处停下。POST 阶段 拥有 修复验证 — 与可审计系统同一精神:结果须经得起挑战,而非只生成幻灯片。
在 Act 2 架构与 Harness 旅程的 为什么 层,AI testing protocol governance 是运营契约而非营销口号。依赖 10/80/10 AI testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
何时 — 10/80/10 AI testing — 应用 10/80/10
- 多代理功能的发布候选
- Constitution 或 Framework 变更之后
- 在声称治理分数提升之前(抽象量表)
在 Act 2 架构与 Harness 旅程的 何时 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。
何地 — AI governance testing — 连接 Act 2 → Act 3
在 Act 2 架构与 Harness 旅程的 何地 层,AI testing protocol governance 是运营契约而非营销口号。依赖 10/80/10 AI testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
如何 — 10/80/10 AI testing — 跑一轮周期
- PRE: 选真实场景;执行;保存快照 + 元数据
- PARALLEL: 分配泳道(缺口、错误、矛盾、边界、过度承诺、质量)
- POST: Frontier 合并 → 补丁计划 → 仅复测失败泳道
- 记录: 规则变更则写 Decision Log 条目
诚实归因: 冒烟层级(如 42 通过)≠ 长跑 Harness 包 — 分享结果时标明范围。
在 Act 2 架构与 Harness 旅程的 如何 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
总结
10/80/10 测试协议 在 Edmund Ng 旅程中意味着:用 10/80/10 AI testing、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格,请先读前置 spoke。继续阅读 构建可审计 AI 系统 以沿旅程 spine 前进。智能在结构:模型会变,书面规则、Decision Log 与可审计 AI 模式应留存。
FAQ
什么是 10/80/10 测试协议?
10/80/10 测试协议 是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志,而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。
如何理解 how does 10/80/10 testing work for AI?
关于 how does 10/80/10 testing work for AI:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 what is the 10/80/10 AI protocol?
关于 what is the 10/80/10 AI protocol:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 when should frontier freeze AI snapshots?
关于 when should frontier freeze AI snapshots:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。
为什么 10/80/10 AI testing 对 10/80/10 测试协议 很重要?
10/80/10 AI testing 是支撑纪律,防止 10/80/10 测试协议 在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。
关于作者

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn。
