博客

10/80/10 测试协议:冻结真相、并行审查、负责修复

10/80/10 测试协议:Edmund Ng 受治理 Vibe Coding 与可审计 AI — 独立创始人 Harness 方法探索

发布于 更新于 6 分钟阅读

ai-architecturetestinggovernance

10/80/10 测试协议 — Edmund Ng 旅程 Hero 插图(4:3 WebP)

10/80/10 测试协议 的价值在于:当你从 demo 速度走向生产级审查时,不能只靠英雄提示。本文是 Edmund Ng 关于 10/80/10 AI testing、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。

On this page

要点

  • 10/80/10 测试协议 需要书面规则——不能只有英雄提示。
  • 10/80/10 AI testing 防止 demo 速度变成生产后悔。
  • AI governance testing 连接本 spoke 与 wider 可审计 AI 旅程。
  • 在宣称「完成」前,交叉链接 Phase 文档、Harness 复检与 Decision Log。

是什么 — 10/80/10 AI testing — 10/80/10 协议

10/80/10 是 Edmund Ng 面向 AI 系统的 开发/QA Harness

阶段占比负责人行动
PRE10%Frontier执行一次;冻结快照
PARALLEL80%子代理按泳道分析冻结工件
POST10%Frontier修复并复测

运行时编排(生产中受治理的顺序执行)不同 — 两层皆需,不矛盾。

前置: Harness 工程

在 Act 2 架构与 Harness 旅程的 是什么 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

为什么 — AI governance testing — 没有复测的报告是戏

许多团队在并行发现 PDF 处停下。POST 阶段 拥有 修复验证 — 与可审计系统同一精神:结果须经得起挑战,而非只生成幻灯片。

在 Act 2 架构与 Harness 旅程的 为什么 层,AI testing protocol governance 是运营契约而非营销口号。依赖 10/80/10 AI testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。

何时 — 10/80/10 AI testing — 应用 10/80/10

  • 多代理功能的发布候选
  • Constitution 或 Framework 变更之后
  • 在声称治理分数提升之前(抽象量表)

在 Act 2 架构与 Harness 旅程的 何时 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。

何地 — AI governance testing — 连接 Act 2 → Act 3

在 Act 2 架构与 Harness 旅程的 何地 层,AI testing protocol governance 是运营契约而非营销口号。依赖 10/80/10 AI testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

如何 — 10/80/10 AI testing — 跑一轮周期

  1. PRE: 选真实场景;执行;保存快照 + 元数据
  2. PARALLEL: 分配泳道(缺口、错误、矛盾、边界、过度承诺、质量)
  3. POST: Frontier 合并 → 补丁计划 → 仅复测失败泳道
  4. 记录: 规则变更则写 Decision Log 条目

诚实归因: 冒烟层级(如 42 通过)≠ 长跑 Harness 包 — 分享结果时标明范围。

在 Act 2 架构与 Harness 旅程的 如何 层,AI testing protocol governance 是运营契约而非营销口号。依赖 AI governance testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。

总结

10/80/10 测试协议 在 Edmund Ng 旅程中意味着:用 10/80/10 AI testing、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格,请先读前置 spoke。继续阅读 构建可审计 AI 系统 以沿旅程 spine 前进。智能在结构:模型会变,书面规则、Decision Log 与可审计 AI 模式应留存。

FAQ

什么是 10/80/10 测试协议?

10/80/10 测试协议 是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志,而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。

如何理解 how does 10/80/10 testing work for AI?

关于 how does 10/80/10 testing work for AI:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 what is the 10/80/10 AI protocol?

关于 what is the 10/80/10 AI protocol:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 when should frontier freeze AI snapshots?

关于 when should frontier freeze AI snapshots:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。10/80/10 测试协议 应出现在 Phase 文档、审查仪式与 Decision Log 中。

为什么 10/80/10 AI testing 对 10/80/10 测试协议 很重要?

10/80/10 AI testing 是支撑纪律,防止 10/80/10 测试协议 在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。

关于作者

Edmund Ng — AI 系统架构师肖像

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn

相关文章