演示陷阱:为何 API 通过但代理失败
AI Demo 测试陷阱:Edmund Ng 受治理 Vibe Coding 与可审计 AI — 独立创始人 Harness 方法探索
发布于 更新于 6 分钟阅读
ai-architectureharness-engineeringtesting

AI Demo 测试陷阱 的价值在于:当你从 demo 速度走向生产级审查时,不能只靠英雄提示。本文是 Edmund Ng 关于 AI demo testing trap、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。
On this page
- 要点
- 是什么 — AI demo testing trap — 演示陷阱(Framework-Skip)
- 为什么 — two door API testing — 一扇门是谎
- 何时 — AI demo testing trap — 跑两扇门验证
- 何地 — two door API testing — 五层框架(概念)
- 如何 — AI demo testing trap — 逃出演示陷阱
要点
- AI Demo 测试陷阱 需要书面规则——不能只有英雄提示。
- AI demo testing trap 防止 demo 速度变成生产后悔。
- two door API testing 连接本 spoke 与 wider 可审计 AI 旅程。
- 在宣称「完成」前,交叉链接 Phase 文档、Harness 复检与 Decision Log。
是什么 — AI demo testing trap — 演示陷阱(Framework-Skip)
Edmund Ng 命名早期重建学到的失败类:功能 过演示 而生产行为 — 尤其 代理后台工作 — 从未完成。
| 症状 | 演示所见 | Harness 所见 |
|---|---|---|
| API 捷径 | 200 OK、快 UI | 编排器未注册 |
| 仅 happy path | 点击流通 | 错误/异步路径缺字段 |
| 聊天庆祝 | 「 ship!」 | 并行审查中代理路径红 |
博客种子: 「最可怕的 bug 往往是演示还在庆祝的那些。」
这是 AI 演示两扇门测试 纪律,非犬儒。
在 Act 2 架构与 Harness 旅程的 是什么 层,AI demo testing two door 是运营契约而非营销口号。依赖 two door API testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
为什么 — two door API testing — 一扇门是谎
传统 Web QA 优化单请求/响应。代理系统增加 第二执行面:工具循环、后台任务、子代理注册、编排布线。
只测门 1 优化 投资人截图。两扇门优化 下月仍满意的客户。
向后连 Vibe Coding 完整指南 — 无结构的速度制造演示陷阱。向前连 可审计 AI — 审计问 哪扇门 被验证。
在 Act 2 架构与 Harness 旅程的 为什么 层,AI demo testing two door 是运营契约而非营销口号。依赖 AI demo testing trap 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
何时 — AI demo testing trap — 跑两扇门验证
| 阶段 | 最低 |
|---|---|
| 首个外部用户 | 前三流两扇门冒烟 |
| 多代理功能 | 冻结快照;并行泳道(多轴审查) |
| 融资演示前 | 明确脚本:哪些路径 未 证明 |
| 事故后 | 根因:是否合并 Framework-Skip? |
会议前只有一扇门时间 — 诚实标注演示 — 勿暗示全验证。
在 Act 2 架构与 Harness 旅程的 何时 层,AI demo testing two door 是运营契约而非营销口号。依赖 two door API testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。
何地 — two door API testing — 五层框架(概念)
公开抽象 — 跨层验证严肃性:
- 工具访问 — 代理能否在策略下触达所需工具?
- 工具执行 — 调用完成,非仅入队?
- 代理后台模式 — 异步工作扛请求结束?
- 编排器注册 — 工作流已注册,非 ad-hoc 脚本?
- 子代理注册 — 并行泳道已布线,非假摘要?
马来西亚 B2B 构建者:客户可能周一接受演示、周五要 流程证据 — 两扇门习惯防声誉鞭打。
在 Act 2 架构与 Harness 旅程的 何地 层,AI demo testing two door 是运营契约而非营销口号。依赖 AI demo testing trap 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。
如何 — AI demo testing trap — 逃出演示陷阱
步骤 1 — 命名两扇门
在 Phase 契约文档化门 1 与门 2 — 非隐含。
步骤 2 — 叙事前 Harness
跑 PRE 快照 → 并行分析 → POST 修复。无 POST 的报告是戏。
步骤 3 — 禁止 Framework-Skip 合并
Constitution:验证节未列两扇门则不合并捷径路径。
步骤 4 — 采纳 10/80/10 节奏
用 10/80/10 测试协议 扩展并行审查。
步骤 5 — 选演示速度时 Decision Log
明知只 ship 门 1 — 记录 考虑过全 Harness,选演示截止,因为 X。
在 Act 2 架构与 Harness 旅程的 如何 层,AI demo testing two door 是运营契约而非营销口号。依赖 two door API testing 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。
角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。
总结
AI Demo 测试陷阱 在 Edmund Ng 旅程中意味着:用 AI demo testing trap、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格,请先读前置 spoke。继续阅读 10/80/10 AI 治理测试协议 以沿旅程 spine 前进。智能在结构:模型会变,书面规则、Decision Log 与可审计 AI 模式应留存。
FAQ
什么是 AI Demo 测试陷阱?
AI Demo 测试陷阱 是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志,而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。
如何理解 why AI APIs pass but agents fail?
关于 why AI APIs pass but agents fail:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。AI Demo 测试陷阱 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 what is the demo trap in AI testing?
关于 what is the demo trap in AI testing:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。AI Demo 测试陷阱 应出现在 Phase 文档、审查仪式与 Decision Log 中。
如何理解 how to test agent paths not just APIs?
关于 how to test agent paths not just APIs:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。AI Demo 测试陷阱 应出现在 Phase 文档、审查仪式与 Decision Log 中。
为什么 AI demo testing trap 对 AI Demo 测试陷阱 很重要?
AI demo testing trap 是支撑纪律,防止 AI Demo 测试陷阱 在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。
关于作者

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn。
