博客

构建可审计 AI 系统:证据链架构(2025)

可审计 AI 系统:Edmund Ng 受治理 Vibe Coding 与可审计 AI — 独立创始人 Harness 方法探索

发布于 更新于 10 分钟阅读

auditable-aipillargovernance

可审计 AI 系统 — Edmund Ng 旅程 Hero 插图(4:3 WebP)

可审计 AI 系统 的价值在于:当你从 demo 速度走向生产级审查时,不能只靠英雄提示。本文是 Edmund Ng 关于 AI audit trail、Harness 纪律与可审计 AI 旅程的字段笔记——写给无法承受静默回归的独立创始人与系统规则设计者。

On this page

要点

  • 可审计 AI 系统 需要书面规则——不能只有英雄提示。
  • AI audit trail 防止 demo 速度变成生产后悔。
  • evidence chain architecture 连接本 spoke 与 wider 可审计 AI 旅程。
  • 在宣称「完成」前,交叉链接 Phase 文档、Harness 复检与 Decision Log。

为什么 — AI audit trail AI 可审计性重要

AI 系统在产出 无证明的答案 时过不了审查。Edmund Ng 的创始要求(公开抽象版):建议被采纳、处罚随之而来,却 无可重建路径 — 无法条记录、无考虑过替代、无可问责轨迹。

该缺口定义品牌序列:

术语含义
可审计推理必须可见
可问责归属与决策可归因
可辩护结果经得起客户、事务所或监管挑战

AI 给答案。受治理系统给 你能辩护的决策。

本支柱是 旅程脊柱 的 Act 3:非程序员 → 结构 → 信任


在 Act 3 可审计 AI 旅程的 为什么 层,auditable AI system 是运营契约而非营销口号。依赖 evidence chain architecture 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

是什么 — evidence chain architecture — 证据链

证据链 连接输入、推理与输出,第三方可回放 为何 得出结论。

不同于日志: 日志记事件;证据链记 决策级 工件 — 考虑过哪些引用、被拒替代、通过的门控。

属性(模式层):

属性意图
可追溯每步引用先前证据
仅追加修正加新记录;历史保留
可查询审计方问「给我看为什么」无需重跑不透明模型

证据快照概念: 在决策边界冻结输入与中间工件 — 类似 10/80/10 PRE 为审查冻结规范快照。


在 Act 3 可审计 AI 旅程的 是什么 层,auditable AI system 是运营契约而非营销口号。依赖 AI audit trail 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。

何时 — AI audit trail — 需要此架构

强信号:

  • 受监管或专业领域(税务、法律、金融、医疗邻近)
  • 多租户 B2B — 一客户数据不得渗入另一客户推理
  • 企业买家先问 「如何审计?」 再问 「多快?」
  • 马来西亚/APAC 面临客户或监管审查

可延后重审计架构当:

  • 明确标为丢弃的内部 spike
  • 无外部问责面的单用户工具

Act 2 桥梁:若缺 阶段文档Harness,Act 3 会变成文档戏。


在 Act 3 可审计 AI 旅程的 何时 层,auditable AI system 是运营契约而非营销口号。依赖 evidence chain architecture 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。

何地 — evidence chain architecture — 生产中的可审计系统

证据架构横跨 运行时审查面向买家 界面:

界面角色
答案 / 决策路径每个客户可见结论上的证据链保管
Harness + 审查泳道冻结快照、多轴发现、POST 修复
租户边界firm_id / client_id 隔离 — 跨租户泄漏是证据失败
透明产品层工具调用、引用、理由对评估者可见 — 非隐藏运维
马来西亚 / APAC 部署可辩护性是销售要求的专业审查语境

Act 2 工件(阶段文档10/80/10)喂养 Act 3 保管 — 无这些界面的速度是审计戏。


在 Act 3 可审计 AI 旅程的 何地 层,auditable AI system 是运营契约而非营销口号。依赖 AI audit trail 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

为谁 — 受众

受众需求
AI 架构师宪法模式,非 API 堆砌
受监管行业创始人可辩护 MVP,无 Big-4 戏
企业评估者清单:证据、门控、决策记录
Act 2 毕业的 Vibe Coder速度层之后的信任层

Edmund 角色:系统规则设计者 — 证据架构在选模型之前设计。


如何构建 — 模式层

公开博客只教 Level 1–3(结果、模式、类别)— 无 Level-4 实现路径(§8 分享边界)。

Stage A / Stage B(宪法级变更模型)

阶段模式允许
Stage A读 / 分析 / 计划探索、检索、计算、提议
Stage B变更 / 提交 在显式门控后写入

模式: 任何改变用户可见状态或持久决策的动作 — 先读后写。

Decision Log(正式层)

结构:「我们考虑过 A,选择 B,因为 C。」

  • 消除事后合理化
  • 未来模型理解 为何,不只 是什么
  • 防止回归 — 被拒的 A 与 C 一并保留

Instruction Governance Layer(概念)

随请求传播的规则 — 代理可推断什么、必须升级什么、绝不可编造什么。

博客种子: 「每个理由有记录。每条记录可追溯。」


测试可审计系统

把 Harness 连到审计:

  • 10/80/10 协议 — PRE 快照、并行泳道、POST 修复
  • 多轴审查 — 窄泳道;Frontier 决策
  • 治理分数框架(抽象): 无治理构建约 20/100 vs 有治理约 91/100(Edmund 内部量表 — 教学对比,非 SLA)

关键规则: 子代理分析;Frontier 决策。绝不在一步里混角色。

冒烟层级(如 Playwright+)证明 路由渲染;Harness 证明冻结快照下 代理 behave


真实结果 — 抽象案例

语境(仅模式): 多租户 B2B 专业决策平台 — 有投资、面向马来西亚/APAC、独立创始人架构 + AI 共建者。

已交付(抽象):

  • 带收尾仪式的阶段文档化波次
  • 证据导向答案路径(引用、替代、决策记录)
  • 诚实引用的 Harness 基准 — 冒烟 vs 长跑包是不同主张

本文不发布: 内部仓库路径、schema 名、API 清单、集合名 — 产品域见 /projects

跨支柱链接: Act 1 Vibe Coding 指南 讲速度;本支柱讲 为何无证据的速度在稳定前失败五次


是什么 — AI audit trail — auditable AI system

在 Act 3 可审计 AI 旅程的 是什么 层,auditable AI system 是运营契约而非营销口号。依赖 AI audit trail 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。

为什么 — evidence chain architecture — auditable AI system

在 Act 3 可审计 AI 旅程的 为什么 层,auditable AI system 是运营契约而非营销口号。依赖 evidence chain architecture 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

何时 — AI audit trail — auditable AI system

在 Act 3 可审计 AI 旅程的 何时 层,auditable AI system 是运营契约而非营销口号。依赖 AI audit trail 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

角色分离至关重要:构建模型可以清扫 diff,Frontier 模型应审计冻结快照。在同一聊天线程里混合两种角色,是团队失去可复现性、积累语境债务的常见路径——换 IDE 也修不好。

何地 — evidence chain architecture — auditable AI system

在 Act 3 可审计 AI 旅程的 何地 层,auditable AI system 是运营契约而非营销口号。依赖 evidence chain architecture 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

受治理的构建者把书面规则、冻结快照与 Harness 复检视为上线条件——不是 demo 变绿后的可选装饰。从非程序员的 Vibe Coding 到可审计 AI,结构比换模型更重要:当利益相关者追问你如何决策、拒绝了什么、能否导出证据链时,聊天记录救不了你。

如何 — AI audit trail — auditable AI system

在 Act 3 可审计 AI 旅程的 如何 层,auditable AI system 是运营契约而非营销口号。依赖 AI audit trail 的团队,较不容易在 multi-axis 审查或合规追问下因 demo 速度而崩塌。Edmund Ng 的字段笔记强调:代理清扫之前必须冻结什么、权衡发生时记录什么、哪条 Harness 复检证明行为而非 UI 运气。六个月后外部审计员阅读 Decision Log 时,能否跟上链条,才是「又快又受治理」的试金石。这与本旅程 Acts 1–3 所教的结构优先、模型可换一脉相承。

马来西亚与 APAC 独立团队常较早面临专业审查。在客户演示之前就把 Phase 文档、Decision Log 与 smoke 分层外置化,比事后补救信任危机便宜得多。

总结

可审计 AI 系统 在 Edmund Ng 旅程中意味着:用 AI audit trail、Harness 复检与证据友好决策交付——而非一次性提示。若尚未冻结 Phase 规格,请先读前置 spoke。继续阅读 什么是 AI 证据链 以沿旅程 spine 前进。智能在结构:模型会变,书面规则、Decision Log 与可审计 AI 模式应留存。

FAQ

什么是 可审计 AI 系统?

可审计 AI 系统 是 Edmund Ng 在旅程 spine 上对受治理 AI 交付的实用标签——可重复规则、Phase 文档、Harness 复检与证据友好日志,而非 hype。独立创始人用它换模型、换 IDE、换同事时仍保持可审计性。

如何理解 how to build auditable AI systems?

关于 how to build auditable AI systems:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。可审计 AI 系统 应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 what makes an AI system auditable?

关于 what makes an AI system auditable:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。可审计 AI 系统 应出现在 Phase 文档、审查仪式与 Decision Log 中。

如何理解 when do you need an AI evidence chain?

关于 when do you need an AI evidence chain:Edmund Ng 的回答是结构优先——冻结规格、分离构建者与 Frontier 角色,用 Harness 证明行为而非 demo 点击。可审计 AI 系统 应出现在 Phase 文档、审查仪式与 Decision Log 中。

为什么 AI audit trail 对 可审计 AI 系统 很重要?

AI audit trail 是支撑纪律,防止 可审计 AI 系统 在自动补全「很快」时失去诚实。缺它时团队积累语境债务——正是本旅程 Harness 与可审计 AI spoke 要解决的失败模式。

关于作者

Edmund Ng — AI 系统架构师肖像

Edmund Ng — 马来西亚独立创始人、AI 系统架构师、系统规则设计者。以 Vibe Coding、Harness 工程与可审计证据链交付受治理 AI。关于 · 项目 · LinkedIn

相关文章