从检测到证明：AI 增长的因果证据阶梯

Q: Geo Lift 实验需要多大的流量规模？

这取决于你想检测的效应大小。一般而言，如果 AI 来源每月有 1,000+ 转化事件（注册、订单等），4-6 周的实验窗口就足以检测 10-15% 级别的增量效应。流量越大、实验窗口越长，能检测的效应越小。CitationGraph 在实验设计阶段会提供统计功效分析，确保实验有足够的检验力。

Q: 如果品牌只有一个市场（没有地区分割），能做因果验证吗？

可以。Holdout 实验可以在产品线维度分割（对部分产品线暂停 GEO 优化）。时间序列分析（C2 级）也不需要地理分割——只需要足够长的时间线和一个明确的干预事件。C3 级的 DiD 可以用"产品线"或"内容主题"作为分割维度。

Q: 因果验证的结果如何呈现给 CFO？

CitationGraph 的因果验证报告专门为非技术决策者设计——核心输出是一个数字："停止 GEO 投入后，AI 来源注册量预计下降 X%（95% 置信区间：Y%-Z%）。"配合 ROI 换算："每投入 $1 GEO 费用，产生 $W 的增量收入。"CFO 不需要理解 DiD 或 IV——他需要一个可签字的数字。

到这里，整个 AI Measurement Partner 的框架已经搭建完毕：MMP 的结构性盲区（第 1 篇）、AI 流量冰山（第 2 篇）、信号桥（第 3 篇）、多行业结果测量（第 4 篇）。

现在剩下最后一个问题——也是最难的问题：

你看到 AI 来源增长了、转化也增长了。但这是"因为"AI，还是"碰巧同时"增长了？

这就是从"检测"到"证明"的鸿沟。跨越这道鸿沟需要的不是更多数据，而是更高级别的证据方法论。

#### CMO 的真正问题

效果营销团队花了几个月搭建了 AI 来源的可见度、打通了 MMP 信号桥、看到了 AI 渠道的转化漏斗。然后他们去找 CMO/CFO 要预算加码 GEO 投入。

CMO 问了一个问题：

"AI 来源的转化确实在增长。但整个市场都在增长。你怎么证明是我们的 GEO 投入带来了这个增长，而不是 ChatGPT 用户自然增长带来的？"

这个问题的本质是因果推断——市场增长和 GEO 投入同时发生时，如何分离贡献？

这不是 AI 测量独有的问题。广告行业已经在因果推断上探索了几十年——从最早的 A/B 测试到 Google 的 Geo Lift、Meta 的 Conversion Lift。但 AI 渠道有一个独特的难度：你无法"关闭" AI 对你的推荐——你不能让 ChatGPT 在 A 组推荐你、在 B 组不推荐你。

这意味着传统的广告因果验证方法需要适配。

#### 五级因果证据阶梯

在 CitationGraph 中，我们把从"观测数据"到"因果证明"的路径分为五个层级：

C0：观测相关（Observational Correlation）

最基础的层级。看到 AI 来源的访问量增长了 X%、转化也增长了 Y%。这是相关性，不是因果性。

数据来源：CitationGraph 的 AI 来源检测 + 客户转化数据
证据强度：低——不排除混杂因素
适用场景：初步发现趋势、向团队展示 AI 渠道的存在

C1：基准对比（Benchmarked Comparison）

在观测数据的基础上，加入对照基准。比较 AI 来源用户和非 AI 来源用户的行为差异：

AI 来源用户的 KYC 完成率是否更高？
AI 来源用户的首次入金金额是否更大？
AI 来源用户的 LTV 是否不同？

如果 AI 来源用户在多个维度上都表现出有意义的差异，因果性的证据变强——但仍可能是选择偏差（高质量用户本来就更可能通过 AI 搜索发现你）。

数据来源：CitationGraph 通用结果层 + MMP Postback
证据强度：中低——控制了部分混杂，但不排除选择偏差
适用场景：向增长团队论证 AI 渠道的用户质量

C2：趋势断点分析（Trend Discontinuity）

在时间维度上寻找"断点"——某个事件发生前后，指标是否出现了不符合趋势的跳变？

例如：部署 CitationGraph 的服务器端可见度后，品牌在 AI 答案中的引用率是否出现了上升拐点？发布了一批 GEO 优化内容后，AI 来源的注册量是否出现了超出季节性趋势的增长？

这种方法利用的是自然实验——你无法控制 AI 平台的行为，但你可以观测自己的行动（发布内容、优化 Schema、更新 llms.txt）前后指标的变化。

数据来源：CitationGraph SOV 趋势 + AI 来源历史数据
证据强度：中——控制了时间趋势，但不排除同期其他变化
适用场景：评估特定 GEO 行动的效果

C3：统计控制（Statistical Controls / DiD）

用更严格的统计方法来控制混杂因素。双重差分法（Difference-in-Differences, DiD）是经典方法：

找一个"处理组"（你做了 GEO 优化的产品线）和一个"对照组"（你没做 GEO 优化的产品线）
比较两组在同一时间段内的变化差异
如果处理组的 AI 来源增长显著超过对照组，这是更强的因果证据

工具变量法（Instrumental Variables, IV）也可以应用：利用 AI 爬虫抓取频率的外生变化（你不能控制，但可以观测）作为工具变量，估计 AI 曝光对转化的因果效应。

数据来源：CitationGraph 多站点 / 多产品线数据 + 统计建模
证据强度：中高——在正确设计下可以给出可信的因果估计
适用场景：向 CFO 论证 GEO 投入的增量价值

C4：受控实验（Controlled Experiments / Geo Lift）

最高层级的因果证据。设计并执行一个受控实验来测量 GEO 投入的增量效应。

Geo Lift 实验是广告行业验证渠道增量价值的黄金标准方法（Google 和 Meta 都使用）。适配到 AI/GEO 场景：

选择若干"处理地区"和"对照地区"（地理、语言或市场分割）
在处理地区加码 GEO 投入（发布新内容、优化 Schema、更新 llms.txt）
在对照地区保持不变
比较两组地区在实验期间的 AI 来源增长差异
统计检验增量效应是否显著

Holdout 实验更加激进但证据更强：

在部分地区或产品线暂停 GEO 投入
观察 AI 来源指标是否出现下降
如果暂停后下降、恢复后回升——这是因果性的强证据

数据来源：需要足够大的样本量 + 至少 4-6 周的实验窗口
证据强度：高——黄金标准的因果证明
适用场景：向 CFO/Board 论证 GEO 预算的持续投入

#### 为什么大多数企业停在 C0

事实是，大多数企业的 AI 来源分析停在 C0——看到了 AI 流量在增长，但无法证明是自己的行动导致的。

原因不是方法论不存在，而是三个现实障碍：

障碍一：数据基础不足。 C2 以上的方法需要至少 3-6 个月的历史数据。但大多数品牌连 AI 来源的基础检测都还没部署——没有历史数据就无法做趋势分析。越早开始检测，越早积累因果验证所需的数据资产。

障碍二：方法论门槛。 DiD、IV、Geo Lift 需要统计学专业知识。大多数效果营销团队不具备这个能力。这也是为什么 CitationGraph 把因果验证设计为产品功能——而不是让客户自己写代码。

障碍三：组织意愿。 Holdout 实验意味着在部分市场主动暂停投入——这需要管理层的决策支持。很多团队不愿承担"暂停后指标下降"的风险。

#### CitationGraph 的因果验证路径

CitationGraph 不要求客户一步到 C4。我们提供渐进式的因果验证路径：

Day 1-30：建立 C0 基线。 部署 AI 来源检测，开始积累数据。在 CitationGraph 上看到 AI 渠道的基础漏斗。

Day 30-90：升级到 C1。 在通用结果层接入客户转化事件。比较 AI 来源用户和非 AI 来源用户的行为差异。产出第一份 AI 渠道质量分析报告。

Day 90-180：推进到 C2-C3。 积累了足够的历史数据。做趋势断点分析（某次 GEO 优化前后的变化）。如果客户有多个产品线或市场，做双重差分分析。

Day 180+：执行 C4 实验。 设计 Geo Lift 或 Holdout 实验。执行 4-6 周。产出 CFO/Board 级别的因果证据报告。

关键原则：每个层级都是独立有价值的。 C0 已经能回答"AI 流量存不存在"。C1 能回答"AI 用户质量如何"。C2 能回答"GEO 行动有没有效果"。不需要到 C4 才能指导决策——但 C4 是说服 CFO 的终极武器。

#### 为什么 CitationGraph 比自建更适合做因果验证

跨客户基准线。 单个品牌的 AI 来源增长可能是行业性的。CitationGraph 的跨客户数据能分离"行业增长"和"品牌特异增长"——这是 DiD 分析的关键对照组。

SOV 趋势作为工具变量。 CitationGraph 的 AI 答案引文监控（Citation SOV）提供了一个独特的工具变量：品牌在 AI 答案中的引用率变化。这个变化既受 GEO 行动影响，又是独立于广告投放的——满足工具变量的排他性条件。

数据完整性。 因果分析对数据质量极敏感——缺失数据会导致估计偏差。CitationGraph 的多层级可见度（从客户端到服务器端）确保了尽可能完整的 AI 来源数据——这是因果分析的基础。

#### 终极问题的回答

回到系列的起点：效果营销负责人说"不知道该如何计算产出"。

用 CitationGraph 的五级因果证据阶梯，他现在可以这样回答 CFO：

C0 级回答："我们看到 AI 来源每月为品牌带来 X 次引文推荐、Y 次 Web 访问、Z 个 App Install。"

C1 级回答："AI 来源的用户 KYC 完成率比广告来源的高 15%，首次入金金额高 22%——这是更高质量的用户群体。"

C2 级回答："在我们发布 GEO 优化内容后的 4 周内，AI 来源注册量增长了 X%，超出了同期整体市场增长率。"

C3 级回答："双重差分分析显示，做了 GEO 优化的产品线，AI 来源注册量增长显著超过未优化的对照产品线，差异为 Y%（p < 0.05）。"

C4 级回答："我们做了 6 周的 Geo Lift 实验。在停止 GEO 投入的对照地区，AI 来源注册量下降了 Z%。恢复投入后回升。GEO 的增量 ROI 为 W:1。"

从 C0 到 C4，每一级都比上一级更有说服力。而这条路径，从今天开始部署 CitationGraph 就可以走起来。

#### 核心论点

检测 AI 流量是第一步，但远不是终点。效果营销团队需要的不是更多数据——是更高级别的证据。从观测相关（C0）到受控实验因果证明（C4），需要五级台阶。CitationGraph 的因果证据阶梯让这条路径从"学术方法论"变成"产品功能"——任何品牌都可以渐进式地从 C0 走到 C4，用 CFO 能接受的证据水平论证 AI/GEO 投入的价值。

FAQ

Q1: Geo Lift 实验需要多大的流量规模？

A: 这取决于你想检测的效应大小。一般而言，如果 AI 来源每月有 1,000+ 转化事件（注册、订单等），4-6 周的实验窗口就足以检测 10-15% 级别的增量效应。流量越大、实验窗口越长，能检测的效应越小。CitationGraph 在实验设计阶段会提供统计功效分析，确保实验有足够的检验力。

Q2: 如果品牌只有一个市场（没有地区分割），能做因果验证吗？

A: 可以。Holdout 实验可以在产品线维度分割（对部分产品线暂停 GEO 优化）。时间序列分析（C2 级）也不需要地理分割——只需要足够长的时间线和一个明确的干预事件。C3 级的 DiD 可以用"产品线"或"内容主题"作为分割维度。

Q3: 因果验证的结果如何呈现给 CFO？

A: CitationGraph 的因果验证报告专门为非技术决策者设计——核心输出是一个数字："停止 GEO 投入后，AI 来源注册量预计下降 X%（95% 置信区间：Y%-Z%）。"配合 ROI 换算："每投入 $1 GEO 费用，产生 $W 的增量收入。"CFO 不需要理解 DiD 或 IV——他需要一个可签字的数字。

FAQ

Q1: Geo Lift 实验需要多大的流量规模？

Q2: 如果品牌只有一个市场（没有地区分割），能做因果验证吗？

Q3: 因果验证的结果如何呈现给 CFO？

从检测到证明：AI 增长的因果证据阶梯

C0：观测相关（Observational Correlation）

C1：基准对比（Benchmarked Comparison）

C2：趋势断点分析（Trend Discontinuity）

C3：统计控制（Statistical Controls / DiD）

C4：受控实验（Controlled Experiments / Geo Lift）

FAQ

Q1: Geo Lift 实验需要多大的流量规模？

Q2: 如果品牌只有一个市场（没有地区分割），能做因果验证吗？

Q3: 因果验证的结果如何呈现给 CFO？

相关文章

Paid + Organic 双轨策略：AI 搜索时代的品牌可见性架构

GEO 窗口期还有多久：为什么现在是建立自然可见性的最佳时机

OpenAI 的 IPO 与千亿美元广告野心：市场在赌什么

继续查看 AI 证据图

想了解更多？

从检测到证明：AI 增长的因果证据阶梯

C0：观测相关（Observational Correlation）

C1：基准对比（Benchmarked Comparison）

C2：趋势断点分析（Trend Discontinuity）

C3：统计控制（Statistical Controls / DiD）

C4：受控实验（Controlled Experiments / Geo Lift）

FAQ

Q1: Geo Lift 实验需要多大的流量规模？

Q2: 如果品牌只有一个市场（没有地区分割），能做因果验证吗？

Q3: 因果验证的结果如何呈现给 CFO？

相关文章

Paid + Organic 双轨策略：AI 搜索时代的品牌可见性架构

GEO 窗口期还有多久：为什么现在是建立自然可见性的最佳时机

OpenAI 的 IPO 与千亿美元广告野心：市场在赌什么

继续查看 AI 证据图

想了解更多？