到这里,整个 AI Measurement Partner 的框架已经搭建完毕:MMP 的结构性盲区(第 1 篇)、AI 流量冰山(第 2 篇)、信号桥(第 3 篇)、多行业结果测量(第 4 篇)。
现在剩下最后一个问题——也是最难的问题:
你看到 AI 来源增长了、转化也增长了。但这是"因为"AI,还是"碰巧同时"增长了?
这就是从"检测"到"证明"的鸿沟。跨越这道鸿沟需要的不是更多数据,而是更高级别的证据方法论。
#### CMO 的真正问题
效果营销团队花了几个月搭建了 AI 来源的可见度、打通了 MMP 信号桥、看到了 AI 渠道的转化漏斗。然后他们去找 CMO/CFO 要预算加码 GEO 投入。
CMO 问了一个问题:
"AI 来源的转化确实在增长。但整个市场都在增长。你怎么证明是我们的 GEO 投入带来了这个增长,而不是 ChatGPT 用户自然增长带来的?"
这个问题的本质是因果推断——市场增长和 GEO 投入同时发生时,如何分离贡献?
这不是 AI 测量独有的问题。广告行业已经在因果推断上探索了几十年——从最早的 A/B 测试到 Google 的 Geo Lift、Meta 的 Conversion Lift。但 AI 渠道有一个独特的难度:你无法"关闭" AI 对你的推荐——你不能让 ChatGPT 在 A 组推荐你、在 B 组不推荐你。
这意味着传统的广告因果验证方法需要适配。
#### 五级因果证据阶梯
在 CitationGraph 中,我们把从"观测数据"到"因果证明"的路径分为五个层级:
最基础的层级。看到 AI 来源的访问量增长了 X%、转化也增长了 Y%。这是相关性,不是因果性。
在观测数据的基础上,加入对照基准。比较 AI 来源用户和非 AI 来源用户的行为差异:
如果 AI 来源用户在多个维度上都表现出有意义的差异,因果性的证据变强——但仍可能是选择偏差(高质量用户本来就更可能通过 AI 搜索发现你)。
在时间维度上寻找"断点"——某个事件发生前后,指标是否出现了不符合趋势的跳变?
例如:部署 CitationGraph 的服务器端可见度后,品牌在 AI 答案中的引用率是否出现了上升拐点?发布了一批 GEO 优化内容后,AI 来源的注册量是否出现了超出季节性趋势的增长?
这种方法利用的是自然实验——你无法控制 AI 平台的行为,但你可以观测自己的行动(发布内容、优化 Schema、更新 llms.txt)前后指标的变化。
用更严格的统计方法来控制混杂因素。双重差分法(Difference-in-Differences, DiD)是经典方法:
工具变量法(Instrumental Variables, IV)也可以应用:利用 AI 爬虫抓取频率的外生变化(你不能控制,但可以观测)作为工具变量,估计 AI 曝光对转化的因果效应。
最高层级的因果证据。设计并执行一个受控实验来测量 GEO 投入的增量效应。
Geo Lift 实验是广告行业验证渠道增量价值的黄金标准方法(Google 和 Meta 都使用)。适配到 AI/GEO 场景:
Holdout 实验更加激进但证据更强:
#### 为什么大多数企业停在 C0
事实是,大多数企业的 AI 来源分析停在 C0——看到了 AI 流量在增长,但无法证明是自己的行动导致的。
原因不是方法论不存在,而是三个现实障碍:
障碍一:数据基础不足。 C2 以上的方法需要至少 3-6 个月的历史数据。但大多数品牌连 AI 来源的基础检测都还没部署——没有历史数据就无法做趋势分析。越早开始检测,越早积累因果验证所需的数据资产。
障碍二:方法论门槛。 DiD、IV、Geo Lift 需要统计学专业知识。大多数效果营销团队不具备这个能力。这也是为什么 CitationGraph 把因果验证设计为产品功能——而不是让客户自己写代码。
障碍三:组织意愿。 Holdout 实验意味着在部分市场主动暂停投入——这需要管理层的决策支持。很多团队不愿承担"暂停后指标下降"的风险。
#### CitationGraph 的因果验证路径
CitationGraph 不要求客户一步到 C4。我们提供渐进式的因果验证路径:
Day 1-30:建立 C0 基线。 部署 AI 来源检测,开始积累数据。在 CitationGraph 上看到 AI 渠道的基础漏斗。
Day 30-90:升级到 C1。 在通用结果层接入客户转化事件。比较 AI 来源用户和非 AI 来源用户的行为差异。产出第一份 AI 渠道质量分析报告。
Day 90-180:推进到 C2-C3。 积累了足够的历史数据。做趋势断点分析(某次 GEO 优化前后的变化)。如果客户有多个产品线或市场,做双重差分分析。
Day 180+:执行 C4 实验。 设计 Geo Lift 或 Holdout 实验。执行 4-6 周。产出 CFO/Board 级别的因果证据报告。
关键原则:每个层级都是独立有价值的。 C0 已经能回答"AI 流量存不存在"。C1 能回答"AI 用户质量如何"。C2 能回答"GEO 行动有没有效果"。不需要到 C4 才能指导决策——但 C4 是说服 CFO 的终极武器。
#### 为什么 CitationGraph 比自建更适合做因果验证
跨客户基准线。 单个品牌的 AI 来源增长可能是行业性的。CitationGraph 的跨客户数据能分离"行业增长"和"品牌特异增长"——这是 DiD 分析的关键对照组。
SOV 趋势作为工具变量。 CitationGraph 的 AI 答案引文监控(Citation SOV)提供了一个独特的工具变量:品牌在 AI 答案中的引用率变化。这个变化既受 GEO 行动影响,又是独立于广告投放的——满足工具变量的排他性条件。
数据完整性。 因果分析对数据质量极敏感——缺失数据会导致估计偏差。CitationGraph 的多层级可见度(从客户端到服务器端)确保了尽可能完整的 AI 来源数据——这是因果分析的基础。
#### 终极问题的回答
回到系列的起点:效果营销负责人说"不知道该如何计算产出"。
用 CitationGraph 的五级因果证据阶梯,他现在可以这样回答 CFO:
C0 级回答:"我们看到 AI 来源每月为品牌带来 X 次引文推荐、Y 次 Web 访问、Z 个 App Install。"
C1 级回答:"AI 来源的用户 KYC 完成率比广告来源的高 15%,首次入金金额高 22%——这是更高质量的用户群体。"
C2 级回答:"在我们发布 GEO 优化内容后的 4 周内,AI 来源注册量增长了 X%,超出了同期整体市场增长率。"
C3 级回答:"双重差分分析显示,做了 GEO 优化的产品线,AI 来源注册量增长显著超过未优化的对照产品线,差异为 Y%(p < 0.05)。"
C4 级回答:"我们做了 6 周的 Geo Lift 实验。在停止 GEO 投入的对照地区,AI 来源注册量下降了 Z%。恢复投入后回升。GEO 的增量 ROI 为 W:1。"
从 C0 到 C4,每一级都比上一级更有说服力。而这条路径,从今天开始部署 CitationGraph 就可以走起来。
#### 核心论点
检测 AI 流量是第一步,但远不是终点。效果营销团队需要的不是更多数据——是更高级别的证据。从观测相关(C0)到受控实验因果证明(C4),需要五级台阶。CitationGraph 的因果证据阶梯让这条路径从"学术方法论"变成"产品功能"——任何品牌都可以渐进式地从 C0 走到 C4,用 CFO 能接受的证据水平论证 AI/GEO 投入的价值。
A: 这取决于你想检测的效应大小。一般而言,如果 AI 来源每月有 1,000+ 转化事件(注册、订单等),4-6 周的实验窗口就足以检测 10-15% 级别的增量效应。流量越大、实验窗口越长,能检测的效应越小。CitationGraph 在实验设计阶段会提供统计功效分析,确保实验有足够的检验力。
A: 可以。Holdout 实验可以在产品线维度分割(对部分产品线暂停 GEO 优化)。时间序列分析(C2 级)也不需要地理分割——只需要足够长的时间线和一个明确的干预事件。C3 级的 DiD 可以用"产品线"或"内容主题"作为分割维度。
A: CitationGraph 的因果验证报告专门为非技术决策者设计——核心输出是一个数字:"停止 GEO 投入后,AI 来源注册量预计下降 X%(95% 置信区间:Y%-Z%)。"配合 ROI 换算:"每投入 $1 GEO 费用,产生 $W 的增量收入。"CFO 不需要理解 DiD 或 IV——他需要一个可签字的数字。