为什么数 AI Agent 数量是虚荣指标：AIAA 才是正确度量

AI 搜索正在重塑电商。Shopify 2026 年第一季度财报显示，来自 AI 搜索的订单同比增长约 13 倍；BrightEdge 2026 年 4 月研究报告显示，AI Agent 活动已占网站总流量的约 15%，达到人类自然搜索量的 88%。

面对这些数据，大多数团队本能地会问一个问题：「我们有多少个 AI Agent 在访问？」

这个问题听起来合理，但它会把你带到错误的方向。

Agent 身份从根本上是不稳定的

一个 AI 平台——以 ChatGPT 为例——至少会用四种不同的身份访问你的网站。GPTBot 作为爬虫抓取你的产品页面，但不会执行 JavaScript，不会携带 session cookie，不会被 GA4 记录为一个会话。ChatGPT-User 以浏览器模式访问你的退货政策页，可能执行部分 JS，但 User-Agent 和 GPTBot 完全不同。当用户在 ChatGPT 对话中点击你的链接，这又是一个带 referrer 的常规浏览器会话。而如果你开放了 API 或 MCP 端点，ChatGPT 还会通过服务端 tool-calling 直接读取你的结构化数据。

这是 1 个 Agent 还是 4 个？没有稳定的答案。

User-Agent 字符串只能识别部分爬虫身份。反向 DNS 只对有固定 IP 段的平台有效。Referrer header 只在用户点击场景下存在。IP 地址会变化，代理会混淆。每种方法只能观察到一个碎片，没有任何一种方法能可靠地等同于"一个 Agent 实例"。

BrightEdge 的数据进一步加深了这个问题的复杂性：在所有 AI Agent 流量中，95% 来自 OpenAI 系统。如果你的"Active Agents"指标读数是 1，但这个"1"贡献了你 15% 的服务器请求，这个指标到底在告诉你什么？

Perplexity 的例子

Perplexity 的情况更加说明问题。它的爬虫 PerplexityBot 会抓取你的页面来构建知识库。但用户在 Perplexity 上搜索时，系统还会通过独立的 fetch 请求实时验证信息——这是第二种访问身份。如果用户点击了 Perplexity 搜索结果中的引用链接，这是第三种——一个人类浏览器访问。三种访问，商业价值完全不同：爬虫访问是机器行为，实时 fetch 是 AI 系统验证，引用点击才是真正的人类到达。但在"Active Agents"指标下，它们可能被记为 1 个 Agent，也可能被记为 3 个，取决于你的识别逻辑。

Gemini 和 Claude 的复杂性

Google Gemini 更复杂。GoogleOther 爬虫、Google-Extended 爬虫、Gemini 应用内的浏览模式、Google AI Overviews 中的引用——每个都是不同的访问路径，但都属于"Google AI 系统"。你是把它们算作 1 个 Agent 还是 4 个？无论怎么选，"Active Agents"这个数字的含义都不稳定。

Claude 的 Anthropic 爬虫（ClaudeBot）和 Claude 用户通过对话中的 browse 功能访问网站，身份也完全不同。前者可以被 robots.txt 控制，后者更接近真人浏览器行为。

数量不等于价值

一个 Agent 一天可以对你的产品目录发起 1,000 次读取请求。但如果这些请求没有产生任何人类访问，没有带来任何订单，商业价值就是零。

反过来，一个用户在 Perplexity 上研究你的产品，点击引用链接来到你的网站，浏览了三个产品页面，最终下了一单——这是 1 个 Agent、1 次访问，但它产生了真实的收入。

如果你的北极星指标是"Active Agents = 5"，你无法区分这两种场景。更麻烦的是，在实际监测中，Agent 爬虫请求的数量通常远大于真正带来人类访问的推荐流量。Adobe 的数据表明，2026 年第一季度 AI 推荐流量同比增长 393%，但仍然只占电商总流量的约 1%。而 BrightEdge 的数据显示 Agent 活动占总流量 15%。这意味着在"AI 流量"这个大类下，14% 是机器行为，只有 1% 是人类到达。用"Active Agents"来代表 AI 的商业影响，就像用快递单数量来代表一家公司的收入。

行业正在度量动作，而不是 Agent

看看正在形成的行业标准实际观察什么：

OpenTelemetry GenAI 语义约定定义了 invoke_agent、execute_tool 和 tool call 作为 trace/span 对象。它们度量的是执行动作，不是 Agent 数量。每个 span 有开始时间、结束时间、输入、输出、状态——都是动作级别的证据。

OpenAI Agents SDK 追踪 traces、spans 和 tool calls。一个 Agent 执行一个任务会产生一连串有因果关系的 spans，SDK 关心的是这个执行链是否成功完成、每一步做了什么决策，而不是"有几个 Agent 在运行"。

Agentic Commerce 协议也指向同一个方向：UCP（Universal Commerce Protocol）锚定在发现和目录查询上；ACP（Agentic Commerce Protocol）锚定在结账和支付执行上；AP2（Agent Payments Protocol）锚定在授权和审计链上。三个协议度量的都是事件——查询、加购、结账、退款、授权——没有一个度量"Active Agents"。

你应该度量什么：AIAA

我们提出一个更精确的指标：AI-Attributed Active Actions（AI 归因有效动作），简称 AIAA。

AIAA 不数有多少 AI 在动，它数的是有证据支撑的 AI 相关动作发生了多少，分布在五个层级：

第一层：Answer（应答）。AI 在回答用户问题时提到了你的品牌、引用了你的页面、或者吸收了你的产品信息。这是曝光层，可以通过 Share of Voice 采样观察，但不等于流量。

第二层：Request（请求）。AI Agent 直接访问了你的网站——爬取产品页、读取价格、检查库存或退货政策。这是机器行为层，BrightEdge 数据显示它占总流量约 15%。它的价值在于表明 AI 正在"关注"你的数据。

第三层：Visit（访问）。用户通过 AI 推荐链接到达了你的网站。这是人类到达层。Adobe 数据显示它同比增长 393%，但仍然只占总流量约 1%。它比 Request 层更有意义，但还不是转化。

第四层：Commerce（商业行为）。到达的访客在你的网站上产生了商业意图行为：产品浏览、加购、发起结账、完成购买。Shopify 数据显示，AI 目录搜索流量的转化率是普通 AI 搜索流量的约 2 倍。这一层开始产生真实的商业价值。

第五层：Attribution（归因）。一笔订单可以通过完整的证据链回溯到 AI 来源：AI referrer → 网站会话 → 订单。这是商业价值最高的层级，也是证据门槛最高的层级。

Active Agents 不是无用的——它应该是 AIAA 内部的一个分析维度（"谁在产生这些动作"），而不是北极星指标本身。当你的团队汇报"这个月 AIAA Visit 层增长了 120%"，比汇报"我们多了 3 个 AI Agent"有意义得多。前者告诉你商业结果在变化，后者告诉你一个可能不稳定、不可比较的数字在变化。

对中国出海企业的启示

对中国出海企业来说，AIAA 框架尤其关键。出海企业通常同时面对多个 AI 生态：ChatGPT 和 Perplexity 在北美市场、Gemini 在 Google 生态、DeepSeek 和豆包在国内市场、各区域本地 AI 搜索引擎。如果用"Active Agents"来衡量，你会得到一个无法跨市场比较的数字。但如果用 AIAA 分层衡量，你可以精确地看到：哪个市场的 AI Answer 层覆盖最强、哪个市场的 Visit 层转化最好、哪个市场的 Attribution 链路还没有打通。

这不是一个指标选择问题，而是一个决策质量问题。

下一篇预告

下一篇我们拆解 AIAA 的 5 层结构：每一层能告诉你什么，不能告诉你什么，以及为什么把爬虫请求、人类会话和收入放进一个"AI 流量"数字是错误的。

FAQ

Q1: 什么是 AIAA？

A: AIAA 是 AI-Attributed Active Actions（AI 归因有效动作）的缩写。它是一个五层度量框架，分别衡量 Answer（AI 应答中的品牌曝光）、Request（Agent 服务端请求）、Visit（人类到达）、Commerce（商业行为）和 Attribution（可归因收入），用有证据支撑的动作代替不稳定的 Agent 计数。

Q2: 为什么 Active Agents 不适合做北极星指标？

A: 因为 Agent 身份从根本上不稳定。一个 AI 平台（如 ChatGPT）会用多种身份访问你的网站——爬虫、用户浏览模式、referral 点击、API 调用——每种身份在你的日志里看起来都不一样。你没有可靠的方法把它们等同为"一个 Agent"。即使能识别，数量也不等于商业价值：1 个 Agent 可以发起 1,000 次无价值的爬取，也可以带来 1 笔高价值的订单。

Q3: AIAA 和 GA4 的"AI Assistants"渠道有什么区别？

A: GA4 的"AI Assistants"渠道组在 2026 年 3 月上线，但它只能捕获通过浏览器 referrer 识别的 AI 来源会话，大约只覆盖 AI 活动的 1%（Visit 层）。AIAA 的 Request 层（Agent 服务端请求，占 15%）和 Answer 层（AI 应答中的品牌提及）都不在 GA4 的观测范围内。AIAA 是跨层级、跨平台的完整度量框架。

Q4: 小团队可以从哪一层开始实施 AIAA？

A: 从 Visit 层开始。部署一个能识别 AI referrer 的一方 JS 脚本（L1 级别），你就能看到哪些 AI 来源正在带来真实的人类访问。这是最小可行的 AIAA 起步。下一步是部署 Edge Lite（L1.5 级别）来捕获 Request 层——通常会让你的 AI 活动可见度提升 200-500%。

Q5: AIAA 的数据需要什么技术基础设施？

A: 取决于你要覆盖的层级。Visit 层只需要一方 JS + referrer 解析。Request 层需要 Edge 或服务器日志分析。Commerce 层需要网站行为数据和电商平台（如 Shopify）的订单数据。Attribution 层需要把 AI 来源会话和订单做 join。Answer 层需要 AI 应答采样。Gravity 的 CitationGraph 平台可以覆盖全部 5 个层级。

Q6: 行业里有其他人在用类似 AIAA 的框架吗？

A: 还没有统一标准，但方向一致。OpenTelemetry GenAI 语义约定度量动作而非 Agent 数量。BrightEdge 的 AI Agent 报告也区分了 Agent 请求和人类流量。Adobe 的报告单独追踪 AI 推荐流量的转化率。Shopify 报告 AI 搜索订单而不是 AI Agent 数量。AIAA 把这些分散的行业实践统一成一个可操作的框架。

FAQ

Q1: 什么是 AIAA？

Q2: 为什么 Active Agents 不适合做北极星指标？

Q3: AIAA 和 GA4 的"AI Assistants"渠道有什么区别？

Q4: 小团队可以从哪一层开始实施 AIAA？

Q5: AIAA 的数据需要什么技术基础设施？

Q6: 行业里有其他人在用类似 AIAA 的框架吗？

为什么数 AI Agent 数量是虚荣指标：AIAA 才是正确度量

Agent 身份从根本上是不稳定的

Perplexity 的例子

Gemini 和 Claude 的复杂性

数量不等于价值

行业正在度量动作，而不是 Agent

你应该度量什么：AIAA

对中国出海企业的启示

下一篇预告

FAQ

Q1: 什么是 AIAA？

Q2: 为什么 Active Agents 不适合做北极星指标？

Q3: AIAA 和 GA4 的"AI Assistants"渠道有什么区别？

Q4: 小团队可以从哪一层开始实施 AIAA？

Q5: AIAA 的数据需要什么技术基础设施？

Q6: 行业里有其他人在用类似 AIAA 的框架吗？

相关文章

Paid + Organic 双轨策略：AI 搜索时代的品牌可见性架构

GEO 窗口期还有多久：为什么现在是建立自然可见性的最佳时机

OpenAI 的 IPO 与千亿美元广告野心：市场在赌什么

继续查看 AI 证据图

想了解更多？

为什么数 AI Agent 数量是虚荣指标：AIAA 才是正确度量

Agent 身份从根本上是不稳定的

Perplexity 的例子

Gemini 和 Claude 的复杂性

数量不等于价值

行业正在度量动作，而不是 Agent

你应该度量什么：AIAA

对中国出海企业的启示

下一篇预告

FAQ

Q1: 什么是 AIAA？

Q2: 为什么 Active Agents 不适合做北极星指标？

Q3: AIAA 和 GA4 的"AI Assistants"渠道有什么区别？

Q4: 小团队可以从哪一层开始实施 AIAA？

Q5: AIAA 的数据需要什么技术基础设施？

Q6: 行业里有其他人在用类似 AIAA 的框架吗？

相关文章

Paid + Organic 双轨策略：AI 搜索时代的品牌可见性架构

GEO 窗口期还有多久：为什么现在是建立自然可见性的最佳时机

OpenAI 的 IPO 与千亿美元广告野心：市场在赌什么

继续查看 AI 证据图

想了解更多？