AI 爬虫来了不都一样：五种意图决定五种商业价值

AI 爬虫来了不都一样：五种意图决定五种商业价值 | Gravity 创始人专栏

你的服务器日志里出现了两条请求。

第一条：User-Agent 是 GPTBot/1.0，请求路径是 /products/solar-panel-400w，来自 OpenAI 的 IP 段。

第二条：User-Agent 是 ChatGPT-User/1.0，请求路径同样是 /products/solar-panel-400w，同样来自 OpenAI 的 IP 段。

在 GA4 中，这两条请求都不可见——因为 GA4 依赖客户端 JavaScript，AI 爬虫不执行 JS。在 GSC 中，它们也不可见——GSC 的 AI 报告只追踪 Google 自家的 AI 功能。在大多数分析工具中，它们要么被忽略，要么被笼统地归为「bot 流量」。

但这两条请求的商业含义完全不同。

GPTBot 来是为了训练模型。 它在系统性地抓取你的产品页面，把内容纳入 OpenAI 的训练数据集。这是一个长期信号——你的内容正在被纳入 AI 的知识库，未来 AI 回答用户问题时可能会用到。但这不意味着现在有用户在问关于你的问题。

ChatGPT-User 来是因为有用户正在对话中让 ChatGPT 帮他了解你。 这是一个实时的、高意图的商业信号——有一个真实的人正在和 ChatGPT 对话，ChatGPT 认为你的产品页面能帮助回答用户的问题，于是实时访问了你的网站来获取最新信息。

前者的直接商业价值很低（长期品牌资产的间接贡献）。后者则代表一个高意图潜在客户正在了解你的产品。

如果你的分析系统不能区分这两种爬虫，你就在用同一个指标衡量完全不同的商业信号。

五种 AI 爬虫意图

基于 OpenAI、Anthropic、Google 和其他 AI 平台的官方文档，AI 爬虫的访问可以被分为五种意图类型。这不是理论分类——每种意图对应不同的官方 User-Agent 标识符，可以通过服务端日志分析精确识别。

意图一：Training（训练）

代表爬虫：GPTBot (OpenAI)、ClaudeBot (Anthropic)、Meta-ExternalAgent (Meta)、GoogleOther (Google)、Bytespider (字节跳动)、CCBot (Common Crawl)

目的：系统性抓取网站内容，纳入模型训练数据集。这类爬虫的特征是高频率、广覆盖、不关注实时性——它们在做数据采集，不是在回答用户问题。

商业价值：长期基础价值。你的内容被纳入训练数据，意味着 AI 模型在未来回答相关问题时可能「知道」你的品牌和产品。但这是间接的、长期的——你无法从一次 training 爬取中追踪到一笔订单。

品牌行动：确保 robots.txt 允许你希望被训练的内容被抓取。控制内容质量——被训练的内容如果有错误信息，AI 模型可能会传播这些错误。考虑使用 llms.txt 提供结构化的品牌知识。

意图二：Indexing（索引）

代表爬虫：FacebookExternalHit/Facebot (Meta)、各平台的搜索索引爬虫

目的：为 AI 搜索引擎建立索引，类似于传统搜索引擎的 Googlebot 抓取。不同于 Training 的是，Indexing 更关注页面的结构化元素（title、description、Schema、Open Graph），而不是全文内容。

商业价值：基础设施价值。被索引是被推荐的前提。如果 AI 搜索引擎没有索引你的页面，它就无法在搜索结果中推荐你。但被索引本身不等于被推荐。

品牌行动：确保关键页面的 Schema 完整、meta tags 准确、Open Graph 标签正确。这是 AI 可发现性的基础层。

意图三：Search（搜索）

代表爬虫：OAI-SearchBot (OpenAI)、PerplexityBot (Perplexity)、Claude-SearchBot (Anthropic)、Google-CloudVertexBot (Google)、YisouSpider (中国)

目的：AI 搜索引擎在处理用户的搜索查询时，实时抓取相关页面来验证、补充或更新搜索结果。这类爬虫的特征是目标精准——它们不是在做全站扫描，而是在抓取与特定查询相关的特定页面。

商业价值：中高价值。一个 Search 类爬虫的访问意味着有用户正在通过 AI 搜索引擎搜索与你的页面相关的主题。这是一个市场需求信号——有人在寻找你所在品类的产品或信息。

品牌行动：优化页面的 Answer-First 结构——确保页面在前 200 个字符内就包含对目标查询的直接回答。优化 FAQ 结构。确保价格、库存等关键信息是实时更新的。

意图四：User Fetch（用户获取）

代表爬虫：ChatGPT-User (OpenAI)、Claude-User/Claude-Web (Anthropic)、meta-externalfetcher (Meta)、Perplexity-User

目的：用户在与 AI 对话的过程中，要求 AI 帮他访问或了解一个特定页面。AI 平台代用户实时抓取这个页面，将内容整合到对话回复中。

商业价值：高价值。这是最接近「人类访问」的 AI 行为。一个真实的人正在对话中主动要求 AI 帮他了解你——他可能正在比较你和竞品的产品，可能在查看你的退货政策，可能在确认你的价格。这是一个高意图信号。

品牌行动：确保关键转化页面（产品详情、价格页、政策页）的内容对 AI 友好——结构化、准确、实时更新。在这些页面上包含明确的 CTA（行动号召），因为 AI 可能会把你的 CTA 包含在给用户的回复中。

意图五：User Action（用户操作）

代表爬虫：Google-Agent (Google)、Manus-User (Manus)、NovaAct (Amazon)

目的：AI Agent 代用户执行具体操作——填写表单、发起查询、比较价格、甚至完成购买流程。这是 Agentic Commerce 的前沿，目前仍处于早期阶段。

商业价值：最高价值。一个 User Action 类的 AI 访问意味着有用户正在让 AI 代他在你的网站上做事。这不只是了解——这是行动。随着 AI Agent 能力的增强和 Agentic Commerce 协议（如 Google/Shopify 主导的 UCP — Universal Commerce Protocol、OpenAI/Stripe 主导的 ACP — Agentic Commerce Protocol）的落地，这一层的商业价值会指数增长。

品牌行动：确保页面结构化数据完整、表单可被程序化访问、价格和库存 API 可用。这是为 Agentic Commerce 做准备的基础工作。

意图光谱与商业价值递增

training ——→ indexing ——→ search ——→ user_fetch ——→ user_action 长期基础中高高最高 ← 商业价值递增 →

这不是线性增长——从 search 到 user_fetch 的价值跳跃是最显著的，因为这代表了从「AI 生态关注你」到「具体用户正在了解你」的质变。

为什么 GA4 和 GSC 无法做到这种区分

GA4 是客户端分析工具——它只在用户的浏览器中运行。AI 爬虫不是浏览器，不执行 JavaScript，所以在 GA4 的世界中完全不存在。GA4 无法区分 AI 爬虫意图，因为它根本看不到 AI 爬虫。

GSC 的 AI 报告只追踪 Google 自家 AI 功能的展示数据。它不追踪第三方 AI 爬虫的访问，也不做意图分类。

要实现爬虫意图分类，需要三个条件：

服务端日志分析——直接读取 HTTP 请求中的 User-Agent 字段
官方 UA 标准库——比对 OpenAI、Anthropic、Google 等平台公布的官方 User-Agent 标识符
行为分析补充——对于不使用标准 UA 的爬虫，通过访问频率、路径模式、header 特征等进行二次判断

Gravity 的 CitationGraph 平台提供基于爬虫意图的智能分类能力，覆盖主流 AI 平台的爬虫识别。

基于意图的差异化 GEO 策略

理解了五种意图之后，品牌可以制定更精准的 GEO 策略：

意图	你应该做什么	你可以停止做什么
Training	提供准确的品牌事实、使用 llms.txt	不需要针对训练爬虫优化页面速度
Indexing	确保 Schema、meta tags、Open Graph 完整	不需要为索引爬虫提供实时数据
Search	优化 Answer-First 内容、FAQ 结构	不需要担心 search 爬虫的频率

robots.txt 的精细化策略

大多数品牌的 robots.txt 对 AI 爬虫要么全部允许、要么全部禁止。基于意图分类，更聪明的做法是差异化：

# 允许 search 和 user_fetch 类爬虫（直接商业价值） User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Claude-SearchBot Allow: / # 允许 training 类爬虫访问品牌核心页面，限制非核心内容 User-agent: GPTBot Allow: /products/ Allow: /about/ Allow: /faq/ Disallow: /internal/ Disallow: /staging/

当然，这只是一个起点。具体策略需要根据品牌的业务目标和 AI 流量数据来调整。

下一篇预告

理论拆解完成。下一篇进入实操：一个 DTC 品牌如何从「GA4 中 AI 流量 0.5%」升级到「完整视图下 AI 影响 8-12%」的四级监测架构。

FAQ

Q1: 如何在自己的服务器日志中识别不同意图的 AI 爬虫？

A: 通过 User-Agent 字段匹配。OpenAI 的爬虫有三种标准 UA：GPTBot（training）、OAI-SearchBot（search）、ChatGPT-User（user_fetch）。Anthropic 有 ClaudeBot（training）、Claude-SearchBot（search）、Claude-User（user_fetch）。Google 有 GoogleOther（training）、Google-CloudVertexBot（search）、Google-Agent（user_action）。这些 UA 标识符都是各平台官方公布的。

Q2: training 类爬虫对品牌有什么实际影响？

A: 主要是长期影响。你的内容被纳入训练数据后，AI 模型在未来回答相关问题时可能会「知道」你的品牌。如果训练数据中你的品牌描述不准确（过时的产品信息、错误的价格等），AI 可能会传播这些错误。因此，确保被训练的内容准确是最重要的品牌行动。

Q3: User_fetch 和普通的人类访问有什么区别？

A: 最大的区别是：user_fetch 不会触发 GA4。它是 AI 代用户访问你的页面，不执行 JavaScript，不创建会话。但它代表的商业信号和人类访问一样强——因为背后确实有一个真实的人在主动了解你。从商业价值的角度，user_fetch 应该被视为「高质量的准人类访问」。

Q4: User_action 类爬虫现在多吗？

A: 还处于早期阶段。Google-Agent 是目前最常见的 user_action 类爬虫，主要出现在 Google Gemini 的 Agent 功能中。Manus-User 和 NovaAct 代表了 AI Agent 操作的新兴趋势。虽然现在量级不大，但随着 Agentic Commerce 协议（UCP/ACP）的落地，这一层的增长将非常快。建议品牌现在就开始监测，建立基线数据。

Q5: 中国 AI 平台的爬虫也有意图分类吗？

A: 中国 AI 平台的 UA 标准不如 OpenAI/Anthropic/Google 那么规范和透明，但 Gravity 的 CitationGraph 平台已经覆盖了多个主流中国 AI 平台的爬虫识别。具体的意图分类需要结合行为分析来判断。