你的服务器日志里出现了两条请求。
第一条:User-Agent 是 GPTBot/1.0,请求路径是 /products/solar-panel-400w,来自 OpenAI 的 IP 段。
第二条:User-Agent 是 ChatGPT-User/1.0,请求路径同样是 /products/solar-panel-400w,同样来自 OpenAI 的 IP 段。
在 GA4 中,这两条请求都不可见——因为 GA4 依赖客户端 JavaScript,AI 爬虫不执行 JS。在 GSC 中,它们也不可见——GSC 的 AI 报告只追踪 Google 自家的 AI 功能。在大多数分析工具中,它们要么被忽略,要么被笼统地归为「bot 流量」。
但这两条请求的商业含义完全不同。
GPTBot 来是为了训练模型。 它在系统性地抓取你的产品页面,把内容纳入 OpenAI 的训练数据集。这是一个长期信号——你的内容正在被纳入 AI 的知识库,未来 AI 回答用户问题时可能会用到。但这不意味着现在有用户在问关于你的问题。
ChatGPT-User 来是因为有用户正在对话中让 ChatGPT 帮他了解你。 这是一个实时的、高意图的商业信号——有一个真实的人正在和 ChatGPT 对话,ChatGPT 认为你的产品页面能帮助回答用户的问题,于是实时访问了你的网站来获取最新信息。
前者的直接商业价值很低(长期品牌资产的间接贡献)。后者则代表一个高意图潜在客户正在了解你的产品。
如果你的分析系统不能区分这两种爬虫,你就在用同一个指标衡量完全不同的商业信号。
基于 OpenAI、Anthropic、Google 和其他 AI 平台的官方文档,AI 爬虫的访问可以被分为五种意图类型。这不是理论分类——每种意图对应不同的官方 User-Agent 标识符,可以通过服务端日志分析精确识别。
代表爬虫:GPTBot (OpenAI)、ClaudeBot (Anthropic)、Meta-ExternalAgent (Meta)、GoogleOther (Google)、Bytespider (字节跳动)、CCBot (Common Crawl)
目的:系统性抓取网站内容,纳入模型训练数据集。这类爬虫的特征是高频率、广覆盖、不关注实时性——它们在做数据采集,不是在回答用户问题。
商业价值:长期基础价值。你的内容被纳入训练数据,意味着 AI 模型在未来回答相关问题时可能「知道」你的品牌和产品。但这是间接的、长期的——你无法从一次 training 爬取中追踪到一笔订单。
品牌行动:确保 robots.txt 允许你希望被训练的内容被抓取。控制内容质量——被训练的内容如果有错误信息,AI 模型可能会传播这些错误。考虑使用 llms.txt 提供结构化的品牌知识。
代表爬虫:FacebookExternalHit/Facebot (Meta)、各平台的搜索索引爬虫
目的:为 AI 搜索引擎建立索引,类似于传统搜索引擎的 Googlebot 抓取。不同于 Training 的是,Indexing 更关注页面的结构化元素(title、description、Schema、Open Graph),而不是全文内容。
商业价值:基础设施价值。被索引是被推荐的前提。如果 AI 搜索引擎没有索引你的页面,它就无法在搜索结果中推荐你。但被索引本身不等于被推荐。
品牌行动:确保关键页面的 Schema 完整、meta tags 准确、Open Graph 标签正确。这是 AI 可发现性的基础层。
代表爬虫:OAI-SearchBot (OpenAI)、PerplexityBot (Perplexity)、Claude-SearchBot (Anthropic)、Google-CloudVertexBot (Google)、YisouSpider (中国)
目的:AI 搜索引擎在处理用户的搜索查询时,实时抓取相关页面来验证、补充或更新搜索结果。这类爬虫的特征是目标精准——它们不是在做全站扫描,而是在抓取与特定查询相关的特定页面。
商业价值:中高价值。一个 Search 类爬虫的访问意味着有用户正在通过 AI 搜索引擎搜索与你的页面相关的主题。这是一个市场需求信号——有人在寻找你所在品类的产品或信息。
品牌行动:优化页面的 Answer-First 结构——确保页面在前 200 个字符内就包含对目标查询的直接回答。优化 FAQ 结构。确保价格、库存等关键信息是实时更新的。
代表爬虫:ChatGPT-User (OpenAI)、Claude-User/Claude-Web (Anthropic)、meta-externalfetcher (Meta)、Perplexity-User
目的:用户在与 AI 对话的过程中,要求 AI 帮他访问或了解一个特定页面。AI 平台代用户实时抓取这个页面,将内容整合到对话回复中。
商业价值:高价值。这是最接近「人类访问」的 AI 行为。一个真实的人正在对话中主动要求 AI 帮他了解你——他可能正在比较你和竞品的产品,可能在查看你的退货政策,可能在确认你的价格。这是一个高意图信号。
品牌行动:确保关键转化页面(产品详情、价格页、政策页)的内容对 AI 友好——结构化、准确、实时更新。在这些页面上包含明确的 CTA(行动号召),因为 AI 可能会把你的 CTA 包含在给用户的回复中。
代表爬虫:Google-Agent (Google)、Manus-User (Manus)、NovaAct (Amazon)
目的:AI Agent 代用户执行具体操作——填写表单、发起查询、比较价格、甚至完成购买流程。这是 Agentic Commerce 的前沿,目前仍处于早期阶段。
商业价值:最高价值。一个 User Action 类的 AI 访问意味着有用户正在让 AI 代他在你的网站上做事。这不只是了解——这是行动。随着 AI Agent 能力的增强和 Agentic Commerce 协议(如 Google/Shopify 主导的 UCP — Universal Commerce Protocol、OpenAI/Stripe 主导的 ACP — Agentic Commerce Protocol)的落地,这一层的商业价值会指数增长。
品牌行动:确保页面结构化数据完整、表单可被程序化访问、价格和库存 API 可用。这是为 Agentic Commerce 做准备的基础工作。
training ——→ indexing ——→ search ——→ user_fetch ——→ user_action 长期 基础 中高 高 最高 ← 商业价值递增 →
这不是线性增长——从 search 到 user_fetch 的价值跳跃是最显著的,因为这代表了从「AI 生态关注你」到「具体用户正在了解你」的质变。
GA4 是客户端分析工具——它只在用户的浏览器中运行。AI 爬虫不是浏览器,不执行 JavaScript,所以在 GA4 的世界中完全不存在。GA4 无法区分 AI 爬虫意图,因为它根本看不到 AI 爬虫。
GSC 的 AI 报告只追踪 Google 自家 AI 功能的展示数据。它不追踪第三方 AI 爬虫的访问,也不做意图分类。
要实现爬虫意图分类,需要三个条件:
Gravity 的 CitationGraph 平台提供基于爬虫意图的智能分类能力,覆盖主流 AI 平台的爬虫识别。
理解了五种意图之后,品牌可以制定更精准的 GEO 策略:
意图 | 你应该做什么 | 你可以停止做什么 |
|---|---|---|
Training | 提供准确的品牌事实、使用 llms.txt | 不需要针对训练爬虫优化页面速度 |
Indexing | 确保 Schema、meta tags、Open Graph 完整 | 不需要为索引爬虫提供实时数据 |
Search | 优化 Answer-First 内容、FAQ 结构 | 不需要担心 search 爬虫的频率 |
大多数品牌的 robots.txt 对 AI 爬虫要么全部允许、要么全部禁止。基于意图分类,更聪明的做法是差异化:
# 允许 search 和 user_fetch 类爬虫(直接商业价值) User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Claude-SearchBot Allow: / # 允许 training 类爬虫访问品牌核心页面,限制非核心内容 User-agent: GPTBot Allow: /products/ Allow: /about/ Allow: /faq/ Disallow: /internal/ Disallow: /staging/
当然,这只是一个起点。具体策略需要根据品牌的业务目标和 AI 流量数据来调整。
理论拆解完成。下一篇进入实操:一个 DTC 品牌如何从「GA4 中 AI 流量 0.5%」升级到「完整视图下 AI 影响 8-12%」的四级监测架构。
A: 通过 User-Agent 字段匹配。OpenAI 的爬虫有三种标准 UA:GPTBot(training)、OAI-SearchBot(search)、ChatGPT-User(user_fetch)。Anthropic 有 ClaudeBot(training)、Claude-SearchBot(search)、Claude-User(user_fetch)。Google 有 GoogleOther(training)、Google-CloudVertexBot(search)、Google-Agent(user_action)。这些 UA 标识符都是各平台官方公布的。
A: 主要是长期影响。你的内容被纳入训练数据后,AI 模型在未来回答相关问题时可能会「知道」你的品牌。如果训练数据中你的品牌描述不准确(过时的产品信息、错误的价格等),AI 可能会传播这些错误。因此,确保被训练的内容准确是最重要的品牌行动。
A: 最大的区别是:user_fetch 不会触发 GA4。它是 AI 代用户访问你的页面,不执行 JavaScript,不创建会话。但它代表的商业信号和人类访问一样强——因为背后确实有一个真实的人在主动了解你。从商业价值的角度,user_fetch 应该被视为「高质量的准人类访问」。
A: 还处于早期阶段。Google-Agent 是目前最常见的 user_action 类爬虫,主要出现在 Google Gemini 的 Agent 功能中。Manus-User 和 NovaAct 代表了 AI Agent 操作的新兴趋势。虽然现在量级不大,但随着 Agentic Commerce 协议(UCP/ACP)的落地,这一层的增长将非常快。建议品牌现在就开始监测,建立基线数据。
A: 中国 AI 平台的 UA 标准不如 OpenAI/Anthropic/Google 那么规范和透明,但 Gravity 的 CitationGraph 平台已经覆盖了多个主流中国 AI 平台的爬虫识别。具体的意图分类需要结合行为分析来判断。
User Fetch
确保关键页面信息准确实时、包含 CTA |
需要监控哪些页面被 user_fetch 访问最多 |
User Action | 确保结构化数据和 API 可用 | 开始为 Agentic Commerce 做准备 |