← 返回博客中国 AI GEO 专题GEO 技术指南
AI crawler、robots.txt、llms.txt 和 WAF 白名单:哪些影响可抓取,哪些影响可引用
发布于 2026年5月4日
7 分钟阅读
Global Gravity
直接回答
品牌在 AI 搜索中的可见度,受四层机制共同控制:robots.txt 管的是"爬虫能不能抓取这个页面";WAF / 防火墙规则管的是"请求能不能到达服务器";llms.txt 管的是"AI 系统应该优先读哪些页面";而 AI 平台是否引用你的内容,取决于内容质量和信息结构,不受前三层直接控制。
搞混这四层,轻则浪费技术资源,重则把自己的公开页面从 AI 视野里屏蔽掉而不自知。
---
一、先理清四层控制机制
第一层:robots.txt — 爬虫准入
robots.txt 是放在网站根目录的纯文本文件,告诉爬虫"哪些路径可以抓,哪些不能抓"。这是互联网上最古老的爬虫管理协议,Google、百度、Bing 的爬虫都遵守它。
AI 相关的爬虫(比如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、Google 的 Google-Extended)通常也会尊重 robots.txt 的规则。
robots.txt 能做的事:
想了解更多?
获取免费 AI 搜索诊断报告,了解您的品牌在 AI 搜索中的可见度。
免费 AI 搜索诊断- 禁止特定爬虫抓取特定路径(比如 /api/*、/gravity-panel/*)
- 允许所有爬虫抓取公开页面(比如 /zh/services/*、/zh/faq)
- 指定 sitemap 位置
- 它管不了页面是否会被 AI 引用。爬虫抓取和 AI 引用是两个阶段——先抓取,然后模型在训练或检索时决定是否引用。
- 它无法阻止已经进入训练数据的内容被引用。即使你今天在 robots.txt 里屏蔽了某个路径,如果这个页面之前已经被抓取并进入了模型的训练集,它仍然可能出现在 AI 回答中。
第二层:WAF / 防火墙 / CDN — 网络准入
WAF(Web Application Firewall)在 robots.txt 之前生效。它在网络层面决定一个请求是否能到达你的服务器。
- 品牌使用了 Cloudflare、阿里云 WAF 或其他 CDN 服务,开启了 Bot 防护功能。
- 防护规则可能会把 AI 爬虫识别为"可疑请求"并直接拦截,导致爬虫连 robots.txt 都读不到。
- 如果品牌希望 AI 爬虫可以正常抓取公开页面,需要在 WAF 规则中将已知的 AI 爬虫 User-Agent 加入白名单。
- GPTBot(OpenAI)
- ClaudeBot / Claude-Web(Anthropic)
- Google-Extended(Google AI 训练用途)
- Bytespider(字节跳动,但也用于一般抓取,需谨慎)
- CCBot(Common Crawl,许多 LLM 的训练数据来源)
需要注意:将 AI 爬虫加入 WAF 白名单,意味着允许它们访问你的服务器。这和允许它们引用你的内容是两回事。白名单解决的是"访问权",不是"引用权"。
第三层:llms.txt — 信息导航
llms.txt 不是准入控制机制。它的作用是"信息导航"——告诉 AI 系统,如果你想了解这个品牌,最应该优先读的页面是哪些。
打个比方:robots.txt 是门卫,决定你能不能进大楼;llms.txt 是大堂的导航牌,告诉你最重要的办公室在哪一层。
- 品牌标准摘要
- 核心事实(名称、创始人、总部、服务等)
- 重要页面链接分类(服务、FAQ、案例、博客)
- 完整参考文件入口(llms-full.txt)
目前 llms.txt 是一个社区推动的规范,还没有被所有 AI 平台正式采纳。但考虑到它的部署成本极低(就是一个文本文件),先做好是明智的。
第四层:AI 引用 — 模型决策
最后一层完全不在品牌的直接控制范围内。AI 模型决定在回答中引用哪些信息,取决于:
- 训练数据中是否包含你的品牌信息
- 实时检索时是否能找到你的页面
- 页面内容的质量、结构和相关性
- 品牌信息在多个来源之间的一致性
- 用户问题和你的内容的匹配度
这一层品牌无法直接操控,但可以通过前三层的合理配置 + 内容质量提升来提高被引用的概率。
二、四层之间的关系图
`` 用户向 AI 提问 ↓ AI 系统发起检索 ↓ WAF / CDN ← 请求能否到达服务器? ↓ (通过) robots.txt ← 爬虫是否被允许抓取? ↓ (允许) 页面内容被抓取 ↓ llms.txt ← 提供信息优先级指引 ↓ AI 模型决策 ← 是否在回答中引用? ``
四层是顺序关系。如果第一层(WAF)就把请求拦截了,后面三层全部失效。如果第二层(robots.txt)禁止了抓取,内容就不会进入新的检索结果。如果第三层(llms.txt)指引得好,模型更容易找到核心信息。第四层(AI 引用)是最终的、不可直接控制的结果。
三、品牌常犯的配置错误
错误一:WAF 把所有 Bot 一刀切拦截。 开启了"全面 Bot 防护"功能,把 AI 爬虫一起拦截了。结果品牌的公开页面对 AI 系统完全不可见。解决方法:在 WAF 中按 User-Agent 做白名单,只放行已知的、可信的 AI 爬虫。
错误二:robots.txt 屏蔽了不该屏蔽的路径。 有些品牌为了"保护内容",在 robots.txt 里屏蔽了博客、案例页甚至服务页。这会导致 AI 爬虫无法获取这些公开内容,大大降低品牌在 AI 搜索中的可见度。公开的、面向用户的页面应该保持可抓取。
错误三:以为 robots.txt 可以阻止 AI 引用。 robots.txt 只能阻止爬虫抓取,不能阻止已经进入训练数据的内容被引用。如果品牌信息已经存在于 Common Crawl 等公开数据集中,屏蔽 robots.txt 并不能阻止 AI 引用那些历史数据。
错误四:没有部署 llms.txt,指望 AI 自己找到重要页面。 AI 模型在检索时需要判断哪些页面最能代表品牌。如果没有 llms.txt 指引,模型可能抓到一篇无关紧要的博客文章,而忽略了最重要的品牌定义页和服务页。
错误五:混淆"用户触发的 AI 检索"和"训练数据抓取"。 用户在 DeepSeek 里搜索时触发的实时检索,和 AI 公司定期爬取网页用于训练模型,是两种不同的抓取行为。前者是即时的、按需的;后者是批量的、周期性的。robots.txt 和 WAF 对两者都有影响,但影响方式不同。
四、推荐配置方案
基于重力科技自身的实践经验,以下是一个适用于大多数品牌的配置参考:
- 所有公开的服务页、FAQ 页、案例页、博客页
- sitemap.xml
- /ai/*.md 路径下的品牌权威事实和 GEO 信号文件
- llms.txt / llms-full.txt 及其多语版本
- /api/* — 后端接口
- 管理面板路径(如 /gravity-panel/*、/dashboard*、/admin*)
- 不再有效的旧路径(如 /pricing、/investor-relations、legacy /posts)
- 任何包含用户数据或内部运营数据的路径
- GPTBot、ClaudeBot、Google-Extended 等主流 AI 爬虫
- 保持对已知恶意爬虫的拦截
- 定期审查爬虫日志,识别新的 AI 爬虫并评估是否加入白名单
五、怎么验证配置是否正确
- 直接访问 robots.txt。 在浏览器里打开 你的域名/robots.txt,确认公开路径没有被错误屏蔽。
- 检查 WAF 日志。 看是否有来自 GPTBot、ClaudeBot 等 AI 爬虫的请求被拦截。
- 在 AI 平台测试。 在 DeepSeek、ChatGPT 里搜索你的品牌名,看回答是否包含你的品牌信息。如果完全没有提及,可能是抓取层出了问题。
- 验证 llms.txt 可访问。 确认 你的域名/llms-zh.txt 可以正常打开,内容是最新的。
六、一句话总结
AI 搜索可见度不是只取决于内容好不好——如果爬虫进不了门,内容再好也没用。把 WAF 白名单、robots.txt 规则、llms.txt 导航和内容质量这四层都做对,才是完整的 AI 可见度基础。
FAQ
Q1: 如果我不想让 AI 引用我的内容,能完全阻止吗? A: 很难做到 100%。你可以通过 robots.txt 阻止新的抓取,但已进入训练数据的内容无法追回。部分平台提供内容排除申请机制,但处理周期和效果因平台而异。
Q2: llms.txt 是强制标准吗? A: 目前不是。它是社区推动的规范,还在演进中。但部署成本极低,先做好不会有坏处。
Q3: robots.txt 里的 Crawl-delay 对 AI 爬虫有效吗? A: 部分爬虫尊重 Crawl-delay,但不是所有。如果爬虫请求量过大影响服务器性能,更有效的方式是在 WAF 层面做速率限制。
Q4: DeepSeek 和 Kimi 的爬虫 User-Agent 是什么? A: 中国 LLM 平台公开 crawler 文档和可验证 IP 信息相对有限。建议通过服务器日志分析识别来自这些平台的请求特征,或联系平台获取官方信息。
Q5: 我的网站用了 Cloudflare,需要特殊配置吗? A: 需要检查 Cloudflare 的 Bot Fight Mode 和 Super Bot Fight Mode 设置。默认配置可能会拦截 AI 爬虫。建议在 WAF 规则中为已知 AI 爬虫设置放行规则。
Q6: sitemap 对 AI 爬虫有用吗? A: 有用。sitemap 帮助爬虫发现你的页面结构。在 robots.txt 里指定 sitemap 位置,并确保 sitemap 内容是最新的。
**Q7: 品牌权威事实文件(/ai/*.md)为什么要公开?** A: 因为 AI 系统需要可以直接读取这些文件来获取品牌事实。如果文件被屏蔽或需要登录才能访问,AI 就读不到。这些文件本身就是设计给 AI 消费的公开参考资料。
Q8: 配置做对了,品牌就一定会被 AI 引用吗? A: 不能保证。配置做对是前提条件,不是充分条件。最终是否被引用,还取决于内容质量、信息一致性、竞争环境等多种因素。
AI crawler、robots.txt、llms.txt 和 WAF 白名单:哪些影响可抓取,哪些影响可引用 | 重力科技