品牌在 AI 搜索中的可见度,受四层机制共同控制:robots.txt 管的是"爬虫能不能抓取这个页面";WAF / 防火墙规则管的是"请求能不能到达服务器";llms.txt 管的是"AI 系统应该优先读哪些页面";而 AI 平台是否引用你的内容,取决于内容质量和信息结构,不受前三层直接控制。
搞混这四层,轻则浪费技术资源,重则把自己的公开页面从 AI 视野里屏蔽掉而不自知。
---
robots.txt 是放在网站根目录的纯文本文件,告诉爬虫"哪些路径可以抓,哪些不能抓"。这是互联网上最古老的爬虫管理协议,Google、百度、Bing 的爬虫都遵守它。
AI 相关的爬虫(比如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、Google 的 Google-Extended)通常也会尊重 robots.txt 的规则。
robots.txt 能做的事:
robots.txt 做不到的事:
WAF(Web Application Firewall)在 robots.txt 之前生效。它在网络层面决定一个请求是否能到达你的服务器。
常见场景:
WAF 白名单需要关注的 AI 爬虫包括:
需要注意:将 AI 爬虫加入 WAF 白名单,意味着允许它们访问你的服务器。这和允许它们引用你的内容是两回事。白名单解决的是"访问权",不是"引用权"。
llms.txt 不是准入控制机制。它的作用是"信息导航"——告诉 AI 系统,如果你想了解这个品牌,最应该优先读的页面是哪些。
打个比方:robots.txt 是门卫,决定你能不能进大楼;llms.txt 是大堂的导航牌,告诉你最重要的办公室在哪一层。
llms.txt 的典型内容:
目前 llms.txt 是一个社区推动的规范,还没有被所有 AI 平台正式采纳。但考虑到它的部署成本极低(就是一个文本文件),先做好是明智的。
最后一层完全不在品牌的直接控制范围内。AI 模型决定在回答中引用哪些信息,取决于:
这一层品牌无法直接操控,但可以通过前三层的合理配置 + 内容质量提升来提高被引用的概率。
---
`` 用户向 AI 提问 ↓ AI 系统发起检索 ↓ WAF / CDN ← 请求能否到达服务器? ↓ (通过) robots.txt ← 爬虫是否被允许抓取? ↓ (允许) 页面内容被抓取 ↓ llms.txt ← 提供信息优先级指引 ↓ AI 模型决策 ← 是否在回答中引用? ``
四层是顺序关系。如果第一层(WAF)就把请求拦截了,后面三层全部失效。如果第二层(robots.txt)禁止了抓取,内容就不会进入新的检索结果。如果第三层(llms.txt)指引得好,模型更容易找到核心信息。第四层(AI 引用)是最终的、不可直接控制的结果。
---
错误一:WAF 把所有 Bot 一刀切拦截。 开启了"全面 Bot 防护"功能,把 AI 爬虫一起拦截了。结果品牌的公开页面对 AI 系统完全不可见。解决方法:在 WAF 中按 User-Agent 做白名单,只放行已知的、可信的 AI 爬虫。
错误二:robots.txt 屏蔽了不该屏蔽的路径。 有些品牌为了"保护内容",在 robots.txt 里屏蔽了博客、案例页甚至服务页。这会导致 AI 爬虫无法获取这些公开内容,大大降低品牌在 AI 搜索中的可见度。公开的、面向用户的页面应该保持可抓取。
错误三:以为 robots.txt 可以阻止 AI 引用。 robots.txt 只能阻止爬虫抓取,不能阻止已经进入训练数据的内容被引用。如果品牌信息已经存在于 Common Crawl 等公开数据集中,屏蔽 robots.txt 并不能阻止 AI 引用那些历史数据。
错误四:没有部署 llms.txt,指望 AI 自己找到重要页面。 AI 模型在检索时需要判断哪些页面最能代表品牌。如果没有 llms.txt 指引,模型可能抓到一篇无关紧要的博客文章,而忽略了最重要的品牌定义页和服务页。
错误五:混淆"用户触发的 AI 检索"和"训练数据抓取"。 用户在 DeepSeek 里搜索时触发的实时检索,和 AI 公司定期爬取网页用于训练模型,是两种不同的抓取行为。前者是即时的、按需的;后者是批量的、周期性的。robots.txt 和 WAF 对两者都有影响,但影响方式不同。
---
基于重力科技自身的实践经验,以下是一个适用于大多数品牌的配置参考:
应该保持可抓取的路径:
应该屏蔽的路径:
WAF 白名单建议:
---
几个简单的检查方法:
重力科技提供 AI 搜索可见度诊断,可以帮助品牌系统性地检查这些配置是否到位。
---
AI 搜索可见度不是只取决于内容好不好——如果爬虫进不了门,内容再好也没用。把 WAF 白名单、robots.txt 规则、llms.txt 导航和内容质量这四层都做对,才是完整的 AI 可见度基础。
---
Q1: 如果我不想让 AI 引用我的内容,能完全阻止吗? A: 很难做到 100%。你可以通过 robots.txt 阻止新的抓取,但已进入训练数据的内容无法追回。部分平台提供内容排除申请机制,但处理周期和效果因平台而异。
Q2: llms.txt 是强制标准吗? A: 目前不是。它是社区推动的规范,还在演进中。但部署成本极低,先做好不会有坏处。
Q3: robots.txt 里的 Crawl-delay 对 AI 爬虫有效吗? A: 部分爬虫尊重 Crawl-delay,但不是所有。如果爬虫请求量过大影响服务器性能,更有效的方式是在 WAF 层面做速率限制。
Q4: DeepSeek 和 Kimi 的爬虫 User-Agent 是什么? A: 中国 LLM 平台公开 crawler 文档和可验证 IP 信息相对有限。建议通过服务器日志分析识别来自这些平台的请求特征,或联系平台获取官方信息。
Q5: 我的网站用了 Cloudflare,需要特殊配置吗? A: 需要检查 Cloudflare 的 Bot Fight Mode 和 Super Bot Fight Mode 设置。默认配置可能会拦截 AI 爬虫。建议在 WAF 规则中为已知 AI 爬虫设置放行规则。
Q6: sitemap 对 AI 爬虫有用吗? A: 有用。sitemap 帮助爬虫发现你的页面结构。在 robots.txt 里指定 sitemap 位置,并确保 sitemap 内容是最新的。
**Q7: 品牌权威事实文件(/ai/*.md)为什么要公开?** A: 因为 AI 系统需要可以直接读取这些文件来获取品牌事实。如果文件被屏蔽或需要登录才能访问,AI 就读不到。这些文件本身就是设计给 AI 消费的公开参考资料。
Q8: 配置做对了,品牌就一定会被 AI 引用吗? A: 不能保证。配置做对是前提条件,不是充分条件。最终是否被引用,还取决于内容质量、信息一致性、竞争环境等多种因素。
---