GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot et Google-Extended ont des noms proches mais des finalités différentes. Certains sont liés à l’entraînement de modèles, d’autres à l’indexation de recherche ou à des fetchs déclenchés par l’utilisateur. Les autoriser ou bloquer en bloc est risqué.
User-Agent, vérification IP, chemins demandés, codes de statut, respect de robots, cache hit, temps de réponse et taux de 403/404 doivent être analysés ensemble. Si un crawler IA ne peut pas lire les pages publiques mais touche les APIs internes, il s’agit plutôt de noisy automation que d’un signal de découverte.
Les crawlers liés à la recherche et aux requêtes utilisateur doivent pouvoir accéder aux contenus publics. Les crawlers d’entraînement peuvent être observés ou limités selon la politique de l’entreprise. APIs internes, chemins admin, panels, checkout et données personnelles doivent être bloqués quel que soit le groupe crawler.
Du point de vue GEO, autoriser un crawler n’est pas l’objectif final. Le point clé est que le bon crawler lise les bonnes pages publiques de preuve, puis de mesurer l’impact sur les réponses IA et les referrals.
Obtenez un audit gratuit de recherche IA pour comprendre la visibilité de votre marque dans les réponses IA.
Audit gratuit de recherche IA