AI crawler는 모두 같은 목적이 아닙니다
GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot, Google-Extended는 이름은 비슷해도 목적이 다릅니다. 어떤 것은 모델 학습과 관련되고, 어떤 것은 검색 색인이나 사용자 요청 기반 fetch와 관련됩니다. 따라서 모두를 한꺼번에 허용하거나 차단하는 방식은 위험합니다.
GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot, Google-Extended는 이름은 비슷해도 목적이 다릅니다. 어떤 것은 모델 학습과 관련되고, 어떤 것은 검색 색인이나 사용자 요청 기반 fetch와 관련됩니다. 따라서 모두를 한꺼번에 허용하거나 차단하는 방식은 위험합니다.
User-Agent, IP 검증, 요청 경로, 상태 코드, robots 준수 여부, cache hit, 응답 시간, 403/404 비율을 함께 봐야 합니다. AI crawler가 공개 페이지는 읽지 못하고 내부 API만 두드리는 상황이라면 discovery signal이 아니라 noisy automation일 수 있습니다.
검색과 사용자 요청 기반 crawler는 공개 콘텐츠 접근을 보장하고, 모델 학습 crawler는 회사 정책에 따라 observe 또는 제한할 수 있습니다. 내부 API, 관리자 경로, panel, checkout, 개인정보 관련 경로는 crawler 그룹과 무관하게 차단해야 합니다.
GEO 관점에서는 crawler 허용 자체가 목표가 아닙니다. 올바른 crawler가 올바른 공개 근거 페이지를 읽고, 그 결과 AI 답변과 referral에 어떤 영향을 주는지 측정하는 것이 핵심입니다.