서버 로그에 두 request가 있다고 하자. 첫 번째는 GPTBot/1.0이 /products/solar-panel-400w를 요청했다. 두 번째는 ChatGPT-User/1.0이 같은 페이지를 요청했다. 둘 다 OpenAI IP range에서 왔다.
GA4에서는 둘 다 보이지 않는다. GA4는 client-side JavaScript를 실행하는 브라우저 세션을 전제로 하는데, AI crawler는 JavaScript를 실행하지 않는다. GSC에서도 보이지 않는다. GSC AI reports는 Google 자체 AI features의 노출만 다룬다. 대부분의 analytics tool은 이 요청들을 bot traffic으로 묶거나 제외한다.
하지만 둘의 상업적 의미는 다르다. GPTBot은 모델 학습용으로 콘텐츠를 수집할 가능성이 크다. 이는 장기적 지식 기반 신호다. 반면 ChatGPT-User는 실제 사용자가 대화 중 해당 정보를 요청했기 때문에 ChatGPT가 실시간으로 페이지를 가져오는 경우다. 이는 현재 발생한 고의도 상업 신호다.
공식 문서와 User-Agent 기준을 바탕으로 AI crawler 방문은 다섯 가지 의도로 나눌 수 있다.
1. Training. GPTBot, ClaudeBot, Meta-ExternalAgent, GoogleOther, Bytespider, CCBot 등이 대표적이다. 목적은 모델 학습 데이터 수집이다. 빈도가 높고 범위가 넓으며 실시간 정확성보다는 데이터 수집에 초점이 있다. 가치는 장기 기반 가치다. 브랜드는 robots.txt와 llms.txt를 정리하고, 학습되기를 원하는 브랜드 사실을 정확하게 유지해야 한다.
2. Indexing. AI 검색 엔진이 index를 만들기 위한 crawling이다. 전통 Googlebot과 유사하지만 Schema, title, description, Open Graph 같은 구조 요소를 더 강하게 본다. Indexing은 추천의 전제조건이지만 추천 자체는 아니다.
3. Search. OAI-SearchBot, PerplexityBot, Claude-SearchBot, Google-CloudVertexBot 등은 사용자의 query에 답하기 위해 관련 페이지를 실시간으로 가져온다. 이는 시장 수요 신호다. 누군가 AI search에서 해당 카테고리를 찾고 있다. Answer-First 구조, FAQ, 가격과 재고의 최신성이 중요하다.
4. User Fetch. ChatGPT-User, Claude-User, Perplexity-User는 대화 중 사용자의 요청에 따라 특정 페이지를 실시간으로 가져온다. 사람이 직접 방문한 것은 아니지만, 실제 사람이 브랜드를 이해하려는 상황이다. commercial value가 높다. 가격, 정책, CTA, 제품 설명 페이지가 정확해야 한다.
5. User Action. Google-Agent, Manus-User, NovaAct 등은 사용자를 대신해 폼 작성, 가격 비교, 문의, 구매 준비 같은 행동을 수행한다. 아직 초기 단계지만 Agentic Commerce가 발전할수록 가장 높은 가치의 신호가 된다. structured data, accessible forms, pricing/inventory API 준비가 필요하다.
training에서 user_action으로 갈수록 상업 가치는 올라간다. 특히 search에서 user_fetch로 넘어가는 순간이 크다. 이는 "AI ecosystem이 우리를 보고 있다"에서 "특정 사용자가 지금 우리를 조사한다"로 바뀌는 질적 전환이다.
GA4는 client-side tool이라 crawler를 보지 못한다. GSC는 Google AI feature impressions만 본다. 따라서 intent classification을 하려면 server-side log analysis가 필요하다. HTTP request의 User-Agent를 직접 읽고, OpenAI/Anthropic/Google의 공식 UA와 대조하며, 표준 UA가 없는 경우 frequency, path pattern, header 특성으로 보조 분류해야 한다.
CitationGraph는 알려진 AI platform crawler를 식별하고 다섯 가지 intent로 분류하는 것을 목표로 한다. 이것은 단순히 bot count를 세는 것이 아니라 상업적 의미를 분리하는 작업이다.
Intent | 해야 할 일 | 그만해도 되는 일 |
|---|---|---|
Training | 정확한 브랜드 사실과 llms.txt 제공 | training crawler용 page speed만 과도하게 최적화 |
Indexing | Schema, meta, Open Graph 완성 | indexing crawler에 실시간 데이터까지 강요 |
Search | Answer-First와 FAQ 최적화 | search crawler 빈도만 집착 |
실무에서는 이 분류를 월간 보고서가 아니라 주간 운영표로 바꿔야 한다. Training이 많은 페이지는 브랜드 사실, 제품 설명, llms.txt를 정리한다. Search가 늘어난 페이지는 Answer-First 구조와 FAQ를 강화한다. User Fetch가 많은 페이지는 가격, 배송, 반품, 보증, CTA를 우선 점검한다. User Action 신호가 보이면 폼, 재고, API, 인증 흐름을 점검해야 한다.
신뢰도도 함께 표시해야 한다. 공식 User-Agent와 검증된 IP로 확인된 것은 confirmed, 행동 패턴으로 추정한 것은 probable, 아직 판단하기 어려운 것은 unknown으로 나눈다. 그래야 경영진이 bot volume을 과대해석하지 않고, 어떤 신호를 예산 결정에 써도 되는지 알 수 있다. AI crawler data는 기술 로그가 아니라 GEO 우선순위를 정하는 운영 입력값이다.
이 입력값은 콘텐츠 회의에도 들어가야 한다. user_fetch가 반복되는 페이지는 사용자가 실제로 비교 중인 페이지일 수 있고, search intent가 늘어나는 페이지는 카테고리 수요가 커지는 곳일 수 있다. 따라서 crawler intent는 SEO 리포트가 아니라 제품, 콘텐츠, growth가 함께 보는 demand signal이다.
다음 글은 실전이다. GA4에서 AI traffic이 0.5%로 보이는 DTC 브랜드가 어떻게 네 단계 monitoring architecture로 8-12%의 full-view AI impact를 보게 되는지 다룬다.
A: 기본은 User-Agent matching이다. OpenAI의 GPTBot/OAI-SearchBot/ChatGPT-User, Anthropic의 ClaudeBot/Claude-SearchBot/Claude-User처럼 공식 UA를 매칭한다.
A: 장기 가치다. 미래 AI 모델이 브랜드를 정확히 알고 답할 가능성에 영향을 준다.
A: GA4 session은 없지만 실제 사람의 질문이 배경에 있다. high-quality near-human visit으로 봐야 한다.
A: 아직 초기다. 하지만 Agentic Commerce protocol이 성숙하면 빠르게 중요해질 것이다.
A: UA 투명성이 낮은 경우가 많아 UA matching과 behavioral analysis를 함께 써야 한다.
User Fetch
핵심 페이지, 가격, 정책, CTA 최신화 |
user_fetch가 많은 페이지 무시 |
User Action | 구조화 데이터와 API/폼 준비 | Agentic Commerce 준비 지연 |