GoogleOther: 구글 프로덕트 팀에서 공개적으로 액세스할 수 있는 콘텐츠를 가져오는 데 사용하는 일반 크롤러
Google Gary Illyes씨는 Linkedin을 통해 Google 크롤러 및 유저 에이전트 목록에 새로운 크롤러를 추가하였다고 발표하였습니다.
이 크롤러의 명칭은 구글아더(GoogleOther)입니다. 이 새로운 크롤러는 "다양한 구글의 제품 팀에서 사이트에서 공개적으로 액세스 할 수 있는 콘텐츠를 가져오는 데 사용할 수 있는 일반 크롤러"로 설명하고 있습니다.
예를 들어 내부 연구 및 개발을 위한 일회성 크롤링에 사용될 수 있다고 Google은 보충합니다. 구글아더 크롤러는 항상 유저 에이전트 토큰 및 글로벌 유저 에이전트에 대한 robots.txt 규칙을 따르며, Googlebot과 동일한 IP 대역 범위를 사용합니다.
유저 에이전트 토큰은 "GoogleOther"이고 전체 사용자 에이전트 문자열은 "GoogleOther"입니다.

세 가지 유형의 웹 크롤러 문서화
구글 검색 센터에 구글 문서에는 역할과 트리거를 기반으로 크롤러를 세 가지 유형으로 분류하였습니다.
(1) Googlebot: Google 검색 제품의 기본 크롤러입니다. 항상 robots.txt 규칙을 준수합니다. 역방향 DNS 마스크는 "crawl-***-***-***-***.googlebot.com 또는 geo-crawl-***-***-***-***.geo.googlebot.com"이며, IP 범위 목록은 이 googlebot.json 파일에 있습니다.
(2) 예외 상황 크롤러: 특정 기능(예: AdsBot)을 수행하는 크롤러로, robots.txt 규칙을 준수하거나 준수하지 않을 수 있습니다. 역방향 DNS 마스크는 "rate-limited-proxy-***-***-***-***.google.com"이며 IP 범위 목록은 이 special-crawlers.json 파일에 있습니다.
(3) 사용자 트리거 가져오기: 최종 사용자가 가져오기를 트리거하는 도구 및 제품 기능입니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. 사용자가 가져오기를 요청했으므로 해당 가져오기는 robots.txt 규칙을 무시합니다. 역방향 DNS 마스크는 "***-***-***-***.gae.googleusercontent.com"며 IP 범위 목록은 이 user-triggered-fetchers.json 파일에 있습니다.
도움말 문서에 새로 추가된 섹션의 스크린샷입니다:
다음은 Barry Schwartz씨에 의해 분류된 구글 크롤러의 현재/ 과거 비교 차트입니다.
Google의 Gary Illyes 씨는 LinkedIn에서 이 새로운 크롤러가 "R&D 크롤링과 같은 Googlebot의 다른 작업을 일부 대체하여 구글봇의 크롤링 용량을 일부 확보할 것"이라고 설명했습니다.
구글봇의 크롤링 자원을 확보하고 다른 작업을 돕는 미니 크롤러
게리씨는 "새로운 크롤러인 GoogleOther를 크롤러 목록에 추가하여 궁극적으로 구글봇의 부담을 어느 정도 덜어줄 것입니다. 이는 사용자에게 큰 변화는 아니지만, 그럼에도 불구하고 흥미로운 변화라고 생각합니다. 구글봇이 크롤링하는 방법과 대상을 최적화하면서 한 가지 확실히 하고 싶었던 것은 구글봇의 크롤링 과정이 내부적으로만 검색에서 사용하는 인덱스를 구축하는 데 사용되도록 하는 것이었습니다. 이를 위해 R&D 크롤링과 같은 구글봇의 다른 일부 작업을 대체하는 새로운 크롤러인 GoogleOther를 추가하여 구글봇의 크롤링 용량을 일부 확보했습니다. 새 크롤러는 구글봇과 동일한 인프라를 사용하므로 호스트 로드 제한, robots.txt, http 프로토콜 버전, 페치 크기 등 구글봇과 동일한 제한 사항과 기능을 갖습니다. 기본적으로 이름만 다른 구글봇입니다."
이 크롤러가 Google 바드에 사용될지 여부에 대한 언급은 없습니다.
구글 유저 에이전트 목록에는 총 19개의 구글봇 목록을 표시하고 있습니다.