Em um episódio recente do podcast Google Search Central, Gary Illyes e Martin Splitt, representantes do Google, revelaram que a empresa opera uma vasta rede de rastreadores internos, além do conhecido Googlebot. Essa informação altera a visão tradicional de que o Googlebot seria o único responsável pelo rastreamento de dados na web.

O Googlebot, ao contrário do que muitos acreditam, não é um programa autônomo. Ele funciona como um cliente de uma plataforma centralizada de rastreamento, que é utilizada por várias equipes internas do Google para diferentes propósitos. Isso significa que, quando o Googlebot acessa uma página, ele compartilha a mesma infraestrutura com outros rastreadores internos, que podem ter finalidades distintas, como coleta de dados para o Google Maps ou Google Shopping.

Illyes confirmou que existem centenas de rastreadores internos no Google, muitos dos quais não são documentados publicamente. Apenas os rastreadores considerados mais relevantes para os proprietários de sites, como o Googlebot para buscas, o Googlebot-Image para imagens e o AdsBot para anúncios, são oficialmente documentados. No entanto, a maioria dos rastreadores opera sem que os administradores de sites possam identificar sua origem ou propósito.

A arquitetura de rastreamento do Google funciona como um modelo de software como serviço (SaaS), onde equipes internas solicitam capacidade de rastreamento conforme suas necessidades. Essa abordagem permite que o Google escale suas operações de rastreamento sem duplicar infraestrutura, otimizando custos e padronizando o comportamento dos rastreadores.

A decisão de documentar publicamente um rastreador depende do volume de requisições que ele gera. Rastreadores com baixo volume de acesso não são documentados, pois seu impacto nos servidores é considerado mínimo. Quando um rastreador atinge um volume significativo, ele passa por uma revisão para determinar se a documentação pública é necessária.

Para profissionais de SEO, essa revelação destaca a importância de analisar logs de servidor de forma abrangente. Acessos de rastreadores do Google que não são identificados como Googlebot podem consumir recursos sem contribuir diretamente para a indexação de páginas. Isso é crucial para decisões sobre alocação de recursos de servidor e configuração de regras de acesso.

Fonte:https://www.conversion.com.br/blog/google-centenas-crawlers-nao-documentados/

Seu concorrente já está no Google. E você?

Comece agora com 7 dias grátis e 5 artigos bônus. Sem cartão de crédito. Mais de 800 empresas já confiam na Airticles

Seu site na primeira página do Google.

SEO Automatizado para empresas que querem crescer sem depender de anúncios.

Airticles Tecnologia Ltda | 59.780.182/0001-03. © Todos os direitos reservados.