Mudanças no Search Console sobre o robots.txt

Mudanças no Search Console sobre o robots.txt

Por 25 anos o Protocolo de Exclusão de Robôs – conhecido por robots.txt – tem sido um dos componentes mais básicos e críticos da web. Ele permite que os proprietários de sites excluam clientes automatizados, por exemplo, rastreadores da Web, de acessar seus sites – parcial ou totalmente.

Em 1994, Martijn Koster (o próprio webmaster) criou o padrão inicial depois que os rastreadores estavam sobrecarregando seu site. Com mais informações de outros webmasters, o REP nasceu e foi adotado pelos mecanismos de pesquisa para ajudar os proprietários de sites a gerenciar seus recursos de servidor mais facilmente.

No entanto, o REP nunca foi transformado em um padrão oficial da Internet, o que significa que os desenvolvedores interpretaram o protocolo de maneira um pouco diferente ao longo dos anos.

E desde a sua criação, o REP não foi atualizado para cobrir os casos atuais. Esse é um problema desafiador para os proprietários de sites, porque o padrão de fato ambíguo dificultava a leitura correta das regras.

O Parser do Google robots.txt agora é código aberto

Os 25 anos em que o Protocolo de Exclusão de Robôs (REP) foi apenas um padrão de fato teve implicações frustrantes às vezes. Por um lado, para os webmasters, significava incerteza em casos como quando o editor de texto incluía caracteres BOM em seus arquivos robots.txt.

Por outro lado, para desenvolvedores de rastreadores e ferramentas, também trouxe incerteza; Por exemplo, como eles devem lidar com arquivos robots.txt com centenas de megabytes?

O Google anunciou que está liderando um esforço para tornar o REP um padrão da Internet. Embora essa seja uma etapa importante, isso significa trabalho extra para desenvolvedores que analisam arquivos robots.txt.

Estamos aqui para ajudar: abrimos o código da biblioteca C ++ que nossos sistemas de produção usam para analisar e combinar regras em arquivos robots.txt. Esta biblioteca existe há 20 anos e contém trechos de código que foram escritos nos anos 90.

Desde então, a biblioteca evoluiu; Aprendemos muito sobre como os webmasters escrevem arquivos robots.txt e casos que precisávamos cobrir e o Google adicionou o que aprendeu ao longo dos anos ao rascunho da Internet quando fazia sentido.

Também foi criada uma ferramenta de teste no pacote de código aberto para ajudr a testar algumas regras. Uma vez instalada, o uso é muito simples:

robots_main <robots.txt content> <user_agent> <url>

Se você quiser dar uma olhada na biblioteca, acesse o repositório do GitHub para o analisador do robots.txt.

Uma nota sobre regras não suportadas no robots.txt

No interesse de manter um ecossistema saudável e preparar futuros lançamentos de software livre, O Google vai remover todo o código que lida com regras não suportadas e não publicadas (como noindex) em 1º de setembro de 2019.

Para aqueles de vocês que confiaram na diretiva noindex no arquivo robots.txt, que controla o rastreamento, existem várias alternativas:

  • Noindex em meta tags : Suportado tanto nos cabeçalhos de resposta HTTP como em HTML, a diretiva noindex é a maneira mais eficaz de remover URLs do índice quando o rastreamento é permitido.
  • Códigos de status HTTP 404 e 410: os dois códigos de status significam que a página não existe, o que eliminará esses URLs do índice do Google assim que forem rastreados e processados.
  • Proteção por senha: a menos que a marcação seja usada para indicar conteúdo pago paywall), ocultar uma página atrás de um login geralmente a removerá do índice do Google.
  • Não permitir o uso de robots.txt: os mecanismos de pesquisa podem indexar apenas as páginas que conhecem. Portanto, bloquear o rastreamento da página normalmente significa que o conteúdo não será indexado. Embora o mecanismo de pesquisa também possa indexar um URL com base em links de outras páginas, sem ver o próprio conteúdo, pretendemos tornar essas páginas menos visíveis no futuro.
  • Ferramenta Remover URL do Search Console: a ferramenta é um método rápido e fácil de remover um URL temporariamente dos resultados de pesquisa do Google.

Fique de olho nessas mudanças para que algumas páginas críticas fiquem fora do índice e garanta que as páginas essenciais estejam presentes nos buscadores.

Um abraço!

Luiz Eduardo Oliveira Fonseca

Infra @ Powertic, Rails Developer, Maintainer do Mautic Docker e do Saelos Docker, Revisor da Tradução do Mautic, Administrador da Comunidade Mautic Brasil.

Deixe uma resposta

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Fechar Menu
×
×

Carrinho