Impedindo o Google de rastrear páginas específicas

Como muitos de vocês sabem, os mecanismos de busca utilizam-se de robôs de busca — também conhecidos como webcrawlers — para percorrer toda a web, indexando quase todo o conteúdo disponível. Diante disto, foi criado um padrão onde cada website pode incluir no seu diretório raiz um arquivo chamado robots.txt que diz aos robôs quais páginas eles podem ou não visitar.

Isso é importante no processo de otimização de sites para evitar, por exemplo, que o Google indexe páginas desnecessárias (login, 404, etc), conteúdo duplicado (lista de artigos por autor, resultados de buscas internas, landing pages específicas, etc) ou que algum conteúdo restrito fique disponível para o público geral.

Se o seu site WordPress tiver conteúdo que você deseja que o Google ou outros mecanismos de pesquisa NÃO acessem, use este modelo de arquivo robots.txt para especificar como os mecanismos de pesquisa devem rastrear o conteúdo.

Passo 1: Abra um editor de textos (Bloco de Notas ou Gedit, por exemplo) e cole o código abaixo. Você pode adicionar outras páginas específicas na lista seguindo o mesmo padrão.

User-agent: *

Disallow: /feed/
Disallow: /trackback/
Disallow: /search
Disallow: /?s=
Disallow: /404.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: /cgi-bin/

Allow: /wp-content/uploads/

Sitemap: http://[DOMINIODOSEUSITE]/sitemap.xml

Passo 2: Faça o upload do arquivo para o diretório principal do seu servidor de hospedagem. Não esqueça de editar corretamente o endereço do seu site no final do arquivo com o link do seu sitemap.

Agora é só esperar a próxima vez que o Google rastrear o seu site para a mudança surtir efeito. Algumas páginas que você bloqueou ainda podem aparecer nos resultados de busca por um tempo, mas aos poucos elas devem desaparecer de vez.

Para reverter o processo, basta deletar as páginas da lista de bloqueio. Por padrão, os mecanismos de busca visitam tudo o que não está na lista de desabilitados (Disallow).

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *