Como tornar o arquivo robôs txt corretamente. Como editar o arquivo robôs txt

Robots.txt é um arquivo de texto que contém parâmetros de indexação de site para os robôs do mecanismo de pesquisa.

Recomendações sobre o conteúdo do arquivo

Yandex suporta as seguintes diretivas:

Diretiva	O que faz.
Agente de usuário *
Não permitir.
Mapa do site
Clean -am.
Permitir.
Atraso de rastreamento	Recomendamos usar a configuração de velocidade de rastreamento

Diretiva	O que faz.
Agente de usuário *	Indica o robô ao qual as regras listadas em Robots.txt se aplicam.
Não permitir.	Proíbe seções de site de indexação ou páginas individuais.
Mapa do site	Especifica o caminho para o arquivo de sitemap que é publicado no site.
Clean -am.	Indica para o robô que a página UTM tags que serem ignorados ao indexá-lo.
Permitir.	Permite seções de site de indexação ou páginas individuais.
Atraso de rastreamento	Especifica o intervalo mínimo (em segundos) para o robô de pesquisa para aguardar após o carregamento de uma página antes de começar a carregar outra. Recomendamos o uso da configuração de velocidade de rastreamento em Yandex.Webmaster em vez da diretiva.

* Diretiva obrigatória.

Você geralmente precisa de diretivas de proibição, sitemap e limpar param. Por exemplo:

O usuário do usuário: * Directives são definidos para Disallow: / bin / # desativa os links do carrinho de compras. Não permitir: / Search / # desativa os links da página da pesquisa incorporada no site que não permite: / admin / # Desativa os links do painel de administração Sitemap: http://example.com/sitemap # Especifique para o robô O arquivo do site do site Clean-param: ref /some_dir/get_book.pl

Robôs de outros mecanismos de busca e serviços podem interretar a maneira. Serviços de maneira difret.

Observação. O robô leva em conta o caso de substrings (nome do arquivo ou caminho, nome do robô) e ignora o caso nos nomes das diretivas.

Usando caracteres cirílicos.

O uso do alfabeto cirílico não é permitido no arquivo robots.txt e cabeçalhos HTTP.

Para nomes de domínio, use o PUNYCODE. Endereços de página, use a mesma codificação da estrutura atual do site.

Boa tarde Queridos amigos! Tudo o que você sabe que a otimização do mecanismo de pesquisa é o negócio responsável e sutil. É necessário levar em conta absolutamente cada talento para obter um resultado aceitável.

Hoje vamos falar sobre o arquivo robots.txt que é familiar para cada webmaster. É nele que todas as instruções básicas para robôs de pesquisa são prescritas. Por via de regra, eles estão felizes em seguir as instruções prescritas e, em caso de compilação inadequada, recusar-se a indexar o recurso da web. Em seguida, vou contar sobre como fazer a versão correta do robots.txt, bem como como configurá-lo.

No prefácio eu já descrevi o que é. Agora eu vou te dizer por que ele é necessário. Robots.txt é um pequeno arquivo de texto que é armazenado na raiz do site. É usado por mecanismos de busca. É claramente escrito das regras de indexação, isto é, quais seções do site precisam ser indexadas (adicionar à pesquisa) e que não é.

Normalmente, as seções industriais do site estão fechadas da indexação. Ocasionalmente, a lista negra cai das páginas não cortadas (política de privacidade de copiar este exemplo). Aqui, "Robôs são explicados" os princípios de trabalhar com as seções que precisam ser indexadas. Muitas vezes prescreve regras para vários robôs separadamente. Vamos falar sobre isso ainda mais.

Ao configurar robots.txt, seu site será garantido nas posições do Search Engine. Os robôs levarão em conta apenas conteúdo útil, manifestando as seções duplicadas ou técnicas.

Criando robots.txt.

Para criar um arquivo, basta usar a funcionalidade padrão do seu sistema operacional, após o qual você descarrega para o servidor via FTP. Onde ele reside (no servidor) para adivinhar facilmente - na raiz. Normalmente, esta pasta é chamada public_html.

Você pode facilmente entrar nele com qualquer cliente FTP (por exemplo) ou um gerenciador de arquivos integrado. Naturalmente, não faremos upload de um robô vazio para o servidor. Realizamos várias diretrizes principais (regras).

Agente de usuário: *
Permitir: /

Usando essas linhas em seu arquivo robôs, você entre em contato com todos os robôs (diretiva do usuário do usuário), permitindo que eles indexem seu site totalmente e completamente (incluindo todos. Páginas Permitir: /)

Claro, esta opção não é particularmente adequada para nós. O arquivo não será especialmente útil para otimizar o mecanismo de pesquisa. Definitivamente precisa de configuração competente. Mas antes disso, consideramos todas as principais diretivas e valores robots.txt.

Diretiva

Agente de usuário	Um dos mais importantes, desde que indica quais robôs seguirem as regras depois dela. As regras são levadas em conta até o próximo usuário do usuário no arquivo.
Permitir.	Permite a indexação de quaisquer blocos de recursos. Por exemplo: "/" ou "/ tag /".
Não permitir.	Pelo contrário, proíbe a indexação das seções.
Mapa do site	Caminho para o mapa do site (no formato XML).
Hospedeiro.	O espelho principal (com www ou sem, ou se você tiver vários domínios). Aqui também indica o protocolo HTTPS seguro (se disponível). Se você tiver um HTTP padrão, não precisará especificá-lo.
Atraso de rastreamento	Com ele, você pode definir o intervalo de visitar e baixar arquivos do seu site para robôs. Ajuda a reduzir a carga no host.
Clean -am.	Permite desativar a indexação de parâmetros em determinadas páginas (por tipo www.site.com/cat/state?admin_id8883278). Em contraste com as diretivas anteriores, 2 valores (endereço e parâmetro em si) são especificados aqui.

Estas são todas as regras que são suportadas por mecanismos de busca emblemáticos. É com a ajuda deles, vamos criar nossos robôs, operando várias variações para vários tipos de sites.

Contexto

Para configuração competente do arquivo robô, precisamos saber exatamente qual das seções do site deve ser indexada e quais não são. No caso de uma única página única em HTML + CSS, registramos suficientemente várias diretivas importantes, como:

Agente de usuário: *
Permitir: /
Sitemap: site.ru/sitemap.xml.
Host: www.site.ru.

Aqui nós indicamos regras e valores para todos os mecanismos de pesquisa. Mas é melhor adicionar diretivas separadas para o Google e Yandex. Isso parecerá assim:

Agente de usuário: *
Permitir: /

User-Agent: Yandex
Permitir: /
Proibição: / politika

User-Agent: Googlebot
Permitir: /
Proibir: / tags /

Sitemap: site.ru/sitemap.xml.
Host: site.ru.

Agora, no nosso site HTML, será indexado absolutamente todos os arquivos. Se quisermos excluir alguma página ou imagem, precisamos especificar um link relativo a este fragmento na proibição.

Você pode usar os serviços de geração automática de arquivos robôs. Nós não garantimos isso com a ajuda deles você criará a opção perfeitamente correta, mas você pode tentar como familiarização.

Entre esses serviços podem ser alocados:

Com sua ajuda, você pode criar robots.txt no modo automático. Pessoalmente, eu realmente não recomendo esta opção, porque é muito mais fácil fazê-lo manualmente, tomando em minha plataforma.

Falando de plataformas, quero dizer todos os tipos de CMS, frameworks, sistemas SaaS e muito mais. Em seguida, vamos falar sobre como personalizar o arquivo WordPress e Joomla Robots.

Mas antes disso, selecione várias regras universais que podem ser guiadas criando e configurando robôs quase para qualquer site:

Feche da indexação (não permitir):

administração do site;
conta pessoal e páginas de inscrição / autorização;
cesta, dados com formulários de pedidos (para loja online);
pasta CGI (localizada no host);
seções de serviço;
scripts Ajax e JSON;
Etiquetas UTM e Openstat;
vários parâmetros.

Aberto (permitir):

fotos;
Arquivos JS e CSS;
outros elementos que devem ser levados em conta pelos mecanismos de pesquisa.

Além disso, no final não se esqueça de especificar os dados do sitemap (caminho para o mapa do site) e host (espelho principal).

Robots.txt para wordpress.

Para criar um arquivo, precisamos lançar robots.txt para a raiz do site. Você pode alterar seu conteúdo nesse caso usando todos os mesmos gerenciadores de ftp e arquivos.

Existe uma opção mais conveniente - crie um arquivo com plugins. Em particular, esse recurso é o Yoast SEO. Editar robôs diretamente do administrador é muito mais conveniente, então eu mesmo uso dessa maneira de trabalhar com robots.txt.

Como você decide criar esse arquivo - sua empresa, é mais importante para nós entendermos quais diretrizes devem estar lá. Em seus sites executando o WordPress usando esta opção:

Agente do usuário: * # # Regras para todos os robôs, com exceção do Google e Yandex

Não permitir: / cgi-bin # pasta com scripts
Não permitir: /? # Parâmetros de solicitações da página inicial
Não permitir: / wp- # Arquivos do próprio CSM (com o WP-)
Proibir: *? S \u003d # \
Não permitir: * & s \u003d # Tudo relacionado à pesquisa
Disalow: / Search / # /
Não permitir: / autor / # Arquiva autores
Não permitir: / usuários / # e usuários
Não permitir: * / trackback # Notificações do WP que alguém se refere a você
Não permitir: * / feed # FID em XML
Não permitir: * / rss # e rss.
Não permitir: * / incorporado # Elementos internos
Não permitir: /xmlrpc.php. # WordPress API.
Não permitir: * utm \u003d # Etiquetas UTM.
Não permitir: * openstat \u003d # Etiquetas OpenSTAT.
Não permitir: / tag / # Tags (se houver)
Permitir: * / uploads # downloads abertos (fotos, etc.)

User-Agent: Googlebot # Para o google
Não permitir: / cgi-bin
Não permitir: /?
Não permitir: / wp-
Proibir: *? S \u003d
Não permitir: * & s \u003d
Disalow: / Search /
Não permitir: / autor /
Não permitir: / usuários /
Não permitir: * / trackback
Não permitir: * / feed
Não permitir: * / rss
Não permitir: * / incorporado
Não permitir: /xmlrpc.php.
Não permitir: * utm \u003d
Não permitir: * openstat \u003d
Não permitir: / tag /
Permitir: * / uploads
Permitir: / *\u003e .js. # Abra arquivos JS
Permitir: / *, / abss. # e css.
Permitir: /wp-*.png. # e fotos no formato PNG
Permitir: /wp-*.jpg. # \
Permitir: /wp-*.jpeg. # e em outros formatos
Permitir: /wp-*.gif. # /
# trabalha junto com plugins

User-Agent: Yandex # para yandex
Não permitir: / cgi-bin
Não permitir: /?
Não permitir: / wp-
Proibir: *? S \u003d
Não permitir: * & s \u003d
Disalow: / Search /
Não permitir: / autor /
Não permitir: / usuários /
Não permitir: * / trackback
Não permitir: * / feed
Não permitir: * / rss
Não permitir: * / incorporado
Não permitir: /xmlrpc.php.
Não permitir: / tag /
Permitir: * / uploads
Permitir: / *\u003e .js.
Permitir: / *, / abss.
Permitir: /wp-*.png.
Permitir: /wp-*.jpg.
Permitir: /wp-*.jpeg.
Permitir: /wp-*.gif.
Permitir: /wp-admin/admin-ajax.php.
# Clean UTM Tags
Clean -am: Openstat # e sobre o Openstat não se esqueça

Mapa do site: # Nós prescrevemos o caminho para o mapa do site
Host: https://site.ru. # Espelho principal

Atenção! Ao copiar strings para um arquivo - não se esqueça de excluir todos os comentários (texto após #).

Esta opção robots.txt é mais popular entre os webmasters que usam WP. É perfeito? Não. Você pode tentar adicionar algo ou, pelo contrário, para remover. Mas observe que ao otimizar os textos dos robôs, o erro não é incomum. Nós falaremos sobre eles ainda mais.

Robots.txt for Joomla.

E embora em 2018 joomla raramente que use, acredito que é impossível determinar este maravilhoso CMS. Ao promover projetos em Joomla, você certamente terá que criar um arquivo robôs e, de outra forma, como você deseja fechar elementos desnecessários da indexação?

Como no caso anterior, você pode criar um arquivo manualmente, apenas jogá-lo no host ou usar o módulo para esses fins. Em ambos os casos, você terá que configurá-lo com competência. Isso ficará com a opção correta para o Joomla:

Agente de usuário: *
Permitir: /*.css?
Permitir: /*.js?
Permitir: /*.jpg?c.
Permitir: /*.png?c.ova.
Não permitir: / cache /
Não permitir: /*.pdf.
Não permitir: / administrador /
Não permitir: / instalação /
Não permitir: / cli /
Proibir: / bibliotecas /
Não permitir: / idioma /
Não permitir: / componentes /
Não permitir: / módulos /
Não permitir: / inclui /
Não permitir: / bin /
Não permitir: / componente /
Não permitir: / tmp /
Não permitir: /index.php.
Não permitir: / plugins /
Não permitir: / * mailto /

Não permitir: / logs /
Não permitir: / componente / tags *
Proibir: / *%
Não permitir: / layouts /

User-Agent: Yandex
Não permitir: / cache /
Não permitir: /*.pdf.
Não permitir: / administrador /
Não permitir: / instalação /
Não permitir: / cli /
Proibir: / bibliotecas /
Não permitir: / idioma /
Não permitir: / componentes /
Não permitir: / módulos /
Não permitir: / inclui /
Não permitir: / bin /
Não permitir: / componente /
Não permitir: / tmp /
Não permitir: /index.php.
Não permitir: / plugins /
Não permitir: / * mailto /

Não permitir: / logs /
Não permitir: / componente / tags *
Proibir: / *%
Não permitir: / layouts /

User-Agent: Googlebot
Não permitir: / cache /
Não permitir: /*.pdf.
Não permitir: / administrador /
Não permitir: / instalação /
Não permitir: / cli /
Proibir: / bibliotecas /
Não permitir: / idioma /
Não permitir: / componentes /
Não permitir: / módulos /
Não permitir: / inclui /
Não permitir: / bin /
Não permitir: / componente /
Não permitir: / tmp /
Não permitir: /index.php.
Não permitir: / plugins /
Não permitir: / * mailto /

Não permitir: / logs /
Não permitir: / componente / tags *
Proibir: / *%
Não permitir: / layouts /

Host: site.ru. # Não se esqueça de mudar o endereço para o seu
Sitemap: site.ru/sitemap.xml. # e aqui

Como regra geral, isso é suficiente para que arquivos desnecessários não sejam no índice.

Erros ao configurar

Muitas vezes, as pessoas permitem erros ao criar e configurar um arquivo de robôs. Aqui são os mais comuns deles:

As regras são indicadas apenas para o agente do usuário.
Não há host e sitemap.
A presença de um protocolo HTTP na Diretiva Host (você só precisa especificar HTTPS).
Não cumprir as regras de aninhamento ao abrir / fechar as imagens.
Não fechado UTM e openstat tags.
Pressionando diretivas de host e sitemap para cada robô.
Estudo de arquivo superficial.

É muito importante configurar adequadamente esse pequeno arquivo. Quando aprovado por erros grosseiros, você pode perder uma parte significativa do tráfego, então seja extremamente atenta ao configurar.

Como verificar o arquivo?

Para esses propósitos, é melhor usar serviços especiais de Yandex e Google, uma vez que esses motores de busca são os mais populares e a demanda (mais exclusivos), tais mecanismos de busca como Bing, Yahoo ou Rambler não consideram nenhum sentido.

Para começar, considere a opção com Yandex. Nós vamos ao webmaster. Depois disso, as ferramentas de análise robots.txt.

Aqui você pode verificar o arquivo para erros, bem como check in em tempo real, quais páginas estão abertas para indexação e quais não são. Muito conveniente.

O Google tem exatamente o mesmo serviço. Nós vamos B. Console de pesquisa. . Encontramos a guia Digitalização, selecione - a ferramenta de verificação de arquivo robots.txt.

Aqui estão exatamente as mesmas funções que no serviço doméstico.

Por favor, note que me mostra 2 erros. Isto é devido ao fato de que o Google não reconhece as diretivas de limpeza de parâmetros que especifiquei para Yandex:

Clean-param: utm_source & utm_medium & utm_campaign
Clean -am: Openstat

Não vale a pena prestar atenção a isso, já que os robôs do Google usam apenas regras para o Googlebot.

Conclusão

O arquivo robots.txt é muito importante para a otimização de SEO do seu site. Venha para sua configuração com toda a responsabilidade, porque com a implementação incorreta, tudo pode ir como choque.

Considere todas as instruções que compartilhei neste artigo e não esqueça que você não necessariamente copie exatamente minhas opções de robôs. É possível que você precise adicionalmente entender cada uma das diretivas, ajustando o arquivo sob seu caso específico.

E se você quiser descobrir mais profundamente em Robots.txt e criar sites no WordPress, então eu convido você. Nele você aprenderá como você pode criar facilmente um site, sem esquecer de otimizá-lo para mecanismos de pesquisa.

Robots.txt. - Este é um arquivo de texto que está localizado na raiz do site - http://site.ru/robots.txt.. Seu objetivo principal é pedir certas diretrizes aos mecanismos de busca - o que e quando fazer no site.

Os robots.txt mais fáceis

O robots.txt mais fácil, que todos os mecanismos de pesquisa permite tudo para indexar, se parece com isso:

Agente de usuário: *
Não permitir:

Se a diretiva não permitir não tiver uma barra inclinada no final, todas as páginas para indexação serão permitidas.

Essa diretiva proíbe completamente o site à indexação:

Agente de usuário: *
Não permitir: /

O usuário do usuário - indica para os quais as diretrizes são destinadas, as estrelas indicam que, para todos os PS, o agente do usuário é indicado para Yandex: Yandex.

A Ajuda Yandex é escrita que seus robôs de pesquisa lidam com o agente do usuário: *, mas se você estiver presente usuário-agente: Yandex, o agente do usuário: * ignorado.

Não permitir e permitir diretrizes

Existem duas principais diretivas:

Não permitir - para proibir

Permitir - permitir

Exemplo: No blog, estamos proibidos de indexar a pasta / conteúdo WP / onde os plug-ins estão localizados, modelo I.T.P. Mas também há imagens que o PS são indexadas para participar da busca de fotos. Para fazer isso, use esse esquema:

Agente de usuário: *
Permitir: / WP-Conteúdo / Upload / # Permitir a indexação de imagens na pasta Uploads
Não permitir: / wp-teor /

O procedimento para uso das diretivas é importante para o Yandex se eles se aplicam a uma páginas ou pastas. Se você especificar assim:

Agente de usuário: *
Não permitir: / wp-teor /
Permitir: / WP-Conteúdo / Upload /

As imagens não carregarão o robô Yandex a partir do / upload /, porque a primeira diretiva é executada, que proíbe todo o acesso à pasta WP-Content.

O Google pertence mais facilmente e executa todas as diretivas do arquivo robots.txt, independentemente de sua localização.

Além disso, não se esqueça de que diretrizes com uma barra e sem realizar papéis diferentes:

Disalow: / sobre Acesso proibido a todo o site.RU/About/ directory, também não será indexado páginas que contêm aproximadamente - site.ru/about.html, site.ru/aboutlive.html i.t.p.

Não permitir: / sobre / Desative a indexação de páginas robôs no site.ru/About/, e página por tipo.ru/about.html i.t.p. estará disponível para indexação.

Expressões regulares em robots.txt

Dois personagens são suportados, isto é:

* - Implica qualquer ordem de caracteres.

Exemplo:

Proibir: / sobre * Desativar o acesso a todas as páginas que contêm, em princípio, esta diretiva também funcionará sem estrelas. Mas em alguns casos, essa expressão não é substituível. Por exemplo, em uma categoria há páginas de C.HTML no final e sem fechar a indexação de todas as páginas que contêm HTML, prescrevemos esta diretiva:

Não permitir: /about/*.html.

Agora o site.ru/about/live.html páginas são fechadas da indexação e o site.ru/about/live page aberto.

Outro exemplo por analogia:

User-Agent: Yandex
Permitir: /about/*.html. # Deixe-me indexar
Não permitir: / sobre /

Todas as páginas serão fechadas, exceto páginas que terminam com .html

$ - Corta a parte restante e denota o final da string.

Exemplo:

Disalow: / sobre - Esta diretiva robots.txt proíbe a indexação de todas as páginas que começam, também são uma proibição de páginas no / sobre / diretório.

Adicionando um símbolo do dólar no final - não permitir: / sobre $ nós informaremos robôs que você não pode indexar apenas a página / Sobre página, e a / acolhimento / página, páginas / aboutLive i.t.p. pode ser indexado.

Diretiva de sitemap

Esta diretiva indica o caminho para o mapa do site, neste formulário:

Sitemap: http: //site.ru/sitemap.xml

Anfitrião diretivo.

Indicado nesta forma:

Host: site.ru.

Sem http: //, cenas inclinadas e as coisas semelhantes. Se você tiver o espelho do site principal com www, escreva:

Exemplo robots.txt para bitrix

Agente de usuário: *
Não permitir: /*index.php$.
Não permitir: / bitrix /
Não permitir: / auth /
Não permitir: / pessoal /
Não permitir: / upload /
Disalow: / Search /
Não permitir: / * / pesquisa /
Não permitir: / * / slide_show /
Não permitir: / * / gallery / * ordem \u003d *
Não permitir: / *? *
Não permitir: / * & print \u003d
Não permitir: / * register \u003d
Não permitir: / * esquecedor_password \u003d
Não permitir: / * troca_password \u003d
Não permitir: / * login \u003d
Não permitir: / * logout \u003d
Não permitir: / * auth \u003d
Proibir: / * ação \u003d *
Não permitir: / * bitrix _ * \u003d
Não permitir: / * backurl \u003d *
Não permitir: / * backurl \u003d *
Não permitir: / * back_url \u003d *
Não permitir: / * back_url \u003d *
Não permitir: / * back_url_admin \u003d *
Não permitir: / * print_course \u003d y
Não permitir: / * curso_id \u003d
Não permitir: / * pagen_ *
Não permitir: / * page_ *
Não permitir: / * showall
Não permitir: / * show_all \u003d
Host: Sitename.ru.
Sitemap: https://www.sitename.ru/sitemap.xml.

Exemplo robots.txt para wordpress

Após todas as diretivas necessárias, que são descritas acima. Você deve obter algo como este arquivo robôs:

É assim dizer a versão básica do robots.txt para o WordPress. Aqui estão dois usuários-agentes-A - um para todos e o segundo para Yandex, onde a diretiva hospedeira é indicada.

Meta tags robôs.

É possível fechar a partir da página de indexação ou no site não apenas pelo arquivo robots.txt, ele pode ser feito com uma meta tag.

É necessário prescrever na tag e esta tag meta irá banir indexar o site. No WordPress, há plugins que permitem definir tais tags, como Pack Platinum SEO. Com ele, você pode fechar a partir da indexação de qualquer página, ele usa meta tags.

Diretiva de atraso de rastreamento

Usando esta diretiva, você pode definir o tempo para o qual o Bot de pesquisa deve ser interrompido, entre baixando as páginas do site.

Agente de usuário: *
Atraso de rastreamento: 5

O tempo limite entre o carregamento de duas páginas será igual a 5 segundos. Para reduzir a carga no servidor, geralmente exibe 15-20 segundos. Esta diretiva é necessária para sites grandes, muitas vezes atualizados, no qual os bots de pesquisa simplesmente "vivem".

Para locais / blogs comuns, esta diretiva não é necessária, mas pode assim limitar o comportamento de outros robôs de pesquisa não real (Rambler, Yahoo, Bing) i.t.p. Afinal, eles também entram no site e indexam, criando assim uma carga no servidor.

Configuração correta e competente do arquivo raiz Robots.txt é uma das tarefas mais importantes do assistente da Web. Em caso de erros imperdoáveis \u200b\u200bna busca por extradição, muitas páginas desnecessárias do site podem aparecer. Ou, pelo contrário, os documentos importantes do seu site serão fechados para indexados, no pior caso, você pode fechar para robôs de pesquisa todo o diretório raiz do domínio.

Configuração adequada do arquivo robots.txt com suas próprias mãos, na verdade, a tarefa não é muito complicada. Depois de ler este artigo, você aprenderá a sabedoria das diretivas e, independentemente, escreverá regras para o arquivo robots.txt em seu site.

Para criar o arquivo robots.txt, uma sintaxe certa, mas não complexa é usada. Não muitas diretrizes usadas. Considere as regras, estrutura e sintaxe do arquivo robots.txt etapa passo a passo e em detalhes.

Regras gerais robots.txt.

Primeiro, o arquivo robots.txt em si deve ter uma codificação ANSI.

Em segundo lugar, é impossível usar para a redação das regras de quaisquer alfabetos nacionais, apenas o latim é possível.

Arquivo estruturalmente Robots.txt pode consistir em um ou mais blocos de instruções, separadamente para robôs de diferentes mecanismos de pesquisa. Cada bloco ou seção possui um conjunto de regras (diretivas) para indexar o site por um mecanismo de pesquisa.

Nas directivas, os blocos das regras e entre eles não permitem quaisquer manchetes e símbolos desnecessários.

Diretrizes e blocos de regras são separados pela transferência da string. A única suposição é comentários.

Comentando em robots.txt.

Para comentar, use o símbolo '#'. Se você colocar o símbolo "grade" no início da string, até o final da linha, todo o conteúdo é ignorado pelos robôs de pesquisa.

Agente de usuário: *
Não permitir: / css # escreva um comentário
# Nós escrevemos outro comentário
Não permitir: / img

Seções no arquivo robots.txt

Ao ler o arquivo com um robô, apenas a seção endereçada ao robô deste mecanismo de pesquisa é usada, ou seja, se na seção, o usuário do usuário é o nome do Yandex Search Engine, então seu robô lerá apenas a seção Dirigido a ele, ignorando os outros, em particular, e a seção com directiva para todos os robôs - agente do usuário: *.

Cada uma das seções é auto. As seções podem ser um pouco, para robôs de cada um ou alguns motores de busca e um universal, para todos os robôs ou robôs de um dos seus sistemas. Se a seção é uma, ela começa com a primeira linha do arquivo e leva todas as linhas. Se as seções forem várias, elas devem ser separadas por uma string vazia, pelo menos um.

A seção sempre inicia com a diretiva do usuário do usuário e contém o nome do mecanismo de pesquisa, para o qual os robôs são destinados se isso não for uma seção universal para todos os robôs. Na prática, parece que isso:

User-Agent: Yandexbot
# peça agente para robôs yandex sistema
Agente de usuário: *
# peça agente para todos os robôs

Listar vários nomes de bots é proibido. Para os bots de cada mecanismo de pesquisa, sua própria seção é criada, seu próprio bloco separado de regras. Se, no seu caso, as regras para todos os robôs são iguais, use uma seção universal e comum.

Directiva, o que é isso?

A diretiva é um comando ou regra dizendo a um robô de pesquisa para determinadas informações. A diretiva reporta o Bot de pesquisa, como indexar seu site, quais diretórios não visualizam onde o mapa do site está no formato XML, que nome de domínio é o espelho principal e alguns outros detalhes técnicos.

A seção de arquivo robots.txt consiste em comandos separados,
directivas. Directivas gerais de sintaxe tais:

[_Name]: [espaço opcional] [valor] [espaço opcional]

A directiva é escrita em uma linha, sem transferência. De acordo com os padrões aceitos, as linhas não são permitidas entre as diretivas em uma seção, ou seja, todas as diretrizes da mesma seção são escritas em cada linha, sem linhas adicionais.

Vamos descrever os valores das principais diretivas usadas.

Diretiva não permitir

A diretiva mais usada no arquivo robots.txt é "não permitir" - proibindo. A diretiva não permitir a indexação do caminho especificado nele. Pode ser uma página separada, páginas contendo a "máscara" especificada em seu URL (caminhos), parte do site, diretório separado (pasta) ou todo o site.

"*" - as estrelas significa - "qualquer número de personagens". Ou seja, o caminho / pasta * o mesmo em seu valor com "/ pastas", "/ folder1", "/ folder11", "/ pastersssss" ou "/ pasta". Robôs, ao ler as regras, adicione automaticamente o sinal "*". No exemplo abaixo, ambas as diretrizes são absolutamente equivalentes:

Não permitir: / notícias
Proibir: / notícia *

"$" - O sinal de dólar proíbe os robôs ao ler as diretivas adicionam automaticamente o símbolo "*" (Estrela) no final da directiva. Em outras palavras, o símbolo "$" significa o final da cadeia de comparação. Ou seja, em nosso exemplo, proíbi a indexação da pasta "/ pasta", mas não proíbe nas pastas "/ folder1", "/ folder111" ou "/ pasterssss":

Agente de usuário: *
Proibir: / pasta $

"#" - (sharpe) sinal de comentário. Tudo o que é escrito depois desse ícone, em um com linha de TI, é ignorado pelos mecanismos de busca.

Permitir a diretiva

O arquivo robots.txt do arquivo permitido é o oposto da diretiva Dissalaw, a diretiva Permitir é resolvida. No exemplo abaixo, é mostrado que proíbi o índice todo o site, exceto a pasta / pasta:

Agente de usuário: *
Permitir: / pasta
Não permitir: /

Um exemplo do uso simultâneo de "permitir", "proibido" e prioridade

Não se esqueça de compreender a prioridade para proibições e permissões, ao especificar diretivas. Anteriormente, a prioridade foi indicada pelo procedimento para declarar proibições e autorizações. Agora, a prioridade é definida especificando o caminho máximo existente dentro de um bloco para o robô do mecanismo de pesquisa (usuário-agente), a fim de aumentar o comprimento do caminho e o local de instruções da diretiva do que quanto mais o caminho, mais prioridade :

Agente de usuário: *
Permitir: / pastas
Não permitir: / pasta

No exemplo acima, a indexação do URL pode começar com "/ pastas", mas é proibida em caminhos que possuem em seus URLs iniciar "/ pasta", "/ pasterss" ou "/ folder2". No caso do mesmo caminho para a diretiva "permitir" e "não permitir", a preferência é dada pela diretiva "Permitir".

O valor vazio do parâmetro nas diretivas "Permitir" e "Disalow"

Existem erros mestre na web quando no arquivo robots.txt na diretiva não permitir
Esqueça de especificar o símbolo "/". Esta é uma interpretação incorreta e errada dos valores de diretivas e sua sintaxe. Como resultado, a diretiva proibição torna-se resolução: "Não permitir:" é absolutamente idêntico ao "permitir: /". A proibição correta da indexação de todo o site se parece com isso:

O mesmo pode ser dito sobre "Permitir:". A diretiva "Permitir:" sem o símbolo "/" proíbe a indexação de todo o site, bem como "proibição: /".

Diretiva de sitemap

Para todos os cânones de otimização de SEO, você deve usar o mapa do site (Sitemap) no formato XML e fornecer aos mecanismos de pesquisa.

Apesar da funcionalidade dos "gabinetes para web-masters" em motores de busca, é necessário declarar a presença de Sitemap.xml e em robots.txt usando a diretiva " Mapa do site" Pesquise robôs Quando você ignora seu site verá a amostra no arquivo sitemap.xml e não se esqueça de usá-lo no seguinte bypass. Um exemplo de uso da diretiva do SiteMap no arquivo robots.txt:

Agente de usuário: *
Sitemap: https://www.domainname.zone/sitemap.xml.

Anfitrião diretivo.

Outra importante directiva robots.txt é uma directiva Hospedeiro..

Acredita-se que nem todos os mecanismos de busca reconhecem. Mas Yandex indica que lê esta diretiva, e Yandex na Rússia é o principal "alimentador de busca", então não iremos ignorar a diretiva hospedeira.

Esta diretiva diz aos mecanismos de pesquisa, qual domínio é o espelho principal. Todos nós sabemos que o site pode ter vários endereços. O URL do site pode ser usado ou não usado pelo prefixo www ou o site pode ter vários nomes de domínio, por exemplo, domain.ru, domain.com, domen.ru, www.domen.ru. Isso é precisamente em tais casos, informamos o mecanismo de pesquisa no arquivo robots.txt usando a diretiva hospedeira, quais desses nomes é o principal. O valor da directiva é o nome do espelho principal. Nós damos um exemplo. Temos vários nomes de domínio (domain.ru, domain.com, domen.ru, www.domen.ru) e todos eles redirecionam os visitantes do site www.domen.ru, entrada no arquivo robots.txt ficará assim :

Agente de usuário: *
Host: www.domen.ru.

Se você quiser seu espelho principal sem prefixo (www), então, em conformidade, você deve especificar o nome do site sem prefixo na diretiva.

A diretiva anfitriã resolve o problema das duplas das páginas com as quais os Web Wizards e os especialistas em SEO são frequentemente enfrentados. Portanto, a diretiva hospedeira deve ser usada necessariamente se você for destinado ao segmento de língua russa e é importante para o ranking do seu site no Yandex Search Engine. Repita, para hoje a leitura desta diretiva, apenas "Yandex" diz. Para especificar o espelho principal em outros mecanismos de pesquisa, você deve usar as configurações nos gabinetes da Web Masters. Não se esqueça de que o nome do espelho principal deve ser indicado corretamente (a exatidão da escrita, conformidade com a codificação e sintaxe do arquivo robots.txt). No processo, esta diretiva é permitida apenas uma vez. Se você erroneamente especificá-lo várias vezes, os robôs levarão em conta a primeira entrada.

Diretiva de atraso de rastreamento

Esta diretiva é técnica, comando dos robôs de busca, com que frequência você precisa visitar seu site. Mais precisamente, a diretiva de atraso de rastreamento indica a ruptura mínima entre as visitas aos robôs do seu site (estreias de mecanismo de busca). Por que indicar esta regra? Se os robôs chegarem a você com muita frequência, e as novas informações no site aparecerem com muito menos frequência, depois, os mecanismos de pesquisa serão acostumados a uma mudança rara de informações em seu site e visitarão muito menos frequência do que você gosta. Este é um argumento de busca em favor de usar a diretiva de atraso de rastreamento. Agora o argumento técnico. Visita muito frequente ao seu site Robots cria uma carga adicional no servidor que você não precisa. O valor da diretiva é melhor indicar um inteiro, mas agora alguns robôs aprenderam a ler e números fracionários. Especifica o tempo em segundos, por exemplo:

User-Agent: Yandex
Atraso de rastreamento: 5.5

Directiva Clean-Param

A diretiva "Clean-Param" opcional indica os robôs de pesquisa das configurações de endereço do site que não precisam indexar e devem ser tomadas como o mesmo URL. Por exemplo, você tem as mesmas páginas são exibidas em endereços diferentes, caracterizadas em um ou mais parâmetros:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder\u003dFolder&page\u003dpage1/
www.domain.zone/ index.php? Folder \u003d 1 e página \u003d 1

Os robôs de pesquisa vão digitalizar todas essas páginas e perceber que as páginas são as mesmas, contêm o mesmo conteúdo. Primeiro, criará confusão na estrutura do site sob indexação. Em segundo lugar, a carga adicional no servidor aumentará. Em terceiro lugar, a velocidade de varredura cairá notavelmente. Para evitar esses problemas e use a diretiva de parâmetro Clean-. A sintaxe é a seguinte:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * n] [caminho]

Directiva "Clean -am", como "host" leu nem todos os mecanismos de pesquisa. Mas Yandex entende isso.

Erros que são freqüentemente encontrados em robots.txt

O arquivo robots.txt não está na raiz do site.

Arquivo de robôs. o txt deve ser colocado na raiz do site, somente no diretório raiz. Todos os outros arquivos com o mesmo nome, mas aqueles em outras pastas (diretórios) são ignorados pelos mecanismos de pesquisa.

Erro no nome do arquivo robots.txt

O nome do arquivo é escrito por letras pequenas (menor registro) e deve ser chamado robôs.tXT.. Todas as outras opções são consideradas errôneas e buscar tensões serão relatadas à ausência de um arquivo. Erros frequentes se parecem com isso:

Robots.txt.
Robots.txt.
robot.txt.

Use caracteres inválidos no robot.txt

O arquivo robots.txt deve estar na codificação ANSI e conter apenas latina. As diretrizes de escrita e seus valores por qualquer outro símbolos nacionais são inaceitáveis, com exceção do conteúdo dos comentários.

Robots.txt erros de sintaxe.

Tente seguir rigorosamente as regras de sintaxe no arquivo robots.txt. Erros de sintaxe podem resultar em ignorar o conteúdo do arquivo inteiro dos mecanismos de pesquisa.

Listando vários robôs em uma linha na diretiva do usuário do usuário

Um erro, muitas vezes permitido por Webmasters novatos, em vez devido à sua própria preguiça, não para quebrar o arquivo robots.txt na seção e combine comandos para vários mecanismos de pesquisa em uma seção, por exemplo:

User-Agent: Yandex, Googlebot, Bing

Para cada mecanismo de pesquisa, você precisa criar sua própria seção separada, levando em conta essas diretrizes que este mecanismo de pesquisa lê. Além disso, neste caso, é a seção unificada para todos os mecanismos de pesquisa:

Agente de usuário com valor vazio

A diretiva do usuário do usuário não pode ter um valor vazio. Alternativamente, só pode ser "permitir" e "proibir" e, em seguida, levando em conta o fato de que eles alteram seu valor. Especificar a diretiva do usuário do usuário com um valor vazio é um erro bruto.

Vários valores na diretiva não permitir

Mais frequentemente um prejuízo, mas, no entanto, periodicamente, pode ser visto em sites, esta é a indicação de vários valores em permitir e proibir directivas, por exemplo:

Não permitir: / folder1 / folder2 / folder3

Não permitir: / folder1
Não permitir: / folder2
Não permitir: / folder3

Não conformidade com as prioridades das diretivas em Robots.txt

Este erro já foi descrito acima, mas para consolidar o material será repetido. Anteriormente, a prioridade foi determinada pelo procedimento para directivas dirigidas. Até hoje, as regras mudaram, a prioridade é especificada pelo comprimento da linha. Se houver duas diretivas mutuamente exclusivas, permitir e não permitir com o mesmo conteúdo no arquivo, então a prioridade terá permissão.

Motores de busca e robots.txt

Diretivas no arquivo robots.txt são um caractere recomendador para mecanismos de pesquisa. Isso significa que as regras de leitura podem mudar ou complementar periodicamente. Lembre-se também que cada mecanismo de pesquisa processa as diretivas de arquivo à sua maneira. E nem todas as diretrizes, cada um dos motores de busca lêem. Por exemplo, a diretiva hospedeira hoje lê apenas Yandex. Ao mesmo tempo, o Yandex garante que o nome de domínio seja especificado como o espelho principal na diretiva hospedeira será atribuído ao principal, mas afirma que a prioridade do nome especificado na diretiva será dada.

Se você tiver um pequeno conjunto de regras, você pode criar uma única seção para todos os robôs. Caso contrário, não seja preguiçoso, crie seções separadas para cada mecanismo de pesquisa que você está interessado. Em particular, isso se refere a proibições, se você não quiser que algumas páginas entrem na pesquisa.

Navegação rápida nesta página:

A realidade moderna é que, no runet, nenhum site auto-respeito pode fazer sem um arquivo chamado robôs.tht - mesmo que você não tenha nada para proibir a indexação (embora haja páginas técnicas e conteúdo duplicado que exija o fechamento da indexação), em um Mínimo, para registrar a diretiva com www e sem www para o yandex é definitivamente vale a pena - para isso, e as regras para escrever robots.txt, que serão discutidos abaixo.

O que é robots.txt?

O arquivo com esse nome leva sua própria história desde 1994, quando o consórcio W3C decidiu inserir tal padrão para que os sites possam fornecer mecanismos de pesquisa nas instruções de indexação.

Um arquivo com esse nome deve ser salvo no diretório raiz do site, coloque-o em qualquer outra pastagem não é permitido.

O arquivo executa as seguintes funções:

proíbe quaisquer páginas ou páginas para indexação
permite quaisquer páginas ou grupos de páginas para indexar
especifica o robô Yandex, que espelho do site é o principal (com www ou sem www)
mostra a localização do arquivo com o mapa do site

Todos os quatro itens são extremamente importantes para otimização do site. A proibição de indexação permite fechar a indexação de uma página que contenha conteúdo duplicado - por exemplo, páginas de tag, arquivos, resultados de pesquisa, páginas com versões de impressão e assim por diante. A presença de conteúdo duplicado (quando o mesmo texto, embora no valor de várias ofertas, esteja presente em duas ou mais páginas) é um menos para o site no ranking dos motores de busca, porque os duplos devem ser o mais pequeno possível.

A diretiva Permitir não tem auto-valor, já que por padrão todas as páginas e está tão disponível para indexação. Ele funciona em um pacote com a proibição - quando, por exemplo, algum tipo de cabeçalho está completamente fechado de mecanismos de pesquisa, mas você gostaria de abrir a página nele ou uma página separada.

A especificação no espelho principal do site é também um dos elementos mais importantes na otimização: os mecanismos de pesquisa estão considerando os sites www.vashsite.ru e Vashtsyt.ru como dois recursos diferentes, se você especificar diretamente o contrário. Como resultado, o conteúdo é duvidado - a aparência de um duplo, uma diminuição na força de links externos (links externos podem ser colocados tanto a partir de www e sem www) e como resultado, pode levar a uma classificação inferior em resultados de pesquisa .

Para o Google, o espelho principal é prescrito nas ferramentas do webmasters (http://www.google.com/webmasters/), mas para Yandex, essas instruções podem ser prescritas apenas nesse robôs. TCT.

Especificando o arquivo XML com um cartão de site (por exemplo - SiteMap.xml) permite que os mecanismos de pesquisa detectem esse arquivo.

Instruções do User-Agent

User-Agent Neste caso, este é um mecanismo de pesquisa. Ao escrever instruções, você deve especificar se eles atuarão em todos os mecanismos de pesquisa (então o sinal da estrela é afixado - *) ou eles são projetados para algum mecanismo de pesquisa separado - por exemplo, Yandex ou Google.

Para definir o agente do usuário com uma indicação de todos os robôs, escreva no seu arquivo seguindo a seguinte linha:

Agente de usuário: *

Para Yandex:

User-Agent: Yandex

Para o Google:

User-Agent: Googlebot

Regras para proibir e permitir

Primeiro, deve-se notar que o arquivo robots.txt por sua validade deve conter necessariamente pelo menos uma diretiva não permitir. Agora considerando a aplicação dessas diretrizes sobre exemplos específicos.

Através deste código, você permite a indexação de todas as páginas do site:

Agente do usuário: * não permitir:

E através de tal código, pelo contrário, todas as páginas serão fechadas:

Agente do usuário: * não permitir: /

Para proibir a indexação de um diretório específico chamado Pasta, especifique:

User-Agent: * não permitir: / pasta

Você também pode usar asteriscos para substituir um nome arbitrário:

User-agent: * não permitir: * .php

Importante: o asterisco substitui o nome do arquivo inteiramente, ou seja, você não pode especificar o arquivo * .php, você pode apenas * .php (mas todas as páginas com extensão serão proibidas de evitar - você pode especificar um endereço de página específico) .

A diretiva permitir, conforme mencionado acima, é usada para criar exceções na proibição (caso contrário, não faz sentido, uma vez que as páginas padrão estão abertas).

Por exemplo, é proibido indexando a página na pasta Archive, mas deixará a página aberta index.html deste diretório:

Permitir: /rchive/index.html proibido: / Arquivo /

Indique o host e o mapa do site

O host é o espelho principal do site (ou seja, o nome do domínio mais www ou o nome de domínio sem esse console). O anfitrião é indicado apenas para o robô YANDEX (pelo menos uma equipe Disallow deve ser necessária.

Para especificar host robots.txt deve conter a seguinte entrada:

User-Agent: Yandex não permitir: host: www.vashsayt.ru

Quanto ao mapa do site, o Sitemap Robots.txt é especificado simplesmente falando o caminho completo para o arquivo correspondente, indicando o nome do domínio:

Sitemap: http: //vashsayt.ru/sitemap.xml

Sobre como fazer um mapa do site para WordPress, escrito.

Exemplo robots.txt para wordpress

Para instruções do WordPress, você deve especificar todos os diretórios técnicos (WP-admin, WP-inclui, etc.) para indexação, bem como páginas duplicadas criadas por tags, arquivos RSS, comentários, pesquisa.

Como exemplo de robots.txt for WordPress, você pode fazer um arquivo do nosso site:

User-Agent: Yandex proibido: / WP-admin Disallow: / wp-inclui proibição: /wp-login.php proibido: /wp-register.php proibido: /xmlrpc.php proibido: / Pesquisar não permitir: * / trackback não permitir: * / Feed / Disallow: * / alimentação proibida: * / Comentários / proibido: / feed \u003d proibido: /? S \u003d proibido: * / página / * não permitir: * / comentário não permitido: * / tag / * não permitir: * / Anexo / * Permitir: / WP-Conteúdo / Upload / Host: www..php proibido: /wp-register.php proibido: /xmlrpc.php proibir: / Pesquisar não permitir: * / trackback não permitido: * FEED DESERVER: * / Comentários / proibir: / feed \u003d não permitir: não permitir: * / página / * não permitir: * / comentário não permitir: * / tag / * permitir: / wp -conalow : / Wp-agent: * disalow: / wp-admin disposto: / wp-inclui proibido: /wp-login.php proibido: /wp-register.php proibido: /xmlrpc.php proibido: / Pesquisar não permitir: * / trackback Não permitir: * / Feed / Disallow: * / alimentação não permitir: * / comentários / proibir: / feed \u003d não permitir: * / página / página / * não permitir: * / tag / * disa. Llow: / anexamento / * Permitir: / wp-content / upload / sitemap: https: //www..xml

Baixe o arquivo robots.txt do nosso site pode ser.

Se, de acordo com os resultados de ler este artigo, você tem alguma dúvida - pergunte nos comentários!