Procure por páginas duplicadas. Inimigo interno - Páginas duplicadas

Lançamos um novo livro "Marketing de Conteúdo em nas redes sociais: Como entrar na cabeça dos inscritos e se apaixonar pela sua marca.

Páginas duplicadas são páginas idênticas entre si em URLs diferentes. Cópias de páginas dificultam a indexação de sites em mecanismos de busca.

O que são páginas duplicadas no site

Duplicatas podem ocorrer quando usadas sistemas diferentes preenchimento de conteúdo. Não há problema para o usuário se as duplicatas estiverem no mesmo site. Mas motores de busca, tendo encontrado páginas duplicadas, eles podem aplicar um filtro / posições inferiores, etc. Portanto, as duplicatas devem ser removidas rapidamente e tentar não permitir que elas apareçam.

Quais são os tipos de duplicatas

Páginas duplicadas no site estão completas e incompletas.

Tomadas incompletas- quando fragmentos de conteúdo são duplicados no recurso. Assim, por exemplo, e colocando partes do texto em um artigo de outro, obteremos duplicação parcial. Às vezes, essas duplicatas são chamadas de incompletas.
Tomadas completas são páginas que cópias completas. Eles pioram o ranking do site.

Por exemplo, muitos blogs contêm páginas duplicadas. As duplicatas afetam os rankings e reduzem o valor do conteúdo a nada. Portanto, você precisa se livrar de páginas duplicadas.

Causas de páginas duplicadas

Uso do Sistema de Gerenciamento de Conteúdo(CMS) é a causa mais comum de páginas duplicadas. Por exemplo, quando uma entrada em um recurso pertence a várias categorias ao mesmo tempo, cujos domínios são incluídos no endereço do site da própria entrada. O resultado são páginas duplicadas: por exemplo:
wiki.site.ru/blog1/info/
wiki.site.ru/blog2/info/
Seção técnica s. Aqui Bitrix e Joomla pecam mais. Por exemplo, uma das funções do site (pesquisa, filtragem, cadastro, etc.) gera endereços paramétricos com a mesma informação em relação a um recurso sem parâmetros na URL. Por exemplo:
site.ru/rarticles.php
site.ru/rarticles.php?ajax=Y
Fator humano. Aqui, em primeiro lugar, significa que uma pessoa, devido à sua desatenção, pode duplicar o mesmo artigo em várias seções do site.
Erros técnicos. Com a geração e configurações incorretas de links em vários sistemas de gerenciamento de informações, ocorrem erros que levam à duplicação de páginas. Por exemplo, se o link estiver torto no sistema Opencart, poderá ocorrer um loop:
site.ru/tools/tools/tools/…/…/…

Por que as páginas duplicadas são perigosas?

Torna-se muito mais difícil otimizar o site nos motores de busca. Pode haver muitas duplicatas de uma página no índice do mecanismo de pesquisa. Eles interferem na indexação de outras páginas.
estão perdidos links externos para o site. As cópias dificultam a identificação de páginas relevantes.
Há duplicatas na saída. Se a fonte duplicada for fornecida com métricas comportamentais e bom tráfego, quando os dados forem atualizados, eles poderão substituir o recurso principal nos resultados do mecanismo de pesquisa.
Perdeu posições na emissão de motores de busca. Se houver duplicatas difusas no texto principal, o artigo pode não entrar na SERP devido à baixa exclusividade. Assim, por exemplo, parte das notícias, blog, post, etc. pode simplesmente não ser notado, já que o algoritmo de busca os considera duplicados.
A probabilidade de colocar o site principal sob o filtro dos motores de busca aumenta. Os motores de busca Google e Yandex estão lutando contra informações não exclusivas, sanções podem ser impostas ao site.

Como encontrar páginas duplicadas

Para remover páginas duplicadas, primeiro você precisa encontrá-las. Existem três maneiras de encontrar cópias no site.

Como remover páginas duplicadas

Você precisa se livrar de duplicatas. É necessário entender as causas de ocorrência e evitar a distribuição de cópias de páginas.

Você pode usar os recursos internos do mecanismo de pesquisa. No Google, use um atributo no formato rel="canonical". Uma tag é incorporada no código de cada take no formulário , que aponta para a página mestra a ser indexada.
Você pode desativar a indexação de página no arquivo robots.txt. No entanto, desta forma não será possível eliminar completamente os duplicados no motor de busca. Afinal, você não pode escrever regras de indexação para cada página individual, só funcionará para grupos de páginas.
Você pode usar redirecionamentos 301. Assim, os robôs serão redirecionados da duplicata para a fonte original. Nesse caso, a resposta 301 do servidor informará que essa página não existe mais.

Duplicatas afetam as classificações. Se eles não forem removidos a tempo, há uma alta probabilidade de que o site caia sob os filtros Panda e ACS.

e se houver um conteúdo duplicado, e a url for diferente, existe uma canônica e ela está fechada em robts, mas a página está no índice, como isso deve ser considerado?

A Canonical resolve o problema de duplicação.
Mas se a página entrou no índice e foi fechada em robots.txt, o robô não poderá digitalizá-la novamente e recalcular os parâmetros.

Concordo com a resposta anterior. Você pode resolver o problema enviando uma solicitação de exclusão no console de pesquisa.

Maxim Gordienko

Por que é recomendável usar canônico para páginas de paginação, em vez de excluir o texto + noindex, siga + adicionando "Page N" no início do título na segunda página e nas páginas subsequentes da paginação (ou você também pode adicionar anterior / próximo) ? Encontrei o fato de que, ao colocar produtos canônicos da segunda página e das páginas subsequentes, foram mal indexados.

Havia uma prática de usar o cabeçalho HTTP X-Robots-Tag para evitar a indexação de páginas, já que ao usar robôs, páginas como esta geralmente aparecem: http://my.jetscreenshot.com... ?

Canonical é apenas uma recomendação. Você também pode usar redirecionamentos 301 para páginas relevantes. Para programas para encontrar duplicatas - eu recomendo Comparser + mostra a estrutura do site e há mais alguns recursos úteis. Serpstat é caro.

Melhor usar canonical e prev-nekts e será ótimo.

Maxim Gordienko

Seoprofi, por exemplo, escreve que faz sentido colocar um canônico na paginação apenas se houver uma página "mostrar todos os produtos" (e as recomendações do Google não fornecem um exemplo com paginação em sua forma clássica). E assim, as mercadorias (conteúdo) na segunda página diferem da primeira, é ilógico definir um canônico.

Se você só precisa verificar duplicatas, é melhor usar um software específico. Eu recomendo o Netpeak Spider. Atualmente está sendo desenvolvido ativamente e verifica muitos parâmetros no site https://netpeaksoftware.com... . Usamos o tempo todo no trabalho.
Serpstat é bom porque é uma plataforma com muitas ferramentas: análise de consultas, links, auditoria, verificação de posição.

Digamos, bud weasel, removemos do site da loja online uma categoria, criamos novas, nas categorias removidas, novas categorias de produtos foram prescritas para nossos produtos - por causa disso, novas páginas de produtos foram criadas em nós, e novas categorias foram criadas no URL da nova categoria. Como melhor roubar? Certifique-se de que a URL seja estática (não dinâmica) para o produto e coloque redirecionamentos 301 nas páginas antigas de novas criações? (іinternet-magazin іsnuє 6 misyаcіv) chi maє zmіnyuvatisya url do produto yakscho zmіnili categorіyu? (na estrutura da URL do produto є nomeando a categoria).

1. Para evitar a duplicação de URLs de produtos, coloque-os na mesma pasta /product/, e as categorias são definidas no menu breadboxes.
2. Mesmo que não haja possibilidade de fazê-lo, escolha uma das opções.
2.1. Link rel canonical para a página principal do produto. Assim que possível, o preço de uma nova página é na sua opinião, pois a nova categoria está incluída na URL. E você mesmo escolhe o lado principal.
2.2. Marque um redirecionamento 301 para a URL principal. Se não for sua culpa no site, envie uma mensagem para a URL antiga e, em seguida, envie-a para um redirecionamento 301.
3. É mais provável que os URLs dos produtos sejam estáticos ou amigáveis ao usuário.
4. "chi maє zmіnyuvatisya url do produto yakshcho zmіnili categorіyu? (na estrutura da url do produto є o nome da categoria)."
Embora seja impossível não definir uma categoria na URL (como no parágrafo 1.), quando você altera a categoria na URL, você também precisa alterar e alterar o redirecionamento 301 para um novo endereço.

Para uma explicação tão extensa)

Saiba como evitar conteúdo duplicado. Existem 33 itens do mesmo tipo https://delivax.com.ua/pack...
Escrever uma descrição única para cada um é difícil e não parece ser necessário. Mas devido ao fato de a descrição ser duplicada, apenas 5 das 33 posições do índice travam. Vale a pena se preocupar com isso e o que fazer a respeito?

Uma das principais razões pelas quais um site pode perder posições e tráfego é o número crescente de páginas duplicadas no site. Eles podem surgir como resultado das peculiaridades do CMS (motor), o desejo de obter o máximo de tráfego da pesquisa devido ao aumento do template no número de páginas no site, e também devido à colocação consciente ou inconsciente de links por terceiros para suas duplicatas de outros recursos.

O problema das duplicatas está intimamente relacionado ao problema de encontrar o endereço canônico de uma página por um analisador de pesquisa. Em alguns casos, o robô pode determinar o endereço canônico, por exemplo, se a ordem dos parâmetros foi alterada na URL dinâmica:

?&cat= 10 &produto= 25

Na verdade, esta é a mesma página que

produto= 25 &cat= 10

Mas na maioria dos casos, especialmente ao usar , é difícil determinar a página canônica, portanto, duplicatas completas e parciais acabam no índice.

Curiosamente, para o Yandex, as duplicatas não são tão assustadoras e, mesmo nas páginas de resultados de pesquisa do site (que são duplicatas parciais umas das outras), pode trazer bom trânsito, mas o Google é mais crítico em relação a duplicatas (devido à luta contra MFA e sites de modelo).

Os principais métodos para encontrar duplicatas no site

Abaixo estão os principais métodos pelos quais você pode encontrar rapidamente páginas duplicadas em seu site. Use-os periodicamente.

1. Google Webmaster

Vamos para barra do google para webmasters. Encontre a seção do menu "Otimização" - "Otimizar HTML". Nesta página, você pode ver o número de meta descrições e TITLEs duplicados.

Dessa forma, você pode encontrar cópias completas de páginas, mas infelizmente não pode determinar duplicatas parciais, que possuem títulos exclusivos, no entanto, de modelo.

2.Programa Xenu

Xenu Detetive de links- um dos programas de otimização populares que ajuda a realizar uma auditoria técnica do site e, entre outras coisas, encontrar títulos duplicados (se, por exemplo, você não tiver acesso ao Google Webmaster).

Mais detalhes sobre este programa estão escritos em um artigo de revisão. Basta rastrear o site, classificar os resultados por título e procurar correspondências de títulos visuais. Com toda a comodidade Por aqui tem a mesma desvantagem - não há como encontrar duplicatas de páginas parciais.

3. Resultados da pesquisa

Os resultados da pesquisa podem refletir não apenas o site em si, mas também alguma atitude do mecanismo de pesquisa em relação a ele. Para pesquisar duplicatas no Google, você pode usar uma consulta especial.

site:meusite.ru -site:meusite.ru /&

Onde estão os componentes:

site:meusite.ru- mostra as páginas do site mysite.ru, que estão no índice do Google (índice geral).

site:meusite.ru/&- mostra as páginas do site mysite.ru que participam da pesquisa (índice principal).

Assim, você pode identificar páginas com poucas informações e duplicatas parciais que não participam da pesquisa e podem impedir que as páginas do índice principal tenham uma classificação mais alta. Ao pesquisar, certifique-se de clicar no link “repetir pesquisa, incluindo resultados ausentes” se houver poucos resultados para ver uma imagem mais objetiva (ver exemplo site: drezex.com.ua-site:drezex.com.ua/&).

Agora que você encontrou todas as páginas duplicadas, você pode removê-las com segurança ajustando o mecanismo do site ou adicionando uma tag aos títulos das páginas.

- quem está trabalhando na promoção do site. Ele pode criar duas páginas mestras idênticas que diferem em endereços.

Os algoritmos do mecanismo de pesquisa funcionam automaticamente e, muitas vezes, uma duplicata é percebida pelo sistema como mais relevante do que a página original. Como resultado, a saída não retornará o original, mas sua duplicata. Por sua vez, a duplicata possui outros parâmetros, que posteriormente afetarão a pessimização do site.

Existe várias maneiras pesquise e verifique se há páginas duplicadas. Do executor, eles exigem graus variados de conhecimento de CMS, bem como uma compreensão de como funciona o índice de pesquisa. Vamos tentar te mostrar a maneira mais simples para verificar se há páginas duplicadas no site. Observamos imediatamente que esse método não é muito preciso. Mas, ao mesmo tempo, esse método permite pesquisar páginas duplicadas do site e não leva muito tempo.

Agora vamos ver como fazer o mesmo apenas no sistema Google. Em princípio, o procedimento não é diferente, você precisará executar as mesmas etapas do Yandex.

O mecanismo de pesquisa Yandex fornece imediatamente uma lista de duplicatas, mas no Google, para ver duplicatas, você também precisará clicar em "Mostrar resultados ocultos", pois a página original geralmente é exibida na tela.

Pela foto você pode ver que na edição principal há 1 página do site, e também é a original. Mas há outras páginas no índice que são duplicadas. Para vê-los, você precisa clicar no link “Mostrar resultados ocultos”. Como resultado, obtemos uma lista onde o original está no número 1 e, em seguida, os duplicadores já estão colocados. Muitas vezes, as duplicatas terão que ser limpas manualmente.

Como verificar um site para páginas duplicadas

No artigo abaixo, hoje tentaremos considerar muitas questões relacionadas ao problema de páginas duplicadas, o que causa duplicatas, como se livrar delas e, em geral, por que você precisa se livrar de duplicatas.

Para começar, vamos descobrir o que está sob o conceito de "duplicação de conteúdo". Muitas vezes acontece que algumas páginas podem conter parcial ou completamente o mesmo conteúdo. É claro que cada página individual tem seu próprio endereço.

Causas de duplicatas:

- os próprios proprietários do site criam duplicatas para fins específicos. Digamos que poderia ser uma página imprimível que permite que um visitante de um site comercial copie as informações necessárias sobre um determinado produto ou serviço.

- eles são gerados pelo motor do recurso da Internet, uma vez que está embutido em seu corpo. Um certo número de CMS modernos pode produzir páginas semelhantes com URLs diferentes, localizadas em diretórios diferentes.

- erros do webmaster que está trabalhando na promoção do site. Ele pode criar duas páginas mestras idênticas que diferem em endereços.

- alterar a estrutura do site. Quando você cria um novo modelo com um sistema de URL diferente, as novas páginas que contêm o conteúdo antigo obtêm URLs diferentes.

Nós listamos razões possíveis ocorrência de duplos claros, mas também difusos, ou seja, parciais. Muitas vezes, essas páginas têm uma parte semelhante do modelo de recurso, mas seu conteúdo é um pouco diferente. Duplicatas semelhantes podem ser páginas do site que têm o mesmo resultado de pesquisa ou elemento separado artigos. Na maioria das vezes, esses elementos são imagens.

Livre-se de páginas duplicadas. Não, isso não é um vírus, mas também cresce com o tempo, porém, isso não depende do recurso em si. As duplicatas geralmente são o resultado de um webmaster não profissional ou o resultado de um código de site incorreto.

É importante saber que duplicatas podem causar danos consideráveis ao recurso. Quais são as consequências da presença de duplicatas no site? Em primeiro lugar, trata-se de uma deterioração na indexação do recurso. Concorda que tal situação não agradará o proprietário do site. Embora as finanças e o tempo sejam constantemente gastos na promoção do recurso, o recurso começa a perder sua popularidade em poucos dias. A profundidade do problema dependerá do número de tomadas.

Acontece que a página principal pode ter algumas duplicatas. Com blogs, as coisas são um pouco diferentes. Graças ao replytocom, pode haver uma grande quantidade de duplicatas devido à cópia de comentários. Acontece que quanto mais popular o blog, mais duplicatas ele conterá. Por sua vez, os motores de busca Recursos do Google, devido à presença de tais duplicatas, subestima a posição do recurso.

Os algoritmos do mecanismo de pesquisa funcionam automaticamente e, muitas vezes, uma duplicata é percebida pelo sistema como mais relevante do que a página original. Como resultado, a saída não retornará o original, mas sua duplicata. Por sua vez, a duplicata possui outros parâmetros, que posteriormente afetarão a pessimização do site.

O que obtemos? Páginas duplicadas tornam-se um verdadeiro empecilho na indexação do site, bem como o motivo da escolha errada da página relevante pelo buscador, além de reduzir a influência dos links naturais. Além disso, duplicatas distribuem o peso interno de forma incorreta, reduzindo a força das páginas promovidas, além de alterar os indicadores comportamentais.

Como verificar o site para páginas duplicadas?

Existem várias maneiras de encontrar e verificar páginas duplicadas. Do executor, eles exigem graus variados de conhecimento de CMS, bem como uma compreensão de como o índice de pesquisa funciona. Vamos tentar mostrar a você a maneira mais simples de verificar se há páginas duplicadas no site. Observamos imediatamente que esse método não é muito preciso. Mas, ao mesmo tempo, esse método permite pesquisar páginas duplicadas do site e não leva muito tempo.

Para pesquisar e verificar se há duplicatas em seu próprio recurso, basta inserir uma consulta especial na pesquisa avançada do mecanismo de pesquisa. Se você usar a versão avançada da pesquisa no Yandex, poderá obter resultados bastante detalhados devido ao fato de que aqui é possível inserir parâmetros de refinamento para a consulta.

Precisamos do endereço do recurso e da parte do texto que queremos duplicar. Para fazer isso, precisamos selecionar um pedaço de texto em nossa página e inserir o texto copiado e o endereço do site na pesquisa avançada do sistema Yandex. Agora você precisa clicar no botão "Localizar", após o qual o sistema começará a pesquisar.

Os resultados não serão exibidos em modo normal. A lista de sites conterá apenas os títulos e trechos de nosso recurso. Caso o sistema produza um único resultado, isso significa que não há duplicatas desta página. Mas ao emitir vários resultados, você tem que trabalhar.

Agora vamos ver como fazer o mesmo apenas no sistema Google. Em princípio, o procedimento não é diferente, você precisará executar as mesmas etapas do Yandex.

A pesquisa avançada facilita a localização de todas as duplicatas de um texto específico. Obviamente, dessa forma, não obteremos duplicatas de páginas que não contenham o texto especificado. Deve-se dizer que, se a duplicata foi criada por um modelo curvo, ela mostra apenas, por exemplo, uma imagem do original em outra página. Obviamente, se a duplicata não contiver texto, não será possível determiná-la pelo método descrito acima. Isso requer outra maneira.

O segundo método também se distingue pela sua simplicidade. Você precisa usar um operador especial e solicitar a indexação do seu site ou de suas páginas individuais. Depois disso, você terá que analisar manualmente o problema em busca de duplicatas.

As regras de sintaxe de consulta obrigatórias são:

Na situação em que apenas o endereço é inserido na pesquisa pagina inicial, é mostrada uma lista de páginas indexadas usando um robô de pesquisa. Mas se especificarmos o endereço página específica, o sistema exibe duplicatas já indexadas desta página.

O mecanismo de pesquisa Yandex fornece imediatamente uma lista de duplicatas, mas no Google, para ver duplicatas, você também precisará clicar em "Mostrar resultados ocultos", pois a página original geralmente é exibida na tela.

Como você pode ver na foto, na edição principal temos uma página do site e também é a original. Mas há outras páginas no índice que são duplicadas. Para vê-los, você precisa clicar no link “Mostrar resultados ocultos”. Como resultado, obtemos uma lista onde o original está no número 1 e, em seguida, os duplicadores já estão colocados. Muitas vezes, as duplicatas terão que ser limpas manualmente.

Hoje falaremos sobre conteúdo duplicado, ou melhor, sobre métodos para encontrar páginas duplicadas em seu recurso. O problema da duplicação internet modernaé aguda, porque se você tem páginas duplicadas no site, você pode ser penalizado pelos motores de busca.

Então, a primeira coisa que precisamos saber é " o que é duplicação de conteúdo (páginas duplicadas)” e quais são seus tipos, e então buscaremos maneiras de lidar com eles.

Conteúdo duplicadoé uma exibição do mesmo texto em páginas diferentes site (em endereços diferentes). As páginas duplicadas no site são de dois tipos:

Duplicatas completas;
Duplicatas incompletas (parciais);

Tomadas completas- é quando uma página exibe totalmente o conteúdo de outra e ao mesmo tempo tem um endereço diferente.?&cat=10&product=25 e https://site/?product=25&cat=10

Tomadas incompletas- esta é uma exibição parcial do texto da página em outra. Este é, por exemplo, um feed de notícias em blogs ou texto em barras laterais. Na maioria das vezes eles são encontrados em lojas online e sites onde são publicados anúncios e notícias.

Como identificar páginas duplicadas no site.

Abaixo vou dar os métodos que são usados para determinar duplicatas. Não há nada complicado aqui, só leva um pouco de tempo e paciência.

resultados de pesquisa Yandex;
resultados de pesquisa do Google;
A página abre com uma barra “/” e sem;
A página abre com www e sem www;

1. Vamos começar com o primeiro método, vá para sua conta de webmaster do Google. Em seguida, vá para a guia " Ver na pesquisa ou Otimização” e escolha “ Otimização HTML". Nesta página, você pode encontrar e visualizar todas as meta descrições e títulos relacionados.

O Google Webmaster determina páginas duplicadas em um site.

Este método é ótimo para detectar tomadas completas, tomadas parciais não podem ser detectadas usando este método.

2. Em seguida, consideramos como você pode determinar duplicatas usando Procurar Resultados Yandex. Vamos para o mecanismo de busca e inserimos parte do texto, enquanto o envolvemos em “aspas” para obter a ocorrência exata da frase.

Yandex - verifique páginas duplicadas

Se apenas uma página do original aparecer nos resultados da pesquisa, isso é excelente - significa que não há duplicatas, mas se aparecerem algumas páginas, há duplicatas que precisam ser removidas.

3. Usando o mecanismo de pesquisa Sistemas do Google, você pode determinar páginas duplicadas no site, assim como no Yandex. Só então é necessário seqüência de pesquisa digite a solicitação site:moysite.ru -site:moysite.ru/&, onde a frase moysite.ru é substituída pelo endereço do seu site. Se apenas um de seus sites foi encontrado nos resultados da pesquisa, não há duplicatas, se houver vários, é necessário tomar medidas para combater a duplicação.

4. A duplicação também pode ser derrotada se você usar . O sistema pode gerar links automáticos que vão abrir tanto com a barra “/” quanto sem.?&cat=10&product=25, você pode verificar se esse endereço abre com uma barra no final “/” https://website/?&cat =10&produto= 25/. Se ele abrir e não redirecionar () para a página acima, então esta é uma página duplicada. Se ele redirecionar tudo funciona bem e você não precisa se preocupar.

5. Determinamos os espelhos da página principal do site. Da mesma forma que o método descrito acima, tentamos adicionar www ou remover endereços de sites da frente. Se se trata de um e outro endereço, você tem duplicatas da página principal e precisa colá-las e selecionar o espelho principal do site.

Procure conteúdo duplicado em seu recurso, pois isso pode levar a consequências ruins. Se o Yandex é ainda mais fiel a duplicatas, o Google é muito punitivo por isso e impõe. Páginas duplicadas são, grosso modo, lixo da Internet, e os mecanismos de busca não gostam de lixo porque consome muitos recursos. Portanto, aconselho a eliminar esses problemas antes mesmo que o artigo seja indexado por um mecanismo de busca.