Търсете дублиращи се страници. Вътрешен враг - дублиращи се страници

Издадохме нова книга „Маркетинг на съдържанието в социални мрежи: Как да влезете в главата на абонатите и да се влюбите във вашата марка."

Дублиращи се страници са идентични страници, разположени на различни URL адреси. Копията на страници затрудняват търсачките при индексирането на сайтове.

Какво представляват дублиращите се страници в сайта

Могат да възникнат двойки, когато се използват различни системиизпълване със съдържание. Няма проблем за потребителя, ако дубликатите са на един и същ сайт. Но търсачкиСлед като открият дублиращи се страници, те могат да приложат филтър/ниски позиции и т.н. Следователно дубликатите трябва бързо да бъдат премахнати и да се опитат да предотвратят появата им.

Какви са видовете вземания

Дубликатите на страници в сайта могат да бъдат пълни или непълни.

  • Непълни вземания- когато фрагменти от съдържание се дублират на ресурса. Така например, като поставим части от текста в една статия от друга, ще получим частично дублиране. Понякога такива вземания се наричат ​​непълни.
  • Пълни вземанияИма страници, които имат пълни копия... Те влошават класирането на сайта.

Например, много блогове съдържат дублиращи се страници. Дубликатите засягат класирането и отричат ​​стойността на съдържанието. Следователно, трябва да се отървете от дублиращи се страници.

Причини за дублиране на страници

  1. Използване на системата за управление на съдържанието(CMS) е най-честата причина за дублиране на страници. Например, когато един запис в ресурс се отнася до няколко категории наведнъж, чиито домейни са включени в адреса на сайта на самия запис. Резултатът е дублиращи се страници: например:
    wiki.site.ru/blog1/info/
    wiki.site.ru/blog2/info/
  2. Технически раздел NS Тук Bitrix и Joomla са най-зловещите. Например, една от функциите на сайта (търсене, филтриране, регистрация и т.н.) генерира параметрични адреси със същата информация по отношение на ресурс без параметри в URL адреса. Например:
    site.ru/rarticles.php
    site.ru/rarticles.php?ajax=Y
  3. Човешки фактор... Тук, на първо място, това означава, че човек чрез своето невнимание може да дублира една и съща статия в няколко раздела на сайта.
  4. Технически грешки... При неправилно генериране на връзки и настройки в различни системи за управление на информация възникват грешки, които водят до дублиране на страници. Например, ако връзката е криво зададена в системата Opencart, тогава може да възникне цикъл:
    site.ru/tools/tools/tools/…/…/…

Защо дублиращите се страници са опасни

  1. Оптимизирането на сайта в търсачките става забележимо по-сложно. Може да има много дубликати на една страница в индекса на търсачката. Те пречат на индексирането на други страници.
  2. са загубени външни връзкикъм уебсайта. Копията затрудняват идентифицирането на съответните страници.
  3. В резултатите от търсенето се появяват дубликати. Ако дублираният източник е снабден с поведенчески показатели и добър трафик, тогава когато данните се актуализират, той може да заеме мястото на основния ресурс в резултатите от търсачката.
  4. Позициите в резултатите от търсачките се губят. Ако има размити дубликати в основния текст, тогава поради ниска уникалност статията може да не бъде включена в SERP. Така например част от новина, блог, публикация и т.н. може просто да не бъде забелязана, тъй като алгоритъмът за търсене ги приема за дубликати.
  5. Вероятността основният сайт да попадне под филтъра на търсачката се увеличава. Търсачките на Google и Yandex се борят с неуникална информация, сайтът може да подлежи на санкции.

Как да намерите дублиращи се страници

За да премахнете дублиращи се страници, първо трябва да ги намерите. Има три начина за намиране на копия на сайт.


Как да премахнете дублиращи се страници

Трябва да се отървете от дубликатите. Необходимо е да се разберат причините за възникването и да се предотврати разпространението на копия на страниците.

  • Можете да използвате вградените функции на търсачката. В Google използвайте атрибут като rel = "canonical". В кода на всяко дублиране във формуляра е вграден етикет , което сочи към главната страница, която трябва да бъде индексирана.
  • Можете да забраните индексирането на страници във файла robots.txt. По този начин обаче няма да е възможно напълно да се премахнат дубликатите в търсачката. В крайна сметка, за всяка отделна страница не можете да зададете правилата за индексиране, тя ще работи само за групи от страници.
  • Можете да използвате 301 пренасочване. Така роботите ще бъдат пренасочени от дублирането към оригиналния източник. В този случай отговорът от сървъра 301 ще им каже, че такава страница вече не съществува.

Дубликатите влияят на класирането. Ако не бъдат премахнати навреме, тогава има голяма вероятност сайтът да попадне под филтрите Panda и AGS.

И ако дубликатът е за съдържанието и URL адресът е различен, той е каноничен и е затворен в робота, но страницата е в индекса, как да го оценим?

Canonical решава проблема с дублирането.
Но ако страницата попадне в индекса и след това е затворена в robots.txt, тогава роботът не може да я обходи отново и да преизчисли параметрите.

Съгласен съм с предишния отговор. Можете да разрешите проблема, като изпратите заявка за премахване в конзолата за търсене.

Максим Гордиенко

Защо се препоръчва използването на canonical за страници с пагинация, вместо да изтривате текста + noindex, следвайте + добавяне на конструкцията "Page N" в началото на заглавието на втората и следващите страници с пагинация (или можете също да добавите предишна / следваща )? Попаднах на факта, че при поставянето на canonical продуктите от втората и следващите страници бяха лошо индексирани.

Имаше ли практика да се използва HTTP заглавката на X-Robots-Tag за забрана на индексирането на страници, тъй като при използване на роботи такива страници често изскачат: http: //my.jetscreenshot.com ...?

Canonical е само препоръка. Можете също да използвате пренасочване 301 за подходящи страници. На програми за намиране на дубликати - препоръчвам Comparser + показва структурата на сайта и има още няколко полезни функции. Serpstat е скъп.

Използвайте по-добър canonical и pre-nect и ще бъде супер.

Максим Гордиенко

Seoprofi, например, пише, че има смисъл да се зададе канонично на пагинация само ако има страница "покажи всички продукти" (а препоръките на Google не дават пример с пагинация в класическата му форма). И така, стоките (съдържанието) на втората страница са различни от първата, нелогично е да се слага каноничното.

Ако трябва да проверите само дубликати, тогава е по-добре да използвате специфичен софтуер. Препоръчвам Netpeak Spider. Сега той активно се развива и проверява много параметри на сайта https: //netpeaksoftware.com .... Използваме го постоянно в работата си.
Serpstat е добър, защото е платформа с много инструменти: анализ на заявки, връзки, одит, проверка на позиция.

Pidkazhіt, пъпка невестулка, видяхме пеещите категории от уебсайта на интернет магазина, добавихме нови категории, добавихме нови категории към новите категории балове - добавени са нови категории към нас - създадени са нови категории стоки в нас. Як е по-красив от zrobiti? URL адресът статичен (а не динамичен) ли е направен към продукта статичен (а не динамичен) і от по-новите страници, за да поставите 301 пренасочвания на старите? (Интернет магазин е 6 месеца) какви стоки сте променили категорията? (в структурата на url адреса продуктът се нарича име на категория).

1. За уникално дублиране на URL адреса на стоките можете да ги добавите в една папка /продукт/, като категориите да се задават в менюто и списъка с трохи.
2. Тъй като има тъпа сила, това е само една от опциите.
2.1. Изберете rel canonical в основната продуктова линия. По-рано при избора ви на цена нова страна, към която се посочва нова категория в URL адреса. Моля, изберете страната на главата си.
2.2. Vikoristyte 301 пренасочва към URL адреса на главата. Ако сте на сайта, е невинно да изпратите връзка към стария URL, да препратите към 301 пренасочване.
3. URL адресът на продукта е по-вероятно да бъде статичен или удобен за потребителя.
4. "chi maє zmіnyuvatisya url на стоките, които са променили категорията?
Ако няма начин да не зададете категория в URL адреса (като в т. 1.), тогава ако има промяна на кожата в категорията в URL адреса, тогава има нужда да се минимизира и да се зададе 301 пренасочване към новия адрес.

Dyakuyu за вземане е по-подробно обяснено)

Кажете ми как да избегна дублираното съдържание. Има 33 позиции от един и същи вид продукт https: //delivax.com.ua/pack ...
Написването на уникално описание за всеки е трудно и привидно ненужно. Но поради факта, че описанието е дублирано, от 33 позиции в индекса само 5. Струва ли си да се тревожите за това и какво да правите?

Една от основните причини сайтът може да загуби позиции и трафик е нарастващият брой дублиращи се страници в сайта. Те могат да възникнат в резултат на особеностите на CMS (двигателя), желанието да получите максимален трафик от търсенето поради увеличаване на броя на страниците на шаблона в сайта, както и поради съзнателното или несъзнателно разположение на връзки от трети страни към вашите дубликати от други ресурси.

Проблемът с дубликатите е много тясно свързан с проблема за намиране на каноничния адрес на страницата от анализатор за търсене. В някои случаи роботът може да определи каноничния адрес, например, ако редът на параметрите е променен в динамичния URL:

? & котка = 10 & продукт = 25

По същество това е същата страница като

Продукт = 25 & котка = 10

Но в повечето случаи, особено когато се използва, е трудно да се определи каноничната страница, поради което в индекса са включени пълни и частични дубликати.

Интересното е, че за Yandex дубликатите не са толкова страшни и дори на страниците с резултати от търсене в сайта (които са частични дубликати един на друг) може да донесе добър трафик, но Google е по-критична към дубликатите (поради борбата срещу MFA и шаблонните сайтове).

Основни методи за намиране на дубликати в сайта

По-долу са основните методи, чрез които можете бързо да намерите дублиращи се страници на вашия сайт. Използвайте ги периодично.

1. Уеб администратор на Google

Отидете на google панелза уеб администратори. Намерете секцията от менюто "Оптимизация" - "HTML оптимизация". На тази страница можете да видите броя на дублираните мета описания и заглавията на TITLE.

По този начин можете да намерите пълни копия на страници, но за съжаление не е възможно да се определят частични дубликати, които обаче имат уникални заглавки на шаблона.

2. Програма Xenu

Ксену Link Sleuthе една от популярните SEO програми, която помага за извършване на технически одит на сайта и, наред с други неща, намиране на дублиращи се заглавия (ако например нямате достъп до Google Webmaster).

Повече подробности за тази програма са написани в статията за преглед. Просто обходете сайта си, сортирайте резултатите по заглавие и потърсете визуални съвпадения в заглавията. С цялото удобство, насамима същия недостатък - няма начин да намерите частични дублиращи се страници.

3. Резултати от търсенето

Резултатите от търсенето могат да отразяват не само самия сайт, но и определено отношение на търсачката към него. За да търсите дубликати в Google, можете да използвате специална заявка.

сайт: mysite.ru -сайт: mysite.ru /&

Къде са компонентите:

сайт: mysite.ru- показва страниците на сайта mysite.ru, които са в индекса на Google (общ индекс).

сайт: mysite.ru/&- показва страниците на сайта mysite.ru, участващи в търсенето (основен индекс).

По този начин е възможно да се идентифицират нискоинформативни страници и частични дубликати, които не участват в търсенето и могат да попречат на страниците от основния индекс да се класират по-високо. Когато търсите, не забравяйте да кликнете върху връзката "повторете търсенето, включително липсващи резултати", ако резултатите са малко, за да видите по-обективна картина (виж примера сайт: drezex.com .ua -сайт: drezex.com.ua/&).

След като сте намерили всички дублиращи се страници, можете безопасно да ги изтриете, като коригирате механизма на сайта или добавите маркер към заглавията на страниците.

- който работи по промоцията на уебсайтове. Той може да създаде две еднакви главни страници, които се различават по адреси.

Алгоритмите на търсачките работят автоматично и често се случва дубликатът да се възприема от системата като по-подходящ от оригиналната страница. В резултат на това изданието ще бъде издадено не от оригинала, а от неговия дубликат. От своя страна двойникът има различни параметри, които по-късно ще повлияят на песимизирането на сайта.

Съществува различни начинитърсене и проверка за дублиращи се страници. Те изискват от изпълнителя да има различна степен на познаване на CMS, както и да разбира как работи индексът за търсене. Нека се опитаме да ви покажем най-простият начинза да проверите сайта за дублиращи се страници. Веднага отбелязваме, че този метод също не е много точен. Но в същото време този метод ви позволява да търсите дублиращи се страници на сайта и не отнема много време.

Сега нека видим как да направите същото само в Google. По принцип процедурата не се различава; ще трябва да извършите същите действия като в Yandex.

Търсачката на Yandex незабавно предоставя списък с дубликати, но в Google, за да видите дубликати, ще трябва допълнително да щракнете върху „Показване на скрити резултати“, тъй като оригиналната страница често се показва на екрана.

От снимката се вижда, че в основните резултати от търсенето има 1 страница от сайта, като тази страница също е оригиналната. Но има и други дублиращи се страници в индекса. За да ги видите, трябва да кликнете върху връзката „Показване на скрити резултати“. В резултат на това получаваме списък, където оригиналът е под номер 1, а след това вече са поставени дубликати. Често пъти ще ви се налага да почиствате ръчно.

Как да проверите сайт за дублиращи се страници

В статията по-долу днес ще се опитаме да разгледаме много въпроси, свързани с проблема с дублиращите се страници, какво причинява дубликатите, как да се отървете от тях и като цяло защо трябва да се отървете от дубликатите.

Първо, нека да разберем какво се покрива от понятието „дублирано съдържание“. Често се случва някои страници да съдържат част или цялото едно и също съдържание. Ясно е, че всяка отделна страница има свой собствен URL.

Причини за дублиране:

- собствениците на сайтове сами създават дубликати за конкретни цели. Да кажем, че може да бъде страница за печат, която позволява на посетител на търговски сайт да копира необходимата информация за конкретен продукт или услуга.

- те се генерират от двигателя на интернет ресурса, тъй като той е вграден в тялото им. Определен брой съвременни CMS могат да създават подобни страници с различни URL адреси, които се намират в различни директории.

- грешки на уебмастър, който работи по популяризиране на уебсайт. Той може да създаде две еднакви главни страници, които се различават по адреси.

- промяна на структурата на сайта. Когато създадете нов шаблон с различна URL система, на новите страници, съдържащи старо съдържание, се дават различни URL адреси.

Ние сме изброили възможни причинипоявата на ясни двойници, но има и размити, тоест частични. Често пъти тези страници имат подобна част от шаблона на ресурса, но съдържанието им е малко по-различно. Подобни дубликати могат да бъдат страници на сайта, които имат същия резултат от търсенето, или отделен елементстатии. Най-често снимките стават такива елементи.

Необходимо е да се отървете от дублиращи се страници. Не, това не е вирус, но също така нараства с времето, но не зависи от самия ресурс. Дубликатите често са резултат от непрофесионален уеб администратор или резултат от неправилен код на сайта.

Важно е да знаете, че дубликатите могат да причинят значителни щети на ресурс. Какви са последствията от наличието на дубликати на сайта? Първо, това е влошаване на индексирането на ресурса. Съгласете се, че тази ситуация няма да зарадва много собственика на сайта. Докато финансите и времето се харчат постоянно за популяризиране на ресурса, ресурсът започва да губи популярността си след няколко дни. Дълбочината на проблема ще зависи от броя на вземанията.

Случва се така, че главната страница може да има няколко дубликата. Блогването е малко по-различно. Благодарение на replytocom може да има огромен брой дубликати поради копиране на коментари. Оказва се, че колкото по-популярен е блогът, толкова повече дубликати ще съдържа. От своя страна търсачките, в Функции на Google, поради наличието на такива дубликати, подценява позицията на ресурса.

Алгоритмите на търсачките работят автоматично и често се случва дубликатът да се възприема от системата като по-подходящ от оригиналната страница. В резултат на това изданието ще бъде издадено не от оригинала, а от неговия дубликат. От своя страна двойникът има различни параметри, които по-късно ще повлияят на песимизирането на сайта.

Какво получаваме? Дублиращите се страници се превръщат в реална пречка при индексирането на сайта, както и причина за грешен избор на търсачката на съответната страница и намаляват влиянието на естествените връзки. В допълнение, дубликатите неправилно разпределят вътрешното тегло, намалявайки силата на популяризираните страници, както и променяйки поведенческите индикатори.

Как да проверите сайт за дублиращи се страници?

Има различни начини за намиране и проверка за дублиращи се страници. Те изискват от изпълнителя да има различна степен на познаване на CMS, както и да разбира как работи индексът за търсене. Нека се опитаме да ви покажем най-простия начин да проверите сайта си за дублиращи се страници. Веднага отбелязваме, че този метод също не е много точен. Но в същото време този метод ви позволява да търсите дублиращи се страници на сайта и не отнема много време.

За да търсите и проверявате собствения си ресурс за дубликати, просто трябва да въведете специална заявка в разширеното търсене на търсачката. Ако използвате разширената версия на търсенето в Yandex, можете да получите доста подробни резултати поради факта, че тук можете да въведете уточняващи параметри за заявка.

Нуждаем се от адреса на ресурса и тази част от текста, чийто дубликат искаме да намерим. За да направите това, трябва да изберете част от текст на нашата страница и след това да въведете копирания текст и адреса на сайта в разширеното търсене на системата Yandex. Сега трябва да кликнете върху бутона "Намери", след което системата ще започне да търси.

Резултатите няма да се показват в нормален режим... Списъкът със сайтове ще съдържа само заглавията и фрагментите на нашия ресурс. В случай, че системата дава единичен резултат, това означава, че няма дубликати на тази страница. Но ако върнете няколко резултата, ще трябва да работите.

Сега нека видим как да направите същото само в Google. По принцип процедурата не се различава; ще трябва да извършите същите действия като в Yandex.

Разширеното търсене улеснява намирането на всички дубликати за конкретен текст. Разбира се, по този начин няма да получим дублиращи се страници, които не съдържат посочения текст. Трябва да кажа, че ако дубликата е създадена с извит шаблон, то показва само снимка от оригинала на друга страница. Разбира се, ако дубликатът не съдържа текста, тогава няма да е възможно да го определите с помощта на описания по-горе метод. Това изисква различен начин.

Вторият метод също се отличава със своята простота. Трябва да използвате специален оператор и да поискате индексиране на вашия сайт или на отделните му страници. След това ще трябва ръчно да прегледате резултатите при търсенето на дубликати.

Необходими правила за синтаксис на заявката:

В ситуация, когато само адресът се въвежда в търсенето начална страница, ни се показва списък с индексирани страници с помощта на робот за търсене. Но ако посочим адреса конкретна страница, тогава системата показва вече индексирани дубликати на тази страница.

Търсачката на Yandex незабавно предоставя списък с дубликати, но в Google, за да видите дубликати, ще трябва допълнително да щракнете върху „Показване на скрити резултати“, тъй като оригиналната страница често се показва на екрана.

Както можете да видите на снимката, в основните резултати от търсенето имаме една страница от сайта и тя също е оригиналната. Но има и други страници в индекса, които са дублирани. За да ги видите, трябва да кликнете върху връзката „Показване на скрити резултати“. В резултат на това получаваме списък, където оригиналът е под номер 1, а след това вече са поставени дубликати. Често пъти ще ви се налага да почиствате ръчно.

Днес ще говорим за дублирано съдържание или по-скоро за методи за намиране на дублиращи се страници във вашия ресурс. Проблем с дублирането в модерен интернете остър, защото ако имате дублиращи се страници на сайта,може да сте обект на санкции на търсачките.

И така, първото нещо, което трябва да знаем е „ какво е дублирано съдържание (дублирани страници)„И какви са техните видове и тогава ще търсим начини за борба с тях.

Дублирано съдържаниеПоказва същия текст на различни страницисайт (на различни адреси). Има два вида дублиращи се страници на сайта:

  • Пълни вземания;
  • Непълни (частични) вземания;

Пълни вземания- това е, когато една страница напълно показва съдържанието на друга и в същото време има различен адрес.? & Cat = 10 & product = 25 и https: // site /? Product = 25 & cat = 10

Непълни вземанияТова е частично съпоставяне на текста на една страница с друга. Това е например новинарска емисия в блогове или текст в страничните ленти. Най-често те се срещат в онлайн магазини и сайтове, където се публикуват обяви и новини.

Как да идентифицираме дублиращи се страници в сайта.

По-долу ще изброя методите, които се използват за определяне на дубликатите. Тук няма нищо сложно, трябва само малко време и търпение.

  1. резултати от търсенето на Yandex;
  2. резултати от търсенето с Google;
  3. Страницата се отваря с наклонена черта “/” и без;
  4. Страницата се отваря с www и без www;

1. Започнете с първия метод, отидете на вашия акаунт в Google уеб администратор. След това отидете на раздела „ Търсене изглед или оптимизация"И изберете" Оптимизиране на HTML“. Всички свързани мета описания и заглавия могат да бъдат намерени и разгледани на тази страница.

Google Webmaster открива дублиращи се страници на сайта.

Този метод е идеален за откриване на пълни вземания, частични вземания не могат да бъдат определени чрез този метод.

2. След това помислете как можете да определите дубликати с помощта Резултати от търсенето Yandex. Отиваме в търсачката и въвеждаме част от текста, докато го увиваме в „кавички“, за да получим точното появяване на фразата.



Yandex - проверете дублиращи се страници

Ако в резултатите от търсенето се появи само една оригинална страница, това е страхотно - това означава, че няма дубликати, но ако се появиха няколко страници, тогава има дубликати, които трябва да бъдат изтрити.

3. Използване на търсачка google системи, можете да дефинирате дублиращи се страници на сайта по същия начин, както в Yandex. Само в този случай е необходимо да низ за търсеневъведете заявката сайт: moysite.ru -site: moysite.ru/&, където фразата moysite.ru, я заменете с адреса на вашия сайт. Ако в резултатите от търсенето се намери само един от вашите сайтове, тогава няма дубликати, ако има няколко, е необходимо да се вземат мерки за борба с дублирането.

4. Дублирането също може да победи, ако използвате. Системата може да генерира автоматични връзки, които ще се отварят със или без наклонена черта “/”.? & Cat = 10 & product = 25, можете да проверите дали този адрес се отваря с наклонена черта в края “/” https: // site / ? & Cat = 10 & продукт = 25 /. Ако се отвори и не пренасочва () към горната страница, това е дублирана страница. Ако пренасочванията всичко работи добре и не е нужно да се притеснявате.

5. Определете огледалата на главната страница на сайта. Подобно на метода, описан по-горе, ние се опитваме да добавим www или да го премахнем от предната част на адреса на сайта. Ако става дума и за единия, и за другия адрес, значи имате дубликати на главната страница и трябва да ги залепите и да изберете основното огледало на сайта.

Потърсете дублирано съдържание на вашия сайт, тъй като това може да доведе до лоши последици. Ако Yandex е още по-лоялен към дубликатите, тогава Google много строго наказва и налага за това. Дублиращите се страници са грубо боклук в Интернет, а търсачките не обичат боклука, тъй като той изяжда много ресурси. Затова ви съветвам да премахнете тези проблеми още преди статията да бъде индексирана от търсачката.