Jak správně provést soubor robotů txt. Jak upravit soubor robotů txt

Robots.txt je textový soubor, který obsahuje parametry indexování stránek pro roboty vyhledávače.

Doporučení o obsahu souboru

Yandex podporuje následující směrnice:

Směrnice	Co to dělá.
Uživatelský agent *
Zakázat.
Sitemap
Čistý param
Dovolit.
Zpoždění procházení	Doporučujeme používat nastavení rychlosti procházení

Směrnice	Co to dělá.
Uživatelský agent *	Označuje robot, ke kterému platí pravidla uvedená v robotech.txt.
Zakázat.	Zakazuje indexování sekcí webu nebo jednotlivé stránky.
Sitemap	Určuje cestu k souboru Sitemap, který je zveřejněn na webu.
Čistý param	Označuje robota, že stránka UTM tagy, které byly rozloženy při indexování.
Dovolit.	Umožňuje indexování sekcí webu nebo jednotlivé stránky.
Zpoždění procházení	Určuje minimální interval (v sekundách) pro vyhledávací robot čekat po načtení jedné stránky, než začnete načíst další. Namísto směrnice doporučujeme použít nastavení rychlosti procházení v Yandex.Webmasteru.

* Povinná směrnice.

Nejčastěji potřebujete Directive Sitemap, Sitemap a Clean-Param. Například:

Uživatelský agent: * Směrnice jsou nastaveny pro zakázat: / bin / # zakáže odkazy z nákupního košíku. Zakázat: / Vyhledávání / # Zakáže stránky odkazy vyhledávání vloženého na webu Zakázat: / admin / # Zakáže odkazy z admin panel Sitemap: http://example.com/sitemap # Určete pro robota soubor Sitemap souboru webu Čistý param: Ref /Some_dir/get_book.pl

Roboty z jiných vyhledávačů a služeb mohou interpretovat cestu. Služby v diffretu.

Poznámka. Robot bere v úvahu případ podřetězců (název souboru nebo cestou, název robota) a ignoruje případ v názvech směrnic.

Pomocí cyrilických znaků.

Použití cyrilice abecedy není povoleno v souboru HTTP robots.txt a serveru HTTP.

Pro názvy domén použijte PuňyCode. Adresy stránek, použijte stejné kódování jako aktuální struktury webu.

Dobré odpoledne milí přátelé! Vše, co víte, že optimalizace pro vyhledávače je odpovědná a jemná podnikání. Je nutné vzít v úvahu naprosto každou maličkost, abyste získali přijatelný výsledek.

Dnes budeme hovořit o souboru Robots.txt, který je známý každému webmasteru. Je to v tom, že všechny základní pokyny pro vyhledávací roboty jsou předepsány. Zpravidla se vám líbí dodržovat předepsané pokyny a v případě nesprávné kompilace odmítnout indexovat webový zdroj. Dále vám řeknu o tom, jak udělat správnou verzi robots.txt, stejně jako jak jej nakonfigurovat.

V předmluvě jsem již popsal, co to je. Teď vám řeknu, proč je potřeba. Robots.txt je malý textový soubor, který je uložen v kořenovém adresáři webu. Používá se vyhledávači. Je to jasně napsáno z indexovacích pravidel, tj. Které sekce webu musí být indexovány (přidat na vyhledávání) a což není.

Průmyslové sekce lokality jsou obvykle uzavřeny od indexace. Občas, blacklist spadá z nedodržených stránek (Copy-Paste Ochrana osobních údajů tohoto příkladu). Zde, "jsou vysvětleni roboti" principy práce s sekcemi, které je třeba indexovat. Velmi často předepisujte pravidla pro několik robotů zvlášť. Budeme o tom dále hovořit.

Při nastavení robotů.txt budou vaše stránky zaručeny v polohách pro vyhledávače. Roboty budou mít v úvahu pouze užitečný obsah, který projevuje duplicitní nebo technické sekce.

Vytváření robotů.txt.

Chcete-li vytvořit soubor, stačí použít standardní funkčnost operačního systému, po kterém jej vyložíte na server přes FTP. Kde leží (na serveru) snadno odhadnout - v kořene. Typicky se tato složka nazývá public_html.

Můžete se snadno dostat do ní s libovolným FTP klientem (například) nebo vestavěným správcem souborů. Přirozeně nebudeme nahrát prázdný robot pro server. Provádíme několik hlavních směrnic (pravidla).

Uživatelská agenta: *
Dovolit: /

Použití těchto řádků v souboru roboty, obrátíte se na všechny roboty (směrnice o uživateli agent), což jim umožňuje indexovat vaše stránky plně a úplně (včetně všech. Stránky umožňují: /)

Tato volba samozřejmě není pro nás zvláště vhodná. Soubor nebude zvláště užitečný pro optimalizaci vyhledávače. Určitě potřebuje kompetentní konfiguraci. Ale před tím, že zvážíme všechny hlavní směrnice a hodnoty robotů.txt.

Směrnice

Uživatelský agent.	Jedním z nejdůležitějších, protože označuje, které roboty následují pravidla po něm. Pravidla jsou zohledněna až do dalšího uživatelského agenta v souboru.
Dovolit.	Umožňuje indexaci libovolných zdrojových bloků. Například: "/" nebo "/ tag /".
Zakázat.	Naopak zakazuje indexování sekcí.
Sitemap	Cesta k mapě stránek (ve formátu XML).
Hostitel.	Hlavní zrcadlo (s WWW nebo bez, nebo pokud máte několik domén). Zde také označuje zabezpečený protokol HTTPS (je-li k dispozici). Pokud máte standardní http, nemusíte ji určit.
Zpoždění procházení	S ním můžete nastavit interval návštěvníků a stahování souborů vašich stránek pro roboty. Pomáhá snížit zatížení hostitele.
Čistý param	Umožňuje zakázat indexování parametrů na určitých stránkách (podle typu www.site.com/cat/state?admin_id8883278). Na rozdíl od předchozích směrnic jsou zde specifikovány 2 hodnoty (adresa a parametr sám).

Jedná se o všechna pravidla, která jsou podporována vlajkovými vyhledávači. Je to s jejich pomocí, vytvoříme naše roboty, provozujeme různé variace pro různé typy lokalit.

Nastavení

Pro kompetentní konfiguraci souboru robota musíme přesně vědět, který z sekcí webu by měly být indexovány a které nejsou. V případě jednoduché jedné stránky na HTML + CSS jsme dostatečně registrováni několik hlavních směrnic, například:

Uživatelská agenta: *
Dovolit: /
Sitemap: site.ru/sitemap.xml.
Hostitel: www.site.ru.

Zde jsme označili pravidla a hodnoty pro všechny vyhledávače. Je však lepší přidat samostatné směrnice pro Google a Yandex. Bude to vypadat takto:

Uživatelská agenta: *
Dovolit: /

Uživatelská agenta: Yandex
Dovolit: /
Zakázat: / Politika

Uživatelská agenta: GoogleBot
Dovolit: /
Zakázat: / tagy /

Sitemap: site.ru/sitemap.xml.
Hostitel: site.ru.

Nyní v našem HTML webu budou indexovány absolutně všechny soubory. Pokud chceme vyloučit nějakou stránku nebo obrázek, pak musíme určit relativní spojení s tímto fragmentem v zakázání.

Můžete použít roboty Automatické služby generování souborů. Nezaručujeme, že s jejich pomocí vytvoříte dokonale správnou možnost, ale můžete zkusit jako seznámení.

Mezi tyto služby mohou být přiděleny:

S jejich pomocí můžete vytvářet robots.txt v automatickém režimu. Osobně opravdu nedoporučuji tuto možnost, protože je mnohem snazší udělat ručně, došlo pod mou platformu.

Když už mluvíme o platformách, myslím všechny druhy CMS, rámců, systémů SaaS a mnohem více. Dále budeme hovořit o tom, jak přizpůsobit soubor WordPress a Joomla Robots.

Ale předtím vyberte několik univerzálních pravidel, která mohou být vedena vytvořením a konfigurací robotů téměř pro všechny stránky:

Zavřít od indexování (zakázáno):

správa stránek;
stránky osobního účtu a registrace / autorizace;
košík, data s formuláři objednávek (pro internetový obchod);
složka CGI (umístěná na hostiteli);
servisní sekce;
skripty Ajax a JSON;
UTM a OPENSTAT štítky;
různé parametry.

Otevřeno (Povolit):

obrázky;
Soubory JS a CSS;
další prvky, které by měly být zohledněny podle vyhledávačů.

Kromě toho, na konci nezapomeňte zadat data Sitemap (cesta k mapě stránek) a hostitele (hlavní zrcadlo).

Robots.txt pro WordPress.

Chcete-li vytvořit soubor, musíme hodit robots.txt do kořenového adresáře webu. Obsah můžete změnit v tomto případě pomocí všech stejných manažerů FTP a souborů.

Existuje pohodlnější volba - vytvořit soubor s pluginy. Tato funkce je zejména YOAST SEO. Upravit roboty přímo z administrátora je mnohem pohodlnější, takže sám používám tento způsob práce s robots.txt.

Jak se rozhodnete vytvořit tento soubor - vaše podnikání, je pro nás důležitější, abychom pochopili, které směrnice by tam měly být. Na vašich stránkách běží aplikace WordPress pomocí této možnosti:

Uživatelská agenta: * # pravidla pro všechny roboty, s výjimkou Google a Yandex

Zakázat: / CGI-BIN # složka s skripty
Zakázat: /? # Parametry požadavků z domovské stránky
Zakázat: / wp- # Soubory samotného CSM (s WP-)
Zakázat: *? S \u003d # \
Zakázat: * & s \u003d # Vše související s vyhledáváním
Disolow: / Vyhledávání / # /
Zakázat: / autor / # Archivy autorů
Zakázat: / Uživatelé / # a uživatelé
Zakázat: * / trackback # Oznámení od wp, že vám někdo odkazuje
Zakázat: * / krmivo # Fid v xml
Zakázat: * / rss # a rss.
Zakázat: * / embed # Vestavěné prvky
Zakázat: /xmlrpc.php. # WordPress API.
Zakázat: * UTM \u003d # UTM štítky
Zakázat: * OpenStat \u003d # OpenStat Labels.
Zakázat: / tag / # Tagy (pokud existují)
Povolit: * / Uploads # otevřené stahování (obrázky atd.)

Uživatelská agenta: GoogleBot # Pro Google.
Zakázat: / CGI-BIN
Zakázat: /?
Zakázat: / wp-
Zakázat: *? S \u003d
Zakázat: * & s \u003d
Disolow: / Vyhledávání /
Zakázat: / autor /
Zakázat: / Uživatelé /
Zakázat: * / trackback
Zakázat: * / krmivo
Zakázat: * / rss
Zakázat: * / embed
Zakázat: /xmlrpc.php.
Zakázat: * UTM \u003d
Zakázat: * OpenStat \u003d
Zakázat: / tag /
Povolit: * / Uploads
Povolit: / *\u003e .js. # otevřete soubory JS
Povolit: / *, / abss. # a css.
Povolit: /wp-*.png. # a obrázky ve formátu PNG
Povolit: /wp-*.jpg. # \
Povolit: /wp-*.jpeg. # a v jiných formátech
Povolit: /wp-*.gif. # /
# funguje společně s plugins

Uživatelská agenta: Yandex # pro Yandex
Zakázat: / CGI-BIN
Zakázat: /?
Zakázat: / wp-
Zakázat: *? S \u003d
Zakázat: * & s \u003d
Disolow: / Vyhledávání /
Zakázat: / autor /
Zakázat: / Uživatelé /
Zakázat: * / trackback
Zakázat: * / krmivo
Zakázat: * / rss
Zakázat: * / embed
Zakázat: /xmlrpc.php.
Zakázat: / tag /
Povolit: * / Uploads
Povolit: / *\u003e .js.
Povolit: / *, / abss.
Povolit: /wp-*.png.
Povolit: /wp-*.jpg.
Povolit: /wp-*.jpeg.
Povolit: /wp-*.gif.
Povolit: /wp-admin/admin-Ajax.php.
# Clean UTM tagy
Čistý param: OpenStat # a o Openstati nezapomeňte

Sitemap: # Předepisujeme cestu k mapě stránek
Hostitel: https://site.ru. # Hlavní zrcadlo

Pozornost! Při kopírování řetězců do souboru - nezapomeňte odstranit všechny komentáře (text po #).

Tato volba Robots.txt je nejoblíbenější mezi webmastery, které používají WP. Je to perfektní? Ne. Můžete se pokusit přidat něco nebo naopak odstranit. Ale všimněte si, že při optimalizaci textů robotů není chyba neobvyklá. Budeme o nich mluvit dále.

Robots.txt pro Joomla.

A i když v roce 2018 Joomla zřídka, kdo používá, věřím, že je nemožné určit tuto úžasnou CMS. Při propagaci projektů na Joomla budete jistě vytvořit soubor roboty, a jinak, jak chcete zavřít zbytečné prvky z indexace?

Stejně jako v předchozím případě můžete soubor vytvořit ručně, jen ho hodit na hostitele nebo použít modul pro tyto účely. V obou případech budete muset kompetentně konfigurovat. To bude vypadat jako správná volba pro Joomla:

Uživatelská agenta: *
Povolit: /*.csss?
Povolit: /*.js?
Povolit: /*.jpg?c.
Povolit: /*.png?c.ova.
Zakázat: / cache /
Zakázat: /*.pdf.
Zakázat: / administrátor /
Zakázat: / Instalace /
Zakázat: / cli /
Zakázat: / Knihovny /
Zakázat: / Jazyk /
Zakázat: / komponenty /
Zakázat: / moduly /
Zakázat: / Zahrnuje /
Zakázat: / bin /
Zakázat: / komponentu /
Zakázat: / TMP /
Zakázat: /index.php.
Zakázat: / pluginy /
Zakázat: / * Mailto /

Zakázat: / logy /
Zakázat: / Komponenta / Tagy *
Zakázat: / *%
Zakázat: / rozložení /

Uživatelská agenta: Yandex
Zakázat: / cache /
Zakázat: /*.pdf.
Zakázat: / administrátor /
Zakázat: / Instalace /
Zakázat: / cli /
Zakázat: / Knihovny /
Zakázat: / Jazyk /
Zakázat: / komponenty /
Zakázat: / moduly /
Zakázat: / Zahrnuje /
Zakázat: / bin /
Zakázat: / komponentu /
Zakázat: / TMP /
Zakázat: /index.php.
Zakázat: / pluginy /
Zakázat: / * Mailto /

Zakázat: / logy /
Zakázat: / Komponenta / Tagy *
Zakázat: / *%
Zakázat: / rozložení /

Uživatelská agenta: GoogleBot
Zakázat: / cache /
Zakázat: /*.pdf.
Zakázat: / administrátor /
Zakázat: / Instalace /
Zakázat: / cli /
Zakázat: / Knihovny /
Zakázat: / Jazyk /
Zakázat: / komponenty /
Zakázat: / moduly /
Zakázat: / Zahrnuje /
Zakázat: / bin /
Zakázat: / komponentu /
Zakázat: / TMP /
Zakázat: /index.php.
Zakázat: / pluginy /
Zakázat: / * Mailto /

Zakázat: / logy /
Zakázat: / Komponenta / Tagy *
Zakázat: / *%
Zakázat: / rozložení /

Hostitel: site.ru. # Nezapomeňte změnit adresu do svého
Sitemap: site.ru/sitemap.xml. # a tady

Zpravidla je to dost, takže zbytečné soubory nespadají do indexu.

Chyby při nastavení

Velmi často lidé umožňují chybám při vytváření a konfiguraci souboru roboty. Zde je nejčastější z nich:

Pravidla jsou uvedena pouze pro uživatelské agenta.
Neexistuje žádný hostitel a sitemap.
Přítomnost protokolu HTTP v hostitelské směrnici (pouze musíte zadat HTTPS).
Nedodržení pravidel hnízdění při otevírání / zavírání obrázků.
Není uzavřeno UTM a OpenStat tagy.
Stisknutí hlavních směrnic hostitele a Sitemap pro každý robot.
Superficiální studie souborů.

Je velmi důležité správně nakonfigurovat tento malý soubor. Při schválení hrubým chybám můžete ztratit významnou část provozu, takže být velmi pozorný při nastavování.

Jak zkontrolovat soubor?

Pro tyto účely je lepší používat speciální služby z YanDEX a Google, protože tyto vyhledávané motory jsou nejoblíbenější a nejoblíbenější (nejčastěji jedinečné), takové vyhledávače jako Bing, Yahoo nebo Rambler považují žádný smysl.

Chcete-li začít, zvažte možnost s Yandexem. Jdeme do webmasteru. Po tom, analytické nástroje Robots.txt.

Zde můžete zkontrolovat soubor pro chyby, stejně jako kontrola v reálném čase, které stránky jsou otevřeny indexování a které nejsou. Velmi pohodlné.

Google má přesně stejnou službu. Jdeme B. Hledat konzole. . Zaznamenáváme kartu Scan, vyberte - nástroj Robots.txt.

Zde jsou přesně stejné funkce jako v domácí službě.

Upozorňujeme, že mi ukazuje následující chyby. Důvodem je skutečnost, že Google nerozpozná směrnice pro čištění parametrů, které jsem zadal pro Yandex:

Čistý param: Utm_source & Utm_Medium & Utm_Campaign
Čistý param: OpenStat

To nestojí za to věnovat pozornost tomu, protože Google roboti používají pouze pravidla pro GoogleBot.

Závěr

Soubor Robots.txt je velmi důležitý pro SEO optimalizace vašich stránek. Pojď do své konfigurace se všemi odpovědností, protože s nesprávnou implementací vše může jít jako šok.

Zvažte všechny pokyny, které jsem sdílel v tomto článku, a nezapomeňte, že nemusíte nutně zkopírovat možnosti roboty. Je možné, že budete muset navíc porozumět každému ze směrnic, přizpůsobení souboru podle konkrétního případu.

A pokud chcete více hluboce přijít na to v robots.txt a vytvářet webové stránky na WordPress, pak vás zveme. Nacházíte se, jak můžete snadno vytvořit stránku, aniž byste jej zapomněli na optimalizaci pro vyhledávače.

Robots.txt. - Jedná se o textový soubor, který se nachází v kořenovém adresáři webu - http://site.ru/robots.txt.. Jeho hlavním účelem je požádat určité směrnice pro vyhledávače - co a kdy na webu.

Nejjednodušší roboti.txt.

Nejjednodušší roboti.txt, který všechny vyhledávače umožňují vše indexu, vypadá takto:

Uživatelská agenta: *
Zakázat:

Pokud směrnice o zakázce nemá nakloněné lomítko, pak jsou povoleny všechny stránky pro indexování.

Taková směrnice zcela zakazuje stránky indexování:

Uživatelská agenta: *
Zakázat: /

Uživatelský agent - Označuje, pro kterého jsou směrnice zamýšleny, hvězdy označují, že pro všechny PS, uživatelský agent je označen pro Yandex: Yandex.

Nápověda Yandex je napsáno, že jeho vyhledávací roboty zpracovávají uživatelské agenta: *, ale pokud jste prezentováni uživatelským agentem: Yandex, uživatelský agent: * ignorován.

Zakázat a povolit směrnice

Existují dva hlavní směrnice:

Zakázat - k zákazu

Povolit - Povolit

Příklad: Na blogu jsme zakázáni indexovat složku / WP-obsah / kde jsou umístěny plug-iny, šablony i.t.p. Existují však také obrázky, které PS jsou indexovány, aby se podílely na hledání obrázků. Chcete-li to provést, použijte takové schéma:

Uživatelská agenta: *
Povolit: / WP-Content / Uploads / # Povolit indexování snímků v složce Uploads
Zakázat: / WP-obsah /

Postup pro používání směrnic je důležitý pro YANDEX, pokud se vztahují na jedno strany nebo složky. Pokud takto zadáte:

Uživatelská agenta: *
Zakázat: / WP-obsah /
Povolit: / WP-Content / Uploads /

Snímky nebudou načtou robot Yandex z / uploads /, protože první směrnice je provedena, která zakazuje veškerý přístup ke složce WP-Content.

Google patří snazší a provádí všechny směrnice souboru Robots.txt bez ohledu na jejich umístění.

Nezapomeňte také na toto směrnice s lomítkem a bez, provádět různé role:

Disolow: / O Zakázaný přístup k celému site.ru/about/ adresáři, nebude také indexovány stránky, které obsahují asi - site.ru/about.html, site.ru/aboutlive.html i.t.p.

Zakázat: / o / Zakažte indexaci stránek robotů v adresáři site.ru/about/ a stránky podle typu.ru/about.html i.t.p. bude k dispozici indexování.

Regulární výrazy v robotech.txt

Jsou podporovány dva znaky, to je:

* - předpokládá jakýkoli pořadí znaků.

Příklad:

Zakázat: / o * Zakázat přístup ke všem stránkám, které obsahují v zásadě, tato směrnice bude fungovat také bez hvězd. Ale v některých případech není tento výraz vyměnitelný. Například v jedné kategorii existují stránky C.HTML na konci a bez zavření od indexování všech stran, které obsahují HTML, předepisujeme tuto směrnici:

Zakázat: /About/*.html.

Stránky site.ru/about/live.html jsou nyní uzavřeny od indexování a stránka site.ru/about/Live je otevřená.

Další příklad analogie:

Uživatelská agenta: Yandex
Povolit: /About/*.html. # Nechte mě indexovat
Zakázat: / o /

Všechny stránky budou uzavřeny, kromě stránek, které končí .html

$ - Vykresluje zbývající část a označuje konec řetězce.

Příklad:

Disolow: / O - Tato směrnice Robots.txt zakazuje indexování všech stránek, o kterých začínají, a také platí zákaz stránek v / o adresáři.

Přidání symbolu dolaru na konci - Zakázat: / o $ Budeme informovat roboty, které nemůžete indexovat pouze stránku / o stránce a / o / stránku, stránky / příští i.t.t. lze indexovat.

Směrnice Sitemap

Tato směrnice označuje cestu k mapě webu, v tomto formuláři:

Sitemap: http: //site.ru/sitemap.xml

Směrnice hostitele.

V tomto formuláři:

Hostitel: site.ru.

Bez http: //, nakloněné scény a podobné věci. Pokud máte hlavní zrcátko s WWW, pak napište:

Příklad robots.txt pro bitrix

Uživatelská agenta: *
Zakázat: / nucenox.phping
Zakázat: / bitrix /
Zakázat: / AUTH /
Zakázat: / osobní /
Zakázat: / Upload /
Disolow: / Vyhledávání /
Zakázat: / * / Vyhledávání /
Zakázat: / * / Slide_show /
Zakázat: / * / galerie / * Objednávka \u003d *
Zakázat: / *? *
Zakázat: / * & Print \u003d
Zakázat: / * registr \u003d
Zakázat: / * zapomenuté_password \u003d
Zakázat: / * Změna_password \u003d
Zakázat: / * Přihlášení \u003d
Zakázat: / * Odhlásit \u003d
Zakázat: / * Auth \u003d
Zakázat: / * Akce \u003d *
Zakázat: / * bitrix _ * \u003d
Zakázat: / * backurl \u003d *
Zakázat: / * backurl \u003d *
Zakázat: / * back_url \u003d *
Zakázat: / * back_url \u003d *
Zakázat: / * back_url_admin \u003d *
Zakázat: / * print_course \u003d y
Zakázat: / * Kurz_id \u003d
Zakázat: / * pagen_ *
Zakázat: / * Page_ *
Zakázat: / * showall
Zakázat: / * show_all \u003d
Hostitel: sitename.ru.
Sitemap: https://www.sitename.ru/sitemap.xml.

Příklad robots.txt pro wordpress

Po přidání všech nezbytných směrnic, které jsou popsány výše. Musíte dostat něco takového roboty souborů:

Je to tak říci základní verzi robotů.txt pro WordPress. Zde jsou dva uživatelské agenta-A - jeden pro všechny a druhé pro Yandex, kde je uvedena směrnice o hostiteli.

META TAGS ROBOTS.

Je možné zavřít z indexovací stránky nebo stránky nejen souboru robots.txt, to lze provést s meta tagem.

<mETA NAME \u003d "ROBOTS" CONTENTY \u003d "NOINDEX, NOFOLLOW"\u003e

Je nutné jej předepsat ve značce a tato meta značka zakazuje index stránky. V aplikaci WordPress jsou pluginy, které umožňují nastavit takové meta tagy, jako je Platinum SEO Pack. S ním můžete zavřít z indexace libovolnou stránku, používá meta tagy.

Směrnice o zpoždění procházení

Pomocí této směrnice můžete nastavit čas, po kterou by měl být vyhledávací bot přerušen, mezi stahováním stránek webu.

Uživatelská agenta: *
Zpoždění: 5

Časový limit mezi načítáním dvou stránek bude roven 5 sekundami. Chcete-li snížit zatížení serveru, obvykle vykazuje 15-20 sekund. Tato směrnice je nutná pro velké, často aktualizované stránky, na které hledání Bots jednoduše "živé".

Pro běžné stránky / blogy, tato směrnice není nutná, ale může tedy omezit chování jiných nefakturovaných vyhledávacích robotů (Rambler, Yahoo, Bing) i.t.p. Koneckonců, také vstupují do webu a indexují, čímž se vytvoří zatížení serveru.

Správná, kompetentní konfigurace kořenového souboru Robots.txt je jedním z nejdůležitějších úkolů Web Průvodce. V případě neodpustitelných chyb v hledání vydání se může objevit mnoho zbytečných stránek webu. Nebo naopak důležité dokumenty vašich stránek budou uzavřeny pro indexování v nejhorším případě, můžete zavřít pro vyhledávací roboty veškerý kořenový adresář domény.

Správná konfigurace souboru Robots.txt s vlastními rukama, ve skutečnosti, že úkol není příliš komplikovaný. Po přečtení tohoto článku se naučíte moudrosti směrnic a nezávisle napište pravidla pro soubor robots.txt na vašich webových stránkách.

Pro vytvoření souboru Robots.txt se používá určitá, ale ne složitá syntaxe. Není použito mnoho směrnic. Zvažte pravidla, strukturu a syntaxe souboru Robots.txt krok za krokem a podrobně.

Obecná pravidla Robots.txt.

Nejprve musí mít souboru Robots.txt sám kódování ANSI.

Za druhé, není možné použít pro psaní pravidel všech národních abeced, je možná pouze latina.

Strukturálně souborové roboti.txt se může skládat z jednoho nebo více instrukcí bloků, samostatně pro roboty různých vyhledávačů. Každý blok nebo sekce má sadu pravidel (směrnic) indexovat stránky vyhledávačem.

Ve směrnicích, bloky pravidel a mezi nimi nejsou povoleny žádné zbytečné titulky a symboly.

Směrnice a bloky pravidel jsou odděleny přenosem řetězce. Jediným předpokladem je komentáře.

Komentovat robots.txt.

Chcete-li komentovat, použijte symbol '#'. Pokud na začátku řetězce vložíte symbol "Grid", pak do konce řádku je veškerý obsah ignorován vyhledávacími roboty.

Uživatelská agenta: *
Zakázat: / css # napsat komentář
# Píšeme další komentář
Zakázat: / img

Sekce v souboru Robots.txt

Při čtení souboru s robotem se používá pouze sekce adresovaná robotem tohoto vyhledávače, to znamená, že v sekci je uživatelský agent název vyhledávače Yandex, pak jeho robot bude číst pouze sekci Oslovil ho, ignorovat ostatní, zejména a sekci se směrnicí pro všechny roboty - uživatelské agenta: *.

Každý z sekcí je self. Sekce mohou být poněkud, pro roboty každého nebo některých vyhledávačů a jeden univerzální, pro všechny roboty nebo roboty jednoho ze svých systémů. Pokud je sekce jedna, začíná prvním řádkem souboru a přebírá všechny řádky. Pokud jsou sekce několik, pak musí být odděleny prázdným řetězcem, alespoň jeden.

Sekce vždy začíná směrnicí s uživatelskými agenty a obsahuje název vyhledávače, pro který jsou roboty zamýšleny, pokud to není univerzální sekce pro všechny roboty. V praxi to vypadá takto:

Uživatelská agenta: YandExbot
# OOUSER Agent pro roboty Yandex System
Uživatelská agenta: *
# Iouser agent pro všechny roboty

Seznam několik názvů botů je zakázáno. Pro roboty každého vyhledávače je vytvořena vlastní sekce, vlastní samostatný blok pravidel. Pokud jsou ve vašem případě pravidla pro všechny roboty stejné, použijte jednu univerzální, společnou sekci.

Směrnice, co je to?

Směrnice je příkaz nebo pravidlo vyprávění vyhledávacího robota pro určité informace. Směrnice hlásí vyhledávací bot, jak indexovat vaše stránky, které adresáře NENÍ zobrazit, kde je mapa webu ve formátu XML, jaký název domény je hlavní zrcadlo a některé další technické detaily.

Sekce souboru Robots.txt se skládá z oddělených příkazů,
směrnice. Obecné směrnice Syntaxe takové:

[_Name]: [Volitelný prostor] [Value] [volitelný prostor]

Směrnice je napsána v jednom řádku bez převodu. Podle přijatých standardů nejsou řádky povoleny mezi směrnicemi v jednom oddíle, tj. Všechny směrnice stejné sekce jsou napsány na každém řádku bez dalších řádků.

Popišme hodnoty použitých hlavních směrnic.

Směrnice zakázat

Nejpoužívanější směrnice v souboru Robots.txt je "zakázat" - zakázání. Směrnice o zakázce zakazuje indexaci cestě uvedené v něm. Může to být samostatná stránka, stránky obsahující zadanou "masku" ve vaší adrese URL (cesty), část webu, samostatný adresář (složka) nebo celé webové stránky.

"*" - hvězdy znamená - "libovolný počet znaků". To znamená, že cesta / složka * stejná ve vaší hodnotě s "/ složky", "/ folder11", "/ folder11", "/ foldersssss" nebo "/ složka". Roboty při čtení pravidel automaticky přidejte znak "*". V následujícím příkladu jsou oba směrnice absolutně rovnocenné:

Zakázat: / novinky
Zakázat: / novinky *

"$" - znak dolaru zakazuje roboty při čtení směrnic automaticky přidat symbol "*" (Hvězda) na konci směrnice. Jinými slovy, symbol "$" znamená konec srovnávacího řetězce. To znamená, že v našem příkladu zakazujeme indexování složky "/ složky", ale nezakazujte ve složkách "/ Folder11", "/ Folder111" nebo "/ Foldersssss":

Uživatelská agenta: *
Zakázat: / složku $

"#" - (Sharpe) komentář znamení. Vše, co je napsáno po této ikoně, v jednom s IT linkou je ignorován vyhledávači.

Povolit směrnici

Soubor Robots.txt souboru Povolit je opakem směrnice o neschopnosti, směrnice o povolení se rozhodnou. V následujícím příkladu je ukázáno, že zakazujeme indexovat celé webové stránky kromě složky / složky:

Uživatelská agenta: *
Povolit: / složka
Zakázat: /

Příklad současného použití "Povolit", "Disallow" a prioritou

Nezapomeňte na pochopení priority zákazů a oprávnění při určování směrnic. Dříve, priorita byla označena postupem pro deklarování zákazů a povolení. Nyní je definována prioritou stanovením maximální existující cesty v rámci jednoho bloku pro vyhledávače robota pro vyhledávače (uživatelský agent), aby se zvýšila délka cesty a místo pokynů směrnice než déle cestou, tím více prioritou :

Uživatelská agenta: *
Povolit: / složky
Zakázat: / složku

Ve výše uvedeném příkladu je indexování URL spadat pomocí "/ složky", ale je zakázáno v cestách, které mají v jejich adrese URL "/ složku", "/ složky" nebo "/ Folderss2". V případě stejné cesty k "Povolit" a "Disallow" směrnice je upřednostňována směrnicí "Povolit".

Prázdná hodnota parametru v "Povolit" a "DisALOW" směrnice

V souboru Robots.txt v souboru Robots.txt
Zapomeňte zadat symbol "/". To je nesprávné, chybné interpretace hodnot směrnic a jejich syntaxe. V důsledku toho se zakazující směrnice stane rozlišením: "Zakázat:" je naprosto totožný "Povolit: /". Správný zákaz indexace celého webu vypadá takto:

Totéž lze říci o "Povolit:". Směrnice "Povolit:" bez symbolu "/" zakazuje indexaci celého webu, stejně jako "zakázat: /".

Směrnice Sitemap

Pro všechny SEO optimalizace kánonů musíte použít mapu webu (Sitemap) ve formátu XML a poskytnout jej vyhledávačům.

Navzdory funkčnosti "skříňek pro webové mistry" ve vyhledávačích je nutné deklarovat přítomnost Sitemap.xml a v robotech.txt s využitím směrnice " Sitemap" Vyhledávací roboty Když obejít vaše stránky zobrazí vzorek na souboru Sitemap.xml a nezapomeňte jej používat na následujícím bypassu. Příklad použití směrnice Sitemap v souboru Robots.txt:

Uživatelská agenta: *
Sitemap: https://www.domainname.zone/sitemap.xml.

Směrnice hostitele.

Další důležitá směrnice o robotech.txt je směrnice Hostitel..

Předpokládá se, že ne všechny vyhledávače to rozpoznávají. Ale Yandex naznačuje, že čte tuto směrnici a Yandex v Rusku je hlavním "vyhledávacím podavačem", takže nebudeme ignorovat směrnici hostitele.

Tato směrnice říká vyhledávače, které doménu je hlavním zrcadlem. Všichni víme, že stránky mohou mít několik adres. URL webu lze použít nebo nepoužívat předponu WWW nebo webu může mít několik doménových jmen, například domény.ru, doména.com, Domen.ru, www.domen.ru. To je přesně v takových případech, informujeme vyhledávač v souboru Robots.txt s použitím hostitelské směrnice, která z těchto jmen je hlavní. Hodnota směrnice je název hlavního zrcadla. Dáme příklad. Máme několik doménových jmen (domény.ru, doména.com, Domen.RU, www.domen.ru) a všechny z nich přesměrují návštěvníky webu www.domen.ru, vstup do souboru robots.txt bude vypadat takto :

Uživatelská agenta: *
Hostitel: www.domen.ru.

Pokud chcete své hlavní zrcadlo bez předpony (WWW), pak byste měli zadat název stránky bez předpony ve směrnici.

Směrnice hostitele řeší problém dvoulůžkových stránek, se kterými jsou webové průvodce a SEO specialisté často čelí. Směrnice musí být proto nutně využívána, pokud jste zaměřeni na rusko-mluvící segment a jste důležitý pro pořadí vašich stránek v vyhledávači Yandex. Opakujte, i dnes o čtení této směrnice, jen "Yandex" říká. Chcete-li zadat hlavní zrcadlo v jiných vyhledávačích, musíte použít nastavení ve skříních webových mistrů. Nezapomeňte, že název hlavního zrcadla musí být označeno správně (správnost psaní, dodržování kódování a syntaxe souboru Robots.txt). V souboru je tato směrnice povolena pouze jednou. Pokud jste to mylně určili několikrát, pak roboti zohlední první záznam.

Směrnice o zpoždění procházení

Tato směrnice je technický, velení vyhledávacích robotů, jak často potřebujete navštívit vaše stránky. Přesněji řečeno, směrnice pro zpoždění procházení ukazuje minimální přestávku mezi návštěvami vašich stránek roboty (vyhledávače Crightiers). Proč označit toto pravidlo? Pokud k vám velmi často přicházejí roboty a nové informace na stránkách se zdají být mnohem méně často, pak časem budou vyhledávače zvyklí na vzácnou změnu informací na vašich stránkách a navštíví vás mnohem méně často, než se vám líbí. Jedná se o argument pro vyhledávání ve prospěch použití směrnice o zpoždění procházení. Technický argument. Příliš časté návštěvy vašich stránek roboty vytvoří další zatížení serveru, který nepotřebujete vůbec. Hodnota směrnice je lepší označit celé číslo, ale nyní se některé roboty naučili číst a zlomkové čísla. Určuje čas v sekundách, například:

Uživatelská agenta: Yandex
Zpoždění procházení: 5.5

Směrnice o čištění

Volitelná směrnice "Clean-Param" označuje vyhledávací roboty nastavení adresy webu, které nepotřebují indexovat a měly by být považovány za stejnou adresu URL. Například máte stejné stránky zobrazeny na různých adresách, vyznačující se v jednom nebo více parametrech:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder\u003dfolder&page\u003dpage1/
www.domain.zone/ index.php? složka \u003d 1 a page \u003d 1

Hledat roboty skenují všechny tyto stránky a všimněte si, že stránky jsou stejné, obsahují stejný obsah. Za prvé, vytvoří zmatek ve struktuře webu pod indexací. Za druhé, další zatížení serveru se zvýší. Za třetí, rychlost skenování bude znatelně pád. Aby se zabránilo těmto problémům a použijte směrnici o čištění. Syntaxe je následující:

Čistý param: Param1 [& Param2 & Param-Param3 & Param-Param4 & ... & Param * n] [cesta]

Směrnice "Clean-Param", jako je "Host" číst ne všechny vyhledávače. Ale Yandex to chápe.

Chyby, které jsou často nalezeny v robotech.txt

Soubor Robots.txt není v kořenovém adresáři webu.

Soubor roboty. txt by měl být umístěn v kořene webu, pouze v kořenovém adresáři. Všechny ostatní soubory se stejným názvem, ale ty v jiných složkách (adresáře) jsou ignorovány vyhledávači.

Chyba v názvu souboru Robots.txt

Název souboru je napsáno malými písmeny (nižší registr) a měly by být nazývány roboty.txt.. Všechny ostatní možnosti jsou považovány za chybné a hledání napětí budou hlášeny nepřítomnosti souboru. Časté chyby vypadají takto:

Robots.txt.
Robots.txt.
Robot.txt.

Použijte neplatné znaky v robot.txt

Soubor Robots.txt musí být v kódování ANSI a obsahovat pouze latinu. Směrnice psaní a jejich hodnoty jakýmkoliv jinými národními symboly jsou nepřijatelné, s výjimkou obsahu komentářů.

Robots.txt syntaxe chyby

Pokuste se přísně postupovat podle pravidel syntaxe v souboru Robots.txt. Chyby syntaxe mohou mít za následek ignorování obsahu celého souboru vyhledávačů.

Výpis více robotů v jednom řádku v směrnici uživatele

Chyba, často povolená začínajícími webmastery, spíše kvůli jejich vlastní lenost, ne rozbít soubor robots.txt do sekce a kombinovat příkazy pro několik vyhledávačů v jedné části, například:

Uživatelská agenta: Yandex, GoogleBot, Bing

Pro každý vyhledávače musíte vytvořit vlastní samostatnou sekci s přihlédnutím k těmto směrnicím, které tento vyhledávač čte. Kromě toho je v tomto případě jednotná sekce pro všechny vyhledávače:

Uživatelský agent s prázdnou hodnotou

Směrnice uživatelského agenta nemůže mít prázdnou hodnotu. Alternativně může být pouze "povolit" a "zakázat" a pak zohlednit skutečnost, že mění jejich hodnotu. Zadání směrnice o uživateli agenta s prázdnou hodnotou je hrubá chyba.

Několik hodnot směrnice o zakázaném

Častěji neštěstí, ale, nicméně periodicky to může být viděn na stránkách, toto je indikace několika hodnot v povolení a zakázat směrnice, například:

Zakázat: / Folder1 / Folder2 / Folder3

Zakázat: / Folder1
Zakázat: / Folder2
Zakázat: / Folder3

Nedodržení priorit směrnic v robotech.txt

Tato chyba již byla popsána výše, ale ke konsolidaci materiálu se opakuje. Dříve, priorita byla stanovena postupem pro směřující směrnice. K dnešnímu dni se pravidla změnila, priorita je určena délkou řádku. Pokud existují dva vzájemně exkluzivní směrnice, povolit a zakázat stejným obsahem v souboru, pak bude priorita povoleno.

Vyhledávače a robots.txt

Direktiva v souboru Robots.txt jsou doporučným znakem pro vyhledávače. To znamená, že pravidla čtení mohou pravidelně měnit nebo doplnit. Také nezapomeňte, že každý vyhledávač procesu zpracovává směrnice souborů vlastním způsobem. A ne všechny směrnice každá z vyhledávačů čte. Směrnice o hostiteli dnes čte pouze Yandex. Současně, Yandex zaručuje, že název domény je zadáno jako hlavní zrcadlo v hostitelské směrnici bude přiřazeno hlavní věci, ale tvrdí, že bude uvedena priorita uvedeného názvu ve směrnici.

Pokud máte malou sadu pravidel, můžete vytvořit jednu sekci pro všechny roboty. V opačném případě nebuďte líní, vytvářet samostatné části pro každý vyhledávač, který vás zajímá. To se týká zejména zákazů, pokud nechcete, aby některé stránky zadali do vyhledávání.

Rychlá navigace na této stránce:

Moderní realita je, že v RUNTET Žádné sebeúcké místo může dělat bez souboru s názvem Robots.tht - i když nemáte co zakázat indexování (i když existují technické stránky a duplicitní obsah, který vyžaduje uzavření od indexování), pak na A Minimálně zaregistrovat směrnici s WWW a bez WWW pro Yandex rozhodně stojí za to - za to, a pravidla pro psaní robotů.txt, které budou diskutovány níže.

Co je robots.txt?

Soubor s takovým jménem vezme svůj vlastní příběh od roku 1994, kdy se konsorcium W3C rozhodlo vstoupit takový standard, aby se stránky mohly poskytovat vyhledávače v instrukcích indexování.

Soubor s takovým názvem musí být uložen v kořenovém adresáři webu, umístit jej do jiných složek není povoleno.

Soubor provádí následující funkce:

zakazuje všechny stránky nebo stránky indexování
umožňuje indexování libovolných stránek nebo skupin stránek
určuje Yandex robot, jaké zrcadlo webu je hlavní (s www nebo bez www)
zobrazuje umístění souboru s mapou webu

Všechny čtyři položky jsou nesmírně důležité pro optimalizaci stránek. Zákaz indexování umožňuje zavřít od indexování stránky, která obsahuje duplicitní obsah - například stránky tagů, archivy, výsledky vyhledávání, stránky s tiskovými verzemi a tak dále. Přítomnost duplicitního obsahu (když stejný text, i když ve výši několika nabídek, je přítomna na dvou nebo více stránkách) je mínus pro místo v pořadí vyhledávačů, protože čtyřhry by měly být co nejmenší.

Směrnice umožňují žádnou vlastní hodnotu, protože ve výchozím nastavení všechny stránky a jsou tak dostupné pro indexování. Pracuje ve svazku s zakázáním - když je například nějaký druh nadpisu zcela uzavřen z vyhledávačů, ale chcete stránku otevřít v něm nebo samostatnou stránku.

Určení hlavního zrcadla webu je také jedním z nejdůležitějších prvků v optimalizaci: vyhledávače uvažují o webových stránkách www.vashsite.ru a vashtsyt.ru jako dva různé zdroje, pokud přímo zadáte jinak. V důsledku toho je obsah pochybován - vzhled dvojitého, snížení síly externích odkazů (externí odkazy může být umístěno jak z WWW a bez WWW), a v důsledku toho může vést k nižšímu pořadí výsledků vyhledávání .

Pro Google, hlavní zrcadlo je předepsáno v nástroji Webmaster (http://www.google.com/webmasters/), ale pro Yandex, mohou být tyto pokyny předepsány pouze v tom robotech. TCT.

Určení souboru XML s kartou webu (například - SiteMap.xml) umožňuje vyhledávače zjistit tento soubor.

Pokyny pro uživatele

Uživatelský agent v tomto případě se jedná o vyhledávač. Při psaní instrukcí musíte určit, zda budou jednat ve všech vyhledávačích (pak znaménko hvězdiček je připojeno - *) nebo jsou navrženy pro nějaký samostatný vyhledávač - například Yandex nebo Google.

Chcete-li nastavit uživatelské agenta s indikací všech robotů, napište do souboru následujícím řádkem:

Uživatelská agenta: *

Pro Yandex:

Uživatelská agenta: Yandex

Pro Google:

Uživatelská agenta: GoogleBot

Pravidla pro zakázat a povolit

Za prvé, je třeba poznamenat, že soubor robotů.txt pro jeho platnost musí nutně obsahovat alespoň jeden zakázal směrnici. S ohledem na aplikaci těchto směrnic na konkrétní příklady.

Prostřednictvím tohoto kódu povolíte indexaci všech stránek webu:

Uživatelská agenta: * Zakázat:

A přes takový kód, naopak všechny stránky budou uzavřeny:

Uživatelská agenta: * Zakázat: /

Zakázat indexování konkrétního adresáře s názvem Složka, určete:

Uživatelská agenta: * Zakázat: / složku

Můžete také použít hvězdičky, abyste nahradili libovolný název:

Uživatelská agenta: * Zakázat: * .php

DŮLEŽITÉ: Asterisk nahrazuje název souboru úplně, to znamená, že nelze zadat soubor * .php, můžete pouze * .php (ale všechny stránky s příponou budou zakázány, aby se zabránilo - můžete zadat konkrétní adresu stránky) .

Povolit směrnici, jak je uvedeno výše, se používá k vytváření výjimek v zakázání (jinak nedává smysl, protože výchozí stránky jsou otevřeny).

Například je zakázáno indexovat stránku do složky Archive, ale opustí stránku index.html Otevřít z tohoto adresáře:

Povolit: /RCHIVE/index.html Zakázat: / Archiv /

Označte hostitele a mapu webu

Hostitel je hlavní zrcadlo webu (tj. Jméno domény plus www nebo název domény bez této konzoly). Hostitel je indikován pouze pro Yandex robota (musí být nezbytný alespoň jeden zakázaný tým.

Chcete-li zadat hostitelské roboty.txt musí obsahovat následující záznam:

Uživatelská agenta: Yandex Nakládá: Host: www.vashsayt.ru

Pokud jde o mapu webu, robots.txt SiteMap je specifikován jednoduše mluvící celou cestou k odpovídajícímu souboru, což znamená, že název domény:

Sitemap: http: //vashsayt.ru/sitemap.xml

O tom, jak vytvořit stránku mapa pro WordPress, napsaný.

Příklad robots.txt pro wordpress

Pro aplikace WordPress musíte zadat všechny technické adresáře (WP-admin, WP - zahrnuje atd.) Pro indexování, stejně jako duplicitní stránky vytvořené značkami, soubory RSS, komentářů, vyhledávání.

Jako příklad robotů.txt pro WordPress můžete mít soubor z našich stránek:

Uživatelská agenta: Yandex Nakládá: / WP-admin Nedostatek: / WP-Zahrnuje zakázáno: /wp-login.php Zakázat: /wp-regin.php Zakázat: /xmlrpc.php Zakázat: / Hledat Zakázat: / * / Feed / Noclallow: * / KOMENTÁŘE Zakázat: /? Feed \u003d Zakázat: /? S \u003d zakázat: * / Page / strana / * Zakázat: * / page / Příloha / * Povolit: / WP-Content / Uploads / Host: www..php Zakázat: /wp-register.php Zakázat: /xmlrpc.php Zakázat: / Hledat Zakázat: * / Hledat Zakázat: * / TrackBack Zakázat: * / / Zakázat / zakázat: * Krmivo Zakázat: * / Komentář / zakázat: /? Feed \u003d Zakázat: /? * DISALOW: / WP-Admin Nenisal: / WP-Zahrnuje zakázáno: /wp-login.php Zakázat: /wp-regin.php Zakázat: /xmlrpc.php Zakázat: / Hledat Zakázat: * / Hledat Zakázat: * / TrackBack Zakázat: * / Zakázat: * / Příspěvek Zakázat: * / Komentář / zakázat: /? Feed \u003d zakázat: /? S \u003d zakázat: * / Page / strana / * zakázat: * / komentář zakázat: * / tag / * disa. Llow: / Příloha / * Povolit: / WP-Content / Uploads / Sitemap: https: //www..ml

Stáhněte soubor Robots.txt z našich stránek může být.

Pokud podle výsledků čtení tohoto článku máte nějaké dotazy - zeptejte se v komentářích!