Kuidas koostada roboti txt -faili õigesti. Kuidas muuta roboti txt -faili

Robots.txt on tekstifail, mis sisaldab otsingumootori robotite saidi indekseerimise parameetreid.

Soovitused faili sisu kohta

Yandex toetab järgmisi direktiive:

Direktiivi Mida see teeb
Kasutaja agent *
Keela
Sisukaart
Clean-param
Lubama
Indeksimise viivitus

Soovitame kasutada indekseerimise kiiruse seadistust

Direktiivi Mida see teeb
Kasutaja agent * Näitab robotit, kelle suhtes kehtivad failis robots.txt loetletud reeglid.
Keela Keelab saidi sektsioonide või üksikute lehtede indekseerimise.
Sisukaart Määrab saidile postitatud saidiplaanifaili tee.
Clean-param Näitab robotile, et lehe URL sisaldab parameetreid (nt UTM -silte), mida tuleks indekseerimisel ignoreerida.
Lubama Võimaldab indekseerida saidi jaotisi või üksikuid lehti.
Indeksimise viivitus

Määrab minimaalse intervalli (sekundites), mille jooksul otsingurobot peab pärast ühe lehe laadimist ootama, enne kui hakkab uut laadima.

Soovitame direktiivi asemel kasutada indekseerimise kiiruse seadet Yandex.Webmasteris.

* Kohustuslik direktiiv.

Kõige sagedamini vajate direktiive Keela, Sisukaart ja Clean-param. Näiteks:

User-agent: * #täpsustage robotid, mille jaoks direktiivid on määratud Keela: / bin / # keelab lingid ostukorvist. Keela: / search / # keelab saidile manustatud otsingu lehe lingid Keela: / admin / # keelab administraatori paneelil lingid Clean-param: ref /some_dir/get_book.pl

Teiste otsingumootorite ja teenuste robotid võivad direktiive tõlgendada erinevalt.

Märge. Robot arvestab alamstringide juhtumit (failinimi või tee, roboti nimi) ja ignoreerib juhtumit direktiivide nimedes.

Kirillitsa tähemärkide kasutamine

Kirillitsa tähestiku kasutamine pole failis robots.txt ja serveri HTTP päistes lubatud.

Domeeninimede jaoks kasutage Punycode'i. Leheaadresside puhul kasutage sama kodeeringut nagu praeguse saidistruktuuri puhul.

Tere pärastlõunast kallid sõbrad! Te kõik teate, et otsingumootori optimeerimine on vastutustundlik ja delikaatne äri. Vastuvõetava tulemuse saamiseks peate arvestama absoluutselt iga pisiasjaga.

Täna räägime failist robots.txt - failist, millega iga veebimeister tunneb. Sellesse on kirjutatud kõik otsingurobotite kõige põhilisemad juhised. Reeglina täidavad nad hea meelega ettenähtud juhiseid ja keelduvad vale koostamise korral veebiressursi indekseerimisest. Järgmisena näitan teile, kuidas koostada õige robots.txt fail, samuti kuidas seda seadistada.

Eessõnas kirjeldasin juba, mis see on. Nüüd ma ütlen teile, miks teil seda vaja on. Robots.txt on väike tekstifail, mis salvestatakse saidi juure. Seda kasutavad otsingumootorid. Selles on selgelt välja toodud indekseerimise reeglid, see tähendab, millised saidi osad tuleb indekseerida (otsingusse lisada) ja millised mitte.

Tavaliselt on saidi tehnilised osad indekseerimise eest suletud. Aeg-ajalt satuvad unikaalsed lehed musta nimekirja (privaatsuspoliitika copy-paste on selle näide). Siin selgitatakse "robotitele" indekseeritavate sektsioonidega töötamise põhimõtteid. Väga sageli on reeglid ette nähtud mitmele robotile eraldi. Me räägime sellest edasi.

Õigete robots.txt -seadete korral kasvab teie sait otsingumootorite paremusjärjestuses. Robotid võtavad arvesse ainult kasulikku sisu, jättes välja dubleeritud või tehnilised osad.

Robots.txt ehitamine

Faili loomiseks peate lihtsalt kasutama oma operatsioonisüsteemi standardfunktsioone ja seejärel laadima selle serverisse FTP kaudu. Kus see asub (serveris), on lihtne ära arvata - juurest. Seda kausta nimetatakse tavaliselt public_html.

Saate hõlpsasti sellesse siseneda, kasutades mis tahes FTP-klienti (näiteks) või sisseehitatud failihaldurit. Loomulikult ei lae me serverisse tühja robotit. Lisame sinna mitu põhidirektiivi (reeglit).

Kasutaja agent: *
Lubama: /

Kasutades neid ridu oma robotifailis, viitate kõikidele robotitele (User-agendi direktiiv), võimaldades neil teie saiti täielikult ja täielikult indekseerida (sh kõik need lehed Luba: /)

Loomulikult ei sobi see variant meile eriti. Fail ei ole otsingumootori optimeerimiseks eriti kasulik. See tuleb kindlasti korralikult häälestada. Kuid enne seda vaatame üle kõik põhidirektiivid ja robots.txt väärtused.

Direktiivid

Kasutaja agentÜks olulisemaid, sest see näitab, millised robotid järgivad seda järgivaid reegleid. Reegleid arvestatakse kuni järgmise kasutajaagendini failis.
LubamaVõimaldab indekseerida mis tahes ressursiplokke. Näiteks: „/” või „/tag/”.
KeelaVastupidi, see keelab vaheseinte indekseerimise.
SisukaartTee saidiplaanile (xml -vormingus).
HostPõhipeegel (koos www -ga või ilma või kui teil on mitu domeeni). Siin on näidatud ka turvaline protokoll https (kui see on saadaval). Kui teil on tavaline http, ei pea te seda täpsustama.
Indeksimise viivitusSelle abiga saate robotitele määrata oma saidi failide külastamise ja allalaadimise intervalli. Aitab vähendada hosti koormust.
Clean-paramVõimaldab keelata parameetrite indekseerimise teatud lehtedel (nt www.site.com/cat/state?admin_id8883278).
Erinevalt eelmistest direktiividest on siin täpsustatud 2 väärtust (aadress ja parameeter ise).

Need on kõik reeglid, mida lipulaevade otsingumootorid toetavad. Nende abiga loome oma robotid, mis töötavad erinevate variatsioonidega kõige erinevat tüüpi saitide jaoks.

Kohandamine

Robotifaili õigeks konfigureerimiseks peame täpselt teadma, millised saidi osad tuleks indekseerida ja millised mitte. Lihtsa ühe lehekülje puhul html + css-is peame lihtsalt kirjutama mõned põhidirektiivid, näiteks:

Kasutaja agent: *
Lubama: /
Sisukaart: site.ru/sitemap.xml
Host: www.site.ru

Siin oleme määranud kõigi otsingumootorite reeglid ja väärtused. Kuid parem on lisada eraldi direktiivid Google'i ja Yandexi jaoks. See näeb välja selline:

Kasutaja agent: *
Lubama: /

Kasutajaagent: Yandex
Lubama: /
Keela: / politika

Kasutajaagent: GoogleBot
Lubama: /
Keela: / tags /

Sisukaart: site.ru/sitemap.xml
Host: site.ru

Nüüd indekseeritakse absoluutselt kõik failid meie html -saidil. Kui tahame lehe või pildi välja jätta, peame jaotises Disallow määrama selle fragmendi suhtelise lingi.

Saate kasutada robotite automaatseid failide genereerimise teenuseid. Ma ei garanteeri, et nende abiga loote täiesti õige versiooni, kuid sissejuhatuseks võite proovida.

Nende teenuste hulka kuuluvad:

Nende abiga saate automaatselt luua robots.txt. Isiklikult ma seda võimalust väga ei soovita, sest seda on palju lihtsam käsitsi teha, seadistades selle oma platvormi jaoks.

Rääkides platvormidest, pean silmas igasuguseid CMS -e, raamistikke, SaaS -süsteeme ja palju muud. Järgmisena räägime sellest, kuidas WordPressi ja Joomla robotifaili kohandada.

Kuid enne seda toome esile mitu universaalset reeglit, mida saab järgida peaaegu iga saidi robotite loomisel ja konfigureerimisel:

Sule indekseerimisest (keela):

  • saidi administraatori paneel;
  • isiklik konto ja registreerimis- / volituslehed;
  • ostukorv, andmed tellimisvormidelt (veebipoe jaoks);
  • cgi kaust (asub hostil);
  • teenindussektsioonid;
  • ajax ja json skriptid;
  • UTM- ja Openstat -sildid;
  • erinevaid parameetreid.

Ava (luba):

  • Pildid;
  • JS ja CSS failid;
  • muud elemendid, mida otsingumootorid peaksid arvesse võtma.

Lisaks ärge unustage lõpus täpsustada saidiplaani (tee saidiplaanile) ja hosti (peegel) andmeid.

Robots.txt WordPressi jaoks

Faili loomiseks peame samamoodi viskama robots.txt saidi juure. Sel juhul on võimalik selle sisu muuta sama FTP ja failihaldurite abil.

Samuti on mugavam võimalus - looge fail pistikprogrammide abil. Eelkõige on Yoast SEO -l selline funktsioon. Roboteid on palju mugavam redigeerida otse administraatori alalt, nii et ma ise kasutan seda meetodit failiga robots.txt töötamiseks.

See, kuidas te otsustate selle faili luua, on teie otsustada, meie jaoks on olulisem mõista, millised direktiivid peaksid seal olema. Oma WordPressi kasutavatel saitidel kasutan seda valikut:

User-agent: * # reeglid kõigile robotitele, välja arvatud Google ja Yandex

Keela: / cgi-bin # kaust skriptidega
Keela: /? # avalehe päringute parameetrit
Keela: / wp- # CSM-i faili (eesliitega wp-)
Keela: *? S = # \
Keela: * & s = # kõik, mis on seotud otsimisega
Keela: / search / # /
Keela: / author / # autori arhiiv
Keela: / users / # ja kasutajad
Keela: * / trackback # WP märguanded, mida keegi teiega lingib
Keela: * / feed # voog xml -is
Keela: * / rss # ja rss
Keela: * / embed # inline elementi
Keela: /xmlrpc.php # WordPressi API
Keela: * utm = # UTM -silti
Keela: * openstat = # Openstat sildid
Keela: / tag / # märgendit (kui saadaval)
Luba: * / üleslaadimised # avatud allalaadimised (pildid jne)

Kasutajaagent: GoogleBot # Google'i jaoks
Keela: / cgi-bin
Keela: /?
Keela: / wp-
Keela: *? S =
Keela: * & s =
Keela: / search /
Keela: / author /
Keela: / users /
Keela: * / trackback
Keela: * / feed
Keela: * / rss
Keela: * / embed
Keela: /xmlrpc.php
Keela: * utm =
Keela: * openstat =
Keela: / tag /
Luba: * / üleslaadimised
Luba: /*/*.js # avage JS -failid
Luba: /*/*.css # ja CSS
Luba: /wp-*.png # ja pildid png -vormingus
Luba: /wp-*.jpg # \
Luba: /wp-*.jpeg # ja muudes vormingutes
Luba: /wp-*.gif # /
# töötab pistikprogrammidega

Kasutajaagent: Yandex # Yandexi jaoks
Keela: / cgi-bin
Keela: /?
Keela: / wp-
Keela: *? S =
Keela: * & s =
Keela: / search /
Keela: / author /
Keela: / users /
Keela: * / trackback
Keela: * / feed
Keela: * / rss
Keela: * / embed
Keela: /xmlrpc.php
Keela: / tag /
Luba: * / üleslaadimised
Luba: /*/*.js
Luba: /*/*.css
Luba: /wp-*.png
Luba: /wp-*.jpg
Luba: /wp-*.jpeg
Luba: /wp-*.gif
Luba: /wp-admin/admin-ajax.php
# puhas UTM -silt
Clean-Param: openstat # ja ärge unustage Openstatit

Saidiplaan: # kirjutage tee saidiplaanile
Host: https://site.ru #peegel

Tähelepanu! Kui kopeerite ridu faili, ärge unustage eemaldada kõik kommentaarid (tekst pärast #).

See valik robots.txt on WP veebimeistrite seas kõige populaarsem. Kas ta on täiuslik? Ei. Võite proovida midagi lisada või eemaldada. Kuid pidage meeles, et robotite tekstiredaktori optimeerimisel pole vead haruldased. Me räägime neist edasi.

Robot.txt Joomla jaoks

Ja kuigi 2018. aastal kasutab Joomlat keegi harva, usun, et seda imelist CMS -i ei saa ignoreerida. Projektide reklaamimisel Joomlas peate kindlasti looma robotifaili, vastasel juhul, kuidas soovite indekseerimise tarbetuid elemente sulgeda?

Nagu eelmisel juhul, saate faili käsitsi luua, laadides selle lihtsalt hosti üles, või võite selleks moodulit kasutada. Mõlemal juhul peate selle õigesti konfigureerima. Joomla õige versioon näeb välja selline:

Kasutaja agent: *
Luba: /*.css?*$
Luba: /*.js?*$
Luba: /*.jpg?*$
Luba: /*.png?*$
Keela: / cache /
Keela: /*.pdf
Keela: / administrator /
Keela: / install /
Keela: / cli /
Keela: / teegid /
Keela: / language /
Keela: / komponendid /
Keela: / modules /
Keela: / sisaldab /
Keela: / bin /
Keela: / komponent /
Keela: / tmp /
Keela: /index.php
Keela: / plugins /
Keela: / * mailto /

Keela: / logs /
Keela: / komponent / sildid *
Keela: / *%
Keela: / layout /

Kasutajaagent: Yandex
Keela: / cache /
Keela: /*.pdf
Keela: / administrator /
Keela: / install /
Keela: / cli /
Keela: / teegid /
Keela: / language /
Keela: / komponendid /
Keela: / modules /
Keela: / sisaldab /
Keela: / bin /
Keela: / komponent /
Keela: / tmp /
Keela: /index.php
Keela: / plugins /
Keela: / * mailto /

Keela: / logs /
Keela: / komponent / sildid *
Keela: / *%
Keela: / layout /

Kasutajaagent: GoogleBot
Keela: / cache /
Keela: /*.pdf
Keela: / administrator /
Keela: / install /
Keela: / cli /
Keela: / teegid /
Keela: / language /
Keela: / komponendid /
Keela: / modules /
Keela: / sisaldab /
Keela: / bin /
Keela: / komponent /
Keela: / tmp /
Keela: /index.php
Keela: / plugins /
Keela: / * mailto /

Keela: / logs /
Keela: / komponent / sildid *
Keela: / *%
Keela: / layout /

Host: site.ru # ärge unustage muuta aadress siin omaks
Sisukaart: site.ru/sitemap.xml # ja siin

Sellest reeglina piisab, et vältida tarbetute failide sattumist indeksisse.

Konfiguratsioonivead

Väga sageli teevad inimesed roboteid luues ja konfigureerides vigu. Siin on kõige levinumad:

  • Reeglid on määratud ainult kasutajaagendi jaoks.
  • Host ja saidiplaan on puudu.
  • Http -protokolli olemasolu hostidirektiivis (peate määrama ainult https -i).
  • Pesastamisreeglite eiramine piltide avamisel / sulgemisel.
  • UTM- ja Openstat -sildid pole suletud.
  • Igale robotile vastuvõtva ja saidikaardi juhiste määramine.
  • Faili pinnauuring.

Selle väikese faili õige konfigureerimine on väga oluline. Kui teete ränki vigu, võite kaotada märkimisväärse osa liiklusest, seega olge seadistamisel äärmiselt ettevaatlik.

Kuidas faili kontrollida?

Nendel eesmärkidel on parem kasutada Yandexi ja Google'i eriteenuseid, kuna need otsingumootorid on kõige populaarsemad ja nõudlikumad (kõige sagedamini kasutatavad), pole mõtet kaaluda selliseid otsingumootoreid nagu Bing, Yahoo või Rambler.

Alustuseks kaaluge võimalust Yandexiga. Läheme veebimeistri juurde. Seejärel minge jaotisse Tööriistad - Robots.txt analüüs.

Siin saate kontrollida faili vigade osas, samuti reaalajas kontrollida, millised lehed on indekseerimiseks avatud ja millised mitte. Väga mugav.

Google'il on täpselt sama teenus. Minema Otsingukonsool... Leidke vahekaart Skannimine, valige - Robots.txt Failikontrolli tööriist.

Siin on täpselt samad funktsioonid nagu koduteenuses.

Pange tähele, et see näitab mulle 2 viga. See on tingitud asjaolust, et Google ei tunnista Yandexi jaoks määratud parameetrite kustutamise direktiive:

Clean-Param: utm_source & utm_medium & utm_campaign
Clean-Param: openstat

Te ei tohiks sellele tähelepanu pöörata, kuna Google'i robotid kasutavad reegleid ainult GoogleBoti jaoks.

Järeldus

Fail robots.txt on teie veebisaidi SEO optimeerimiseks väga oluline. Läheneda selle seadistusele kogu vastutusega, sest valesti rakendades võib kõik puruneda.

Võtke arvesse kõiki selles artiklis jagatud juhiseid ja ärge unustage, et te ei pea minu roboteid täpselt kopeerima. On täiesti võimalik, et peate lisaks mõistma kõiki direktiive, kohandades toimikut teie konkreetse juhtumi jaoks.

Ja kui soovite süveneda robots.txt -i ja WordPressi veebisaitide loomisele, siis kutsun teid seda tegema. Sellel saate teada, kuidas saate veebisaiti hõlpsalt luua, unustamata seda otsingumootorite jaoks optimeerida.

Robots.txt- see on tekstifail, mis asub saidi juurosas - http://site.ru/robots.txt... Selle peamine eesmärk on seada otsingumootoritele teatud direktiivid - mida ja millal saidil teha.

Lihtsaim Robots.txt

Lihtsaim fail robots.txt, mis võimaldab kõigil otsingumootoritel kõike indekseerida, näeb välja selline:

Kasutaja agent: *
Keela:

Kui keelamisdirektiivi lõpus ei ole kaldkriipsu, on kõik lehed indekseerimiseks lubatud.

See direktiiv keelab saidi indekseerimise täielikult:

Kasutaja agent: *
Keela: /

User-agent-näitab, kellele direktiivid on mõeldud, tärn näitab, et kõigi PS-ide puhul tähistage Yandexi puhul User-agent: Yandex.

Yandexi abi ütleb, et selle otsingurobotid töötlevad User-agent: *, kuid kui User-agent: Yandex on olemas, eiratakse User-agent: *.

Keela ja luba direktiivid

On kaks peamist direktiivi:

Keela - eita

Luba - luba

Näide: Blogis keelasime kataloogi / wp-content / indekseerimise, kus asuvad pistikprogrammifailid, mall jne. Kuid on ka pilte, mille PS peab pildiotsingus osalemiseks indekseerima. Selleks peate kasutama järgmist skeemi:

Kasutaja agent: *
Luba: / wp-content / uploads / # Luba piltide indekseerimine üleslaadimiste kaustas
Keela: / wp-content /

Direktiivide kasutamise järjekord on Yandexi jaoks oluline, kui need kehtivad samadele lehtedele või kaustadele. Kui määrate nii:

Kasutaja agent: *
Keela: / wp-content /
Luba: / wp-content / uploads /

Yandexi robot ei lae pilte üles kataloogist / uploads /, sest täidetakse esimest direktiivi, mis keelab igasuguse juurdepääsu kausta wp-content.

Google on lihtsam ja järgib kõiki robots.txt -failis sisalduvaid direktiive, olenemata nende asukohast.

Samuti ärge unustage, et kaldkriipsuga ja ilma kaldkriipsuta direktiivid täidavad erinevat rolli:

Keela: / umbes Keelab juurdepääsu kogu kataloogile site.ru/about/ ja indekseeritakse ka lehti - site.ru/about.html, site.ru/aboutlive.html jne.

Keela: / umbes / See keelab robotite poolt indekseerida saidi site.ru/about/ lehed ja saidi site.ru/about.html tüüpi lehed jne. on indekseerimiseks saadaval.

Regulaaravaldised failis robots.txt

Toetatud on kaks märki:

* - tähendab mis tahes tähemärkide järjekorda.

Näide:

Keela: / umbes * keelab juurdepääsu kõigile lehtedele, mis sisaldavad põhimõtteliselt ja ilma tärnita, selline direktiiv töötab ka. Kuid mõnel juhul ei saa seda väljendit asendada. Näiteks ühes kategoorias on lehed, mille lõpus ja ilma .html. Kõikide html -i sisaldavate lehtede indekseerimiseks sulgemiseks kirjutame järgmise direktiivi:

Keela: /about/*.html

Nüüd on saidid site.ru/about/live.html indekseerimise eest suletud ja leht site.ru/about/live on avatud.

Teine näide analoogia põhjal:

Kasutajaagent: Yandex
Luba: /about/*.html # lubage indekseerimist
Keela: / umbes /

Kõik lehed suletakse, välja arvatud .html -ga lõppevad lehed

$ - kärbib ülejäänud osa ja tähistab rea lõppu.

Näide:

Keela: / umbes- See direktiiv robots.txt keelab kõigi lehtede indekseerimise, mis algavad umbes, samuti keelab kataloogis / about / lehed.

Lisades lõpus dollarimärgi - Disallow: / about $, teavitame roboteid, et on võimatu indekseerida ainult lehte / about ja / about / kataloogi, / aboutlive lehti jne. saab indekseerida.

Saidiplaani direktiiv

See direktiiv määrab saidiplaani tee järgmiselt:

Sisukaart: http: //site.ru/sitemap.xml

Host direktiiv

Näidatud sellisel kujul:

Host: site.ru

Ei http: //, kaldus kaldkriipsud jms. Kui teil on www -ga saidi peamine peegel, kirjutage:

Bitrix robots.txt näide

Kasutaja agent: *
Keela: /*index.php$
Keela: / bitrix /
Keela: / auth /
Keela: / isiklik /
Keela: / upload /
Keela: / search /
Keela: / * / otsi /
Keela: / * / slide_show /
Keela: / * / galerii / * tellimus = *
Keela: / *? *
Keela: / * & print =
Keela: / * register =
Keela: / * unustasin parooli =
Keela: / * change_password =
Keela: / * login =
Keela: / * logout =
Keela: / * auth =
Keela: / * action = *
Keela: / * bitrix _ * =
Keela: / * backurl = *
Keela: / * BACKURL = *
Keela: / * back_url = *
Keela: / * BACK_URL = *
Keela: / * back_url_admin = *
Keela: / * print_course = Y
Keela: / * COURSE_ID =
Keela: / * PAGEN_ *
Keela: / * PAGE_ *
Keela: / * SHOWALL
Keela: / * show_all =
Host: sitename.ru
Sisukaart: https://www.sitename.ru/sitemap.xml

WordPressi näide robots.txt

Pärast kõigi vajalike direktiivide lisamist, mida on kirjeldatud eespool. Peaksite saama midagi sellist robotifaili:

See on robots.txt põhiversioon wordpressi jaoks, kui nii võib öelda. Kasutajaagendid on kaks - üks kõigile ja teine ​​Yandexile, kus on määratud hosti direktiiv.

Metarobotite sildid

Lehe või saidi indekseerimist on võimalik blokeerida mitte ainult faili robots.txt, vaid ka metasildiga.

<meta nimi = "robotid" content = "noindex, nofollow">

See peab olema märgendis registreeritud ja see metasilt keelab saidi indekseerimise. WordPressis on pistikprogramme, mis võimaldavad selliseid metasilte paljastada, näiteks - Platinum Seo Pack. Sellega saate sulgeda mis tahes lehe indekseerimise, see kasutab metasilte.

Roomamise viivitamise direktiiv

Selle direktiivi abil saate määrata aja, millal otsingumootor peaks saidi lehtede allalaadimise vahel katkestama.

Kasutaja agent: *
Roomamise viivitus: 5

Kahe lehe laadimise vaheline aeg on 5 sekundit. Serveri koormuse vähendamiseks seadke tavaliselt 15-20 sekundit. Seda direktiivi on vaja suurte, sageli uuendatavate saitide jaoks, kus otsingurobotid lihtsalt "elavad".

Tavaliste saitide / ajaveebide puhul pole seda direktiivi vaja, kuid seega saate piirata teiste ebaoluliste otsingurobotite (Rambler, Yahoo, Bing) jne käitumist. Lõppude lõpuks lähevad nad ka saidile ja indekseerivad selle, luues seeläbi serverile koormuse.

Juurfaili robots.txt korrektne ja pädev seadistamine on WEB-nõustaja üks olulisemaid ülesandeid. Andestamatute vigade korral otsingutulemustes võivad ilmuda saidi paljud mittevajalikud lehed. Või vastupidi, teie saidi olulised dokumendid suletakse indekseerimiseks, halvimal juhul võite otsingurobotite jaoks domeeni kogu juurkataloogi sulgeda.

Robots.txt -faili oma kätega õigesti seadistamine pole tegelikult väga keeruline ülesanne. Pärast selle artikli lugemist saate teada direktiivide keerukusest ja kirjutada iseseisvalt oma saidile faili robots.txt reeglid.

Faili robots.txt loomiseks kasutatakse spetsiifilist, kuid mitte keerulist süntaksit. Palju direktiive ei kasutata. Vaatame samm -sammult ja üksikasjalikult faili robots.txt reegleid, struktuuri ja süntaksit.

Robots.txt üldreeglid

Esiteks peab fail robots.txt ise olema ANSI kodeeringuga.

Teiseks ei saa reeglite kirjutamiseks kasutada ühtegi rahvuslikku tähestikku, võimalik on ainult ladina tähestik.

Struktuurselt võib fail robots.txt koosneda ühest või mitmest juhiseplokist, eraldi erinevate otsingumootorite robotite jaoks. Igas plokis või jaotises on reeglite kogum (direktiivid) saidi indekseerimiseks konkreetse otsingumootori poolt.

Direktiivides endas, reeglite plokkides ja nende vahel ei ole lubatud lisapäised ja sümbolid.

Direktiivid ja reegliplokid on eraldatud reavahedega. Ainus eeldus on kommentaarid.

Robots.txt kommenteerib

Kommenteerimiseks kasutatakse sümbolit „#”. Kui panete rea algusesse räsimärgi, ignoreerivad otsingurobotid kogu sisu kuni rea lõpuni.

Kasutaja agent: *
Keela: / css # kirjuta kommentaar
# Kirjutage teine ​​kommentaar
Keela: / img

Jaotised failis robots.txt

Kui robot loeb faili, kasutatakse ainult selle otsingumootori robotile adresseeritud jaotist, st kui kasutajaagendi jaotis sisaldab Yandexi otsingumootori nime, loeb selle robot ainult sellele adresseeritud jaotist , ignoreerides teisi, eriti kõigi robotite direktiivi käsitlevat jaotist - User -agent: *.

Iga sektsioon on iseseisev. Iga või mõne otsingumootori robotite jaoks võib olla mitu sektsiooni või üks universaalne sektsioon kõigi robotite või ühe nende süsteemi robotite jaoks. Kui jaotist on ainult üks, algab see faili esimeselt realt ja hõivab kõik read. Kui sektsioone on mitu, tuleb need eraldada vähemalt ühe tühja reaga.

Jaotis algab alati User-agent direktiiviga ja sisaldab otsingumootori nime, mille jaoks see on mõeldud robotitele, kui see pole kõigi robotite jaoks universaalne jaotis. Praktikas näeb see välja selline:

Kasutajaagent: YandexBot
# kasutajaagent Yandexi süsteemi robotitele
Kasutaja agent: *
# kasutajaagent kõikidele robotitele

Mitme robotinime loetlemine on keelatud. Iga otsingumootori robotite jaoks luuakse oma jaotis, eraldi reeglite plokk. Kui teie puhul on kõigi robotite reeglid ühesugused, kasutage ühte universaalset ühist jaotist.

Mis on direktiivid?

Direktiiv on käsk või reegel, mis teavitab otsingurobotit teatud teabest. Direktiiv ütleb otsingubotile, kuidas oma saiti indekseerida, milliseid katalooge mitte vaadata, kus asub XML -i saidiplaan, milline domeeninimi on peamine peegel ja mõned muud tehnilised üksikasjad.

Jaotis robots.txt koosneb eraldi käskudest,
direktiivid. Direktiivide üldine süntaks on järgmine:

[Direktiivinimi]: [valikuline tühik] [väärtus] [valikuline tühik]

Direktiiv on kirjutatud ühes reas, ilma sidekriipsuta. Vastavalt aktsepteeritud standarditele ei ole ühe lõigu direktiivide vaheline reavahe lubatud, see tähendab, et igale reale kirjutatakse kõik ühe jao direktiivid ilma täiendavate reavaheteta.

Kirjeldame kasutatud peamiste direktiivide tähendusi.

Keela direktiiv

Robots.txt -faili kõige enam kasutatav direktiiv on "Keela". Direktiiv "Keela" keelab selles määratud tee indekseerimise. See võib olla eraldi leht, lehed, mis sisaldavad URL -is (teel) määratud "maski", saidi osa, eraldi kataloog (kaust) või kogu sait.

"*" - tärn tähendab - "suvaline arv tähemärke". See tähendab, et/ kausta * tee on sama kui "/ kaustad", "/ kaust1", "/ kaust111", "/ kaustadssss" või "/ kaust". Robotid lisavad reegleid lugedes automaatselt märgi "*". Allolevas näites on mõlemad direktiivid absoluutselt samaväärsed:

Keela: / uudised
Keela: / news *

"$" - dollarimärk keelab robotitel direktiivide lugemisel automaatselt "*" märgi lisada(tärn) direktiivi lõpus. Teisisõnu tähistab "$" märk võrdlusstringi lõppu. See tähendab, et meie näites keelame kausta „/ folder” indekseerimise, kuid me ei keela seda kaustades „/ folder1”, „/ folder111” ega „/ foldersssss”:

Kasutaja agent: *
Keela: / kaust $

"#" - (terav) kommentaarimärk... Otsingumootorid ignoreerivad kõike, mis on kirjutatud pärast seda ikooni, sellega samal real.

Luba direktiiv

Faili robots.txt direktiiv ALLOW on direktiivi DISSALOW tähenduses vastupidine, lubab direktiiv ALLOW. Allolev näide näitab, et keelame kogu saidi, välja arvatud kausta /, indekseerimise:

Kasutaja agent: *
Luba: / kaust
Keela: /

Näide valikute "Luba", "Keela" ja prioriteedi samaaegsest kasutamisest

Ärge unustage direktiivide täpsustamisel keelude ja lubade prioriteedi mõistmist. Varem osutas prioriteedile keeldude ja lubade väljakuulutamise järjekord. Nüüd määratakse prioriteet kindlaks, määrates otsingumootoriroboti (User-agent) maksimaalse olemasoleva tee ühes plokis, teepikkuse suurendamise ja direktiivi märkimiskoha järjekorras, mida pikem tee, seda suurem prioriteet:

Kasutaja agent: *
Luba: / kaustad
Keela: / kaust

Ülaltoodud näites on URL -ide indekseerimine, mis algavad tähega „/ folders”, lubatud, kuid see on keelatud teedel, mille URL -is on „/ folder”, „/ folderssss” või „/ folder2”. Juhul, kui mõlemal direktiivil "Luba" ja "Keela", langetakse samale teele, eelistatakse direktiivi "Luba".

Tühi parameetri väärtus direktiivides "Luba" ja "Keela"

Direktiivi „Keela” failis robots.txt on veebimeistrite vigu
nad unustavad lisada sümboli "/". See on direktiivide tähenduste ja nende süntaksi vale, ekslik tõlgendus. Selle tulemusena muutub keelav direktiiv lubavaks: "Keela:" on absoluutselt identne "Luba: /". Kogu saidi indekseerimise õige keeld näeb välja selline:

Sama võib öelda ka "Luba:" kohta. Direktiiv „Luba:” ilma tähemärgita „ /” keelab kogu saidi indekseerimise, nagu ka „Keela: /”.

Saidiplaani direktiiv

Kõigi SEO optimeerimise kaanonite järgi peate kasutama XML -vormingus saidiplaani (SITEMAP) ja esitama selle otsingumootoritele.

Vaatamata otsingumootorite "veebimeistrite kabinettide" funktsionaalsusele, tuleb direktiivi kasutades deklareerida saidi robus.txt olemasolu sitemap.xml " SITEMAP". Teie saidi indekseerimisel näevad otsingurobotid märget faili sitemap.xml kohta ja kasutavad seda kindlasti järgmistel roomamistel. Näide saidiplaani direktiivi kasutamisest failis robots.txt:

Kasutaja agent: *
Sisukaart: https://www.domainname.zone/sitemap.xml

Host direktiiv

Teine oluline robots.txt direktiiv on HOST.

Arvatakse, et mitte kõik otsingumootorid ei tunne seda ära. Kuid Yandex näitab, et loeb seda direktiivi ja Yandex Venemaal on peamine „otsingu pakkuja”, nii et me ei jäta „hosti” direktiivi tähelepanuta.

See direktiiv ütleb otsingumootoritele, milline domeen on peamine peegel. Me kõik teame, et saidil võib olla mitu aadressi. Saidi URL võib kasutada WWW eesliidet või mitte, või võib sellel olla mitu domeeninime, näiteks domeen.ru, domeen.com, domen.ru, www.domen.ru. Sellistel juhtudel ütleme hostdirektiivi kasutades failis robots.txt otsingumootorile, milline neist nimedest on peamine. Direktiivi väärtus on peapeegli enda nimi. Toome näite. Meil on mitu domeeninime (domain.ru, domain.com, domen.ru, www.domen.ru) ja nad kõik suunavad külastajad saidile www.domen.ru, kirje failis robots.txt näeb välja selline :

Kasutaja agent: *
Saatejuht: www.domen.ru

Kui soovite, et teie peegel ei sisaldaks eesliidet (WWW), siis peaksite vastavalt sellele määrama saidi nime direktiivis ilma prefiksita.

Direktiiv HOST lahendab topeltlehtede probleemi, millega WEB-meistrid ja SEO-spetsialistid väga sageli silmitsi seisavad. Seetõttu tuleb kasutada HOST-i direktiivi, kui sihite venekeelset segmenti ja teil on oluline oma sait Yandexi otsingumootoris järjestada. Kordame, täna teatab ainult Yandex, et on selle direktiiviga tutvunud. Põhipeegli määramiseks teistes otsingumootorites peate kasutama seadistusi WEB-meistrite kappides. Ärge unustage, et peapeegli nimi tuleb õigesti määrata (õige õigekiri, failist robots.txt kodeeringu järgimine ja süntaks). See direktiiv on failis lubatud ainult üks kord. Kui sisestate selle kogemata mitu korda, võtavad robotid arvesse ainult esimest esinemist.

Roomamise viivitamise direktiiv

See direktiiv on tehniline, käsk otsida robotitest, kui sageli peate oma saiti külastama. Täpsemalt, indekseerimise viivituse direktiiv määrab kindlaks minimaalse ajavahemiku, mis jääb robotite (otsingumootori indekseerijate) saidile külastuste vahele. Miks seda reeglit täpsustada? Kui robotid külastavad teid väga sageli ja uut teavet ilmub saidile palju harvemini, siis aja jooksul harjuvad otsingumootorid teie saidi teabe haruldaste muutustega ja külastavad teid palju harvem, kui soovite. See on otsingu argument "Crawl-delay" direktiivi kasutamiseks. Nüüd aga tehnilise argumendi juurde. Liiga sagedased robotite külastused teie saidile tekitavad serverile lisakoormust, mida te üldse ei vaja. Direktiiviväärtuseks on parem määrata täisarv, kuid nüüd on mõned robotid õppinud lugema ka murdarvu. Aega näidatakse sekundites, näiteks:

Kasutajaagent: Yandex
Roomamise viivitus: 5.5

Clean-param direktiiv

Valikuline direktiiv "Clean-param" juhendab indekseerijaid saidi aadressiparameetritest, mida pole vaja indekseerida ja mida tuleks käsitleda sama URL-ina. Näiteks kuvatakse samad lehed erinevatel aadressidel, mis erinevad ühe või mitme parameetri poolest.

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php? folder = 1 & page = 1

Otsingurobotid indekseerivad kõik sarnased lehed ja märkavad, et lehed on samad, sisaldavad sama sisu. Esiteks tekitab see indekseerimisel saidistruktuuris segadust. Teiseks suureneb serveri lisakoormus. Kolmandaks, skannimiskiirus langeb märgatavalt. Nende probleemide vältimiseks kasutatakse direktiivi "Clean-param". Süntaks on järgmine:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [tee]

Kõik otsingumootorid ei loe direktiivi „Clean-param”, nagu ka „Host”. Kuid Yandex mõistab seda.

Vead, mis on levinud failis robots.txt

Fail robots.txt ei ole saidi juur

Robotid. txt peaks asuma saidi juurest, ainult juurkataloogis... Otsingumootorid ignoreerivad kõiki teisi samanimelisi, kuid teistes kaustades (kataloogides) asuvaid faile.

Robots.txt failinime viga

Faili nimi on kirjutatud väikeste tähtedega (väiketähed) ja sellele tuleb anda nimi robotid.txt... Kõiki muid valikuid peetakse ekslikeks ja otsingumootorid teavitavad teid faili puudumisest. Tavalised vead näevad välja sellised:

ROBOTS.txt
Robots.txt
robot.txt

Failis robot.txt kehtetute märkide kasutamine

Fail robots.txt peab olema ANSI kodeeringuga ja sisaldama ainult ladina tähti. Direktiivide ja nende tähenduste kirjutamine teiste rahvuslike märkidega on vastuvõetamatu, välja arvatud kommentaaride sisu.

Robots.txt süntaksi vead

Järgige rangelt oma robots.txt -faili süntaksireegleid. Süntaksivigade tõttu võivad otsingumootorid ignoreerida kogu faili sisu.

Mitme roboti loetlemine ühel real User-agent direktiivis

Viga, mida algajad WEB-meistrid sageli oma laiskuse tõttu teevad, ei ole faili robots.txt jagamine osadeks, vaid mitme otsingumootori käskude kombineerimine ühte sektsiooni, näiteks:

Kasutajaagent: Yandex, Googlebot, Bing

Iga otsingumootori jaoks peate looma oma eraldi jaotise, võttes arvesse selle otsingumootori poolt loetavaid direktiive. Erandiks on sel juhul kõigi otsingumootorite jaoks üks jaotis:

Kasutajaagent tühja väärtusega

Kasutajaagendi direktiiv ei tohi olla tühi. Ainult "Luba" ja "Keela" võivad olla tühjad ja siis võttes arvesse asjaolu, et need muudavad oma väärtust. User-agent direktiivi tühja väärtusega määramine on ränk viga.

Keelatud direktiivis mitu väärtust

Vähem levinud viga, kuid sellegipoolest võib seda perioodiliselt saitidel näha, näitab see mitut väärtust direktiivides Luba ja Keela, näiteks:

Keela: / kaust1 / kaust2 / kaust3

Keela: / kaust1
Keela: / kaust2
Keela: / kaust3

Robotite.txt -s direktiivide tähtsuse määramise ebaõnnestumine

Seda viga on juba eespool kirjeldatud, kuid materjali konsolideerimiseks kordame seda. Varem määrati prioriteet direktiivide täpsustamise järjekorras. Tänase seisuga on reeglid muutunud, prioriteedi määrab rea pikkus. Kui fail sisaldab kahte teineteist välistavat direktiivi, mis on sama sisuga, luba ja keela, siis eelistatakse funktsiooni Luba.

Otsingumootorid ja fail robots.txt

Failis robots.txt olevad direktiivid on soovitused otsingumootoritele. See tähendab, et lugemisreegleid saab aeg -ajalt muuta või täiendada. Samuti pidage meeles, et iga otsingumootor käsitleb failidirektiive erinevalt. Ja kõik otsingumootorid ei loe kõiki direktiive. Näiteks ainult Yandex loeb täna direktiivi "Host". Samal ajal ei garanteeri Yandex, et hostidirektiivis peamiseks peegliks määratud domeeninimi määratakse tingimata peamisele, kuid väidab, et direktiivis nimetatud nimi eelistatakse.

Kui teil on väike reeglite kogum, saate luua kõigi robotite jaoks ühe jaotise. Muidu ärge olge laisk, looge igale huvipakkuvale otsingumootorile eraldi jaotised. See kehtib eriti keeldude kohta, kui te ei soovi, et otsingus leitaks teatud lehti.

Kiire navigeerimine sellel lehel:

Kaasaegne reaalsus on see, et Runetis ei saa ükski endast lugupidav sait hakkama ilma failita robots.tht - isegi kui teil pole midagi indekseerimist keelata (kuigi peaaegu igal saidil on tehnilisi lehti ja dubleeritud sisu, mis vajavad indekseerimist sulgemist), siis vähemalt tasub Yandexile kindlasti ette kirjutada direktiiv koos www -ga ja ilma www -ta - seda teenivad selle jaoks allpool käsitletavad reeglid robots.txt kirjutamiseks.

Mis on robots.txt?

Sellenimeline fail pärineb aastast 1994, kui W3C konsortsium otsustas kehtestada sellise standardi, et saidid saaksid otsingumootoritele indekseerimise juhised esitada.

Sellise nimega fail tuleb salvestada saidi juurkataloogi, selle paigutamine teistesse kaustadesse pole lubatud.

Fail täidab järgmisi funktsioone:

  1. keelab lehtede või lehtede rühmade indekseerimise
  2. võimaldab indekseerida mis tahes lehti või lehtede rühmi
  3. ütleb Yandexi robotile, milline saidi peegel on peamine (koos www -ga või ilma)
  4. näitab saidiplaani faili asukohta

Kõik neli punkti on veebisaidi otsingumootori optimeerimiseks äärmiselt olulised. Indekseerimise keelamine võimaldab blokeerida topelt sisu sisaldavate lehtede indekseerimise - näiteks sildilehed, arhiivid, otsingutulemused, prinditavad lehed jne. Dubleeriva sisu olemasolu (kui sama tekst, ehkki mitme lause suurune, on kahel või enamal lehel) on otsingumootorite pingereas saidi jaoks ebasoodne, seega peaks duplikaate olema võimalikult vähe.

Lubamisdirektiivil pole iseseisvat tähendust, kuna vaikimisi on kõik lehed indekseerimiseks juba saadaval. See töötab koos keelamisega - näiteks kui mõni kategooria on otsingumootorite jaoks täielikult suletud, kuid soovite selle või selle eraldi lehe avada.

Saidi peapeeglile osutamine on ka optimeerimise üks olulisemaid elemente: otsingumootorid peavad veebisaite www.yoursite.ru ja yoursite.ru kahte erinevat ressurssi, kui te ei ütle neile teisiti. Selle tulemusel kahekordistub sisu - duplikaatide ilmumine, väliste linkide tugevuse vähenemine (väliseid linke saab paigutada nii koos www -ga kui ka ilma selleta) ja selle tulemusel võib see põhjustada madalama asetuse otsingutulemusi.

Google'i jaoks on peamine peegel registreeritud veebimeistri tööriistades (http://www.google.ru/webmasters/), kuid Yandexi puhul saab neid juhiseid kirjutada ainult väga robots.tht.

XML -failile osutamine saidiplaaniga (näiteks sitemap.xml) võimaldab otsingumootoritel selle faili leida.

Kasutajaagendi spetsifikatsioonireeglid

Kasutajaagent on sel juhul otsingumootor. Juhiste kirjutamisel tuleb märkida, kas need kehtivad kõikidele otsingumootoritele (siis kinnitatakse tärn - *) või on need mõeldud mõnele eraldi otsingumootorile - näiteks Yandex või Google.

Kõigi robotite näitamiseks kasutajaagendi määramiseks kirjutage oma faili järgmine rida:

Kasutaja agent: *

Yandexi jaoks:

Kasutajaagent: Yandex

Google'i jaoks:

Kasutajaagent: GoogleBot

Keelake ja lubage reeglid

Esiteks tuleb märkida, et fail robots.txt peab sisaldama vähemalt ühte keelamisdirektiivi. Kui nüüd kaaluda nende direktiivide rakendamist konkreetsete näidetega.

Selle koodi abil lubate saidi kõigi lehtede indekseerimise:

User-agent: * Keela:

Ja sellise koodi abil suletakse vastupidi kõik lehed:

User-agent: * Keela: /

Konkreetse kataloogi nimega indekseerimise keelamiseks määrake:

User-agent: * Keela: / kaust

Võite suvalise nime asendamiseks kasutada ka tärni:

Kasutajaagent: * Keela: * .php

Tähtis: tärn asendab kogu failinime, see tähendab, et te ei saa määrata faili * .php, saate määrata ainult * .php (kuid kõik lehed laiendiga .php on keelatud, selle vältimiseks saate määrata konkreetse lehe aadress).

Lubamisdirektiivi, nagu eespool mainitud, kasutatakse keelamise erandite loomiseks (muidu pole sellel mõtet, kuna lehed on vaikimisi juba avatud).

Näiteks keelame arhiivikaustas lehe indekseerimise, kuid jätame selle kataloogi lehe index.html avatuks:

Luba: /archive/index.html Keela: /archive /

Määrake host ja saidikaart

Hosti on saidi peamine peegel (st domeeninimi pluss www või domeeninimi ilma selle eesliideta). Host on määratud ainult Yandexi robotile (sel juhul peab olema vähemalt üks keelamiskäsk).

Hosti robots.txt määramiseks peab sisalduma järgmine kirje:

Kasutajaagent: Yandex Keela: Host: www.yoursite.ru

Mis puudutab saidikaarti, siis robots.txt failis kuvatakse saidiplaan, kirjutades lihtsalt vastava faili täieliku tee, näidates domeeninime:

Sisukaart: http: //yoursite.ru/sitemap.xml

Kirjutatud on, kuidas WordPressile saidiplaani teha.

WordPressi näide robots.txt

Wordpressi puhul tuleb juhised täpsustada nii, et need sulgeksid indekseerimiseks kõik tehnilised kataloogid (wp-admin, wp-include jne), aga ka siltide, rss-failide, kommentaaride, otsingu abil loodud duplikaatlehed.

Wordpressi robots.txt näitena võite võtta faili meie saidilt:

User-agent: Yandex Keela: / wp-admin Keela: / wp-sisaldab Keela: /wp-login.php Keela: /wp-register.php Keela: /xmlrpc.php Keela: / otsing Keela: * / trackback Keela: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Disallow: * / page / * Disallow: * / comment Disallow: * / tag / * Disallow: * / manus / * Luba: / wp-content / uploads / Host: www..php Keela: /wp-register.php Keela: /xmlrpc.php Keela: / otsing Keela: * / trackback Keela: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Keela: * / page / * Disallow: * / comment Disallow: * / tag / * Keela: * / manus / * Luba: / wp -content / uploads / User-agent: * Keela: / wp-admin Keela: / wp-sisaldab Keela: /wp-login.php Keela: /wp-register.php Keela: /xmlrpc.php Keela: / otsing Keela: * / trackback Disallow: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Disallow: * / page / * Disallow: * / comment Disallow: * / tag / * Disa llow: * / manus / * Luba: / wp-content / uploads / Sisukaart: https: //www..xml

Faili robots.txt saate alla laadida meie veebisaidilt aadressilt.

Kui teil on pärast selle artikli lugemist veel küsimusi - küsige kommentaarides!